Robots.txt: qué es, cómo funciona y qué errores evitar • Arquitectura de la Información (para web)

Definición: Archivo de texto ubicado en la raíz del dominio (https://www.ejemplo.com/robots.txt) que indica a los rastreadores automáticos (principalmente los de los buscadores) qué URLs pueden o no pueden rastrear.

Sintaxis básica:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-json/
Disallow: /busqueda/

User-agent: Googlebot
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.ejemplo.com/sitemap.xml

Importante: robots.txt controla el rastreo, no la indexación. Esta confusión es muy habitual. Una URL bloqueada en robots.txt no puede ser rastreada, pero puede aparecer en los resultados de búsqueda si otros sitios enlazan a ella. Para impedir la indexación de una URL, se usa la meta etiqueta noindex, no robots.txt.

Qué bloquear habitualmente:

/wp-admin/ (excepto admin-ajax.php si es necesario para el frontend)
/wp-json/ — la API REST de WordPress no necesita ser rastreada
/busqueda/ o el patrón /?s= — las páginas de resultados de búsqueda interna no aportan valor
Páginas de acceso privado o de staging

Error crítico: Bloquear con robots.txt recursos (CSS, JS, imágenes) necesarios para renderizar el contenido. Los buscadores modernos renderizan las páginas como un navegador; si no pueden acceder a los recursos de diseño, pueden interpretar mal el contenido.

Relacionado con: Indexación, rastreo, sitemap, noindex.