Definición: Archivo de texto ubicado en la raíz del dominio (https://www.ejemplo.com/robots.txt) que indica a los rastreadores automáticos (principalmente los de los buscadores) qué URLs pueden o no pueden rastrear.
Sintaxis básica:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-json/
Disallow: /busqueda/
User-agent: Googlebot
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.ejemplo.com/sitemap.xml
Importante: robots.txt controla el rastreo, no la indexación. Esta confusión es muy habitual. Una URL bloqueada en robots.txt no puede ser rastreada, pero puede aparecer en los resultados de búsqueda si otros sitios enlazan a ella. Para impedir la indexación de una URL, se usa la meta etiqueta noindex, no robots.txt.
Qué bloquear habitualmente:
/wp-admin/(exceptoadmin-ajax.phpsi es necesario para el frontend)/wp-json/— la API REST de WordPress no necesita ser rastreada/busqueda/o el patrón/?s=— las páginas de resultados de búsqueda interna no aportan valor- Páginas de acceso privado o de staging
Error crítico: Bloquear con robots.txt recursos (CSS, JS, imágenes) necesarios para renderizar el contenido. Los buscadores modernos renderizan las páginas como un navegador; si no pueden acceder a los recursos de diseño, pueden interpretar mal el contenido.
Relacionado con: Indexación, rastreo, sitemap, noindex.