Indexación web: qué es y cómo controlar qué páginas se indexan • Arquitectura de la Información (para web)

Definición: Proceso por el que un buscador incorpora el contenido de una URL a su base de datos (índice) para poder mostrarlo en los resultados de búsqueda cuando sea relevante para una consulta.

El proceso completo:

Descubrimiento: el buscador encuentra la URL (a través de un enlace, del sitemap o de una solicitud manual).
Rastreo: el buscador descarga y procesa el contenido de la URL.
Indexación: el buscador decide si el contenido merece ser incluido en su índice y lo incorpora.
Ranking: cuando un usuario realiza una búsqueda, el buscador decide qué URLs indexadas son más relevantes y en qué orden mostrarlas.

Control de la indexación: El propietario del sitio puede indicar a los buscadores cómo tratar cada URL:

index — la página puede indexarse (valor por defecto).
noindex — la página no debe indexarse.
follow — los enlaces de la página pueden seguirse.
nofollow — los enlaces de la página no deben seguirse.

Estas directivas se aplican en la meta etiqueta robots del <head>:

<meta name="robots" content="noindex, follow" />

Qué no indexar en un sitio típico: Páginas de paginación (en muchos casos), archivos de taxonomía vacíos o con poco contenido, páginas de resultados de búsqueda interna, páginas de administración o acceso privado, landing pages de campañas temporales, páginas de confirmación de formularios.

Diferencia con robots.txt: robots.txt controla el rastreo (si el buscador puede visitar la URL). La directiva noindex controla la indexación (si el buscador debe incluir la URL en su índice). Una página puede rastrearse y no indexarse; no puede indexarse sin ser rastreada.

Relacionado con: Robots.txt, canonical, sitemap, rastreo.