Sitemaps


Un sitemap XML es un archivo que lista las URLs de un sitio web con el objetivo de ayudar a los buscadores a descubrir y rastrear su contenido. Es una línea de comunicación directa entre el sitio y los buscadores: el propietario del sitio declara explícitamente qué URLs existen y merecen ser rastreadas.

Pero un sitemap mal construido —que incluye URLs de baja calidad, URLs con noindex, URLs rotas o URLs duplicadas— no ayuda. En el mejor caso, es ignorado. En el peor, envía señales contradictorias que confunden al rastreador.


Para qué sirve realmente un sitemap

Un sitemap no garantiza la indexación. Los buscadores descubren URLs por sus propios medios (siguiendo enlaces) y deciden qué indexar según sus propios criterios. El sitemap es una sugerencia, no una orden.

Lo que sí hace el sitemap:

  • Acelera el descubrimiento de URLs que no están bien enlazadas internamente.
  • Comunica metadatos opcionales como la fecha de última modificación.
  • Facilita el rastreo de sitios grandes con miles o millones de URLs.
  • Permite segmentar el contenido por tipo (páginas, artículos, productos, imágenes, vídeos) para un seguimiento más preciso en las herramientas de buscadores.

Lo que no hace:

  • No obliga a los buscadores a indexar las URLs listadas.
  • No mejora el posicionamiento directamente.
  • No sustituye a una buena estructura de enlaces internos.

Qué incluir en el sitemap

La regla es simple: solo URLs indexables con contenido de valor.

Esto significa incluir:

  • Artículos publicados y públicos.
  • Fichas de producto activas.
  • Páginas estáticas principales.
  • Páginas de curso y lección (las que son públicas).
  • Entradas del glosario.
  • Archivos de categoría que se indexan.

Qué excluir del sitemap

URLs con noindex: Si una URL tiene la directiva noindex, incluirla en el sitemap es una contradicción. El sitemap dice “aquí hay algo que vale la pena rastrear”; el noindex dice “no lo indexes”. Los buscadores interpretan esta contradicción como una señal de inconsistencia. Las URLs en noindex deben estar fuera del sitemap.

URLs que redirigen: Las URLs que devuelven un 301 o 302 no deben estar en el sitemap. El sitemap debe contener solo URLs finales (las que devuelven 200). Si una URL redirecciona a otra, incluir la URL de destino, no la de origen.

URLs duplicadas: Si el mismo contenido es accesible desde varias URLs, solo debe incluirse la URL canónica en el sitemap.

URLs con parámetros de seguimiento: ?utm_source=newsletter y similares no deben estar en el sitemap. Solo la URL limpia.

Páginas de paginación: Habitualmente no. La página 1 del archivo puede incluirse; las páginas 2, 3… generalmente no.

Archivos de etiqueta con noindex: Si los archivos de etiqueta están en noindex, no deben estar en el sitemap.

Páginas de búsqueda interna: Nunca en el sitemap.

Páginas de administración y acceso privado: Nunca en el sitemap.


Estructura de un sitemap XML básico

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.ejemplo.com/glosario/taxonomia/</loc>
    <lastmod>2024-10-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://www.ejemplo.com/fundamentos/que-es-la-arquitectura-de-informacion/</loc>
    <lastmod>2024-11-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.9</priority>
  </url>
</urlset>

Campos y su valor real:

<loc> — Obligatorio. La URL canónica completa, con protocolo y dominio. Siempre https://, siempre con el www si el sitio lo usa, siempre con la barra final si el sitio la usa.

<lastmod> — Opcional pero recomendado. La fecha de última modificación real del contenido en formato ISO 8601 (YYYY-MM-DD). Solo tiene valor si refleja cambios reales en el contenido. Si todos los artículos tienen la misma fecha de lastmod porque el CMS la actualiza con cualquier cambio de metadatos, la señal pierde valor.

<changefreq> — Opcional. Indicación de la frecuencia de cambio (alwayshourlydailyweeklymonthlyyearlynever). Google ha declarado que no usa este campo para determinar la frecuencia de rastreo. Tiene valor informativo limitado.

<priority> — Opcional. Valor entre 0.0 y 1.0 que indica la importancia relativa de la URL respecto al resto del sitio. Google ha declarado que tampoco usa este campo de forma significativa. Poner todas las URLs con priority=1.0 no tiene ningún efecto positivo.


Sitemaps de índice para sitios grandes

El protocolo de sitemap permite un máximo de 50.000 URLs por archivo de sitemap y un tamaño máximo de 50 MB (sin comprimir). Para sitios con más URLs, se usa un sitemap índice que agrupa múltiples sitemaps:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.ejemplo.com/sitemap-paginas.xml</loc>
    <lastmod>2024-11-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.ejemplo.com/sitemap-articulos.xml</loc>
    <lastmod>2024-11-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.ejemplo.com/sitemap-productos.xml</loc>
    <lastmod>2024-11-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.ejemplo.com/sitemap-glosario.xml</loc>
    <lastmod>2024-11-01</lastmod>
  </sitemap>
</sitemapindex>

Segmentar el sitemap por tipo de contenido tiene ventajas incluso para sitios que no superan el límite de 50.000 URLs: permite monitorizar el estado de indexación de cada tipo de contenido de forma independiente en Google Search Console.


Sitemaps especializados

Además del sitemap de URLs estándar, existen extensiones del protocolo para tipos de contenido específicos:

Sitemap de imágenes: Incluye metadatos sobre las imágenes (título, descripción, licencia). Útil para sitios con mucho contenido visual.

Sitemap de vídeos: Incluye metadatos sobre los vídeos (duración, descripción, miniatura). Necesario para aparecer en los resultados de búsqueda de vídeo de Google.

Sitemap de noticias: Para publicaciones de noticias que quieren aparecer en Google Noticias. Tiene requisitos específicos (artículos publicados en los últimos dos días, nombre de la publicación, fecha de publicación).


Envío y monitorización del sitemap

El sitemap debe enviarse a los buscadores principales a través de sus herramientas de administración:

  • Google: Google Search Console > Sitemaps.
  • Bing: Bing Webmaster Tools > Sitemaps.

También debe declararse en el archivo robots.txt:

Sitemap: https://www.ejemplo.com/sitemap.xml

Una vez enviado, Google Search Console muestra cuántas URLs del sitemap ha descubierto y cuántas ha indexado. La diferencia entre URLs enviadas e URLs indexadas es una señal diagnóstica: si hay muchas URLs enviadas pero pocas indexadas, hay un problema de calidad del contenido o de estructura de la arquitectura.


En WordPress

Los principales plugins de SEO (Yoast, Rank Math, SEOPress) generan sitemaps automáticamente con configuración granular: qué tipos de contenido incluir, qué taxonomías incluir, número máximo de URLs por archivo. Son la forma estándar de gestionar sitemaps en WordPress.

La URL del sitemap generado por Yoast es por defecto https://www.ejemplo.com/sitemap_index.xml. En Rank Math, https://www.ejemplo.com/sitemap_index.xml también. En ambos casos es configurable.


Para profundizar