SEO e indexación: qué controlar y cómo hacerlo desde la arquitectura • Arquitectura de la Información (para web)

El SEO que interesa a este sitio no es el de las palabras clave ni el de la construcción de enlaces. Es el control de la visibilidad: qué contenido debe estar en el índice de los buscadores y cuál no, cómo se declara la versión preferida de una URL cuando hay varias posibles, y cómo se comunica la estructura del sitio a los sistemas que lo rastrean. Desde esta perspectiva, el SEO es una extensión de la arquitectura de la información, no una disciplina separada. El punto de partida es la pregunta más básica: qué páginas de un sitio merecen estar indexadas y con qué criterios se toma esa decisión.

La pregunta opuesta —qué no debe indexarse— es igualmente importante y tiene más casos específicos que la primera. Los archivos de etiquetas, las páginas de paginación, los resultados de búsqueda interna, las páginas facetadas de bajo valor, las confirmaciones de formulario y los endpoints de la API REST de WordPress son todos candidatos a noindex, cada uno por razones distintas. Todos los tipos de página que no deben estar en el índice, con el razonamiento específico de cada uno y cómo implementar la exclusión es una guía exhaustiva de esos casos.

El control del rastreo —qué puede visitar el buscador— se gestiona con el archivo robots.txt. Es el primer punto de contacto entre un rastreador y un sitio, y también el que más errores críticos concentra: bloquear recursos de renderizado, confundir rastreo con indexación o bloquear accidentalmente todo el sitio son errores que ocurren con más frecuencia de lo que debería. La configuración correcta de robots.txt, con la plantilla recomendada para WordPress y los errores que nunca deben cometerse es lectura obligatoria antes de tocar ese archivo. El sitemap XML, por su parte, no es un volcado de todas las URLs del sitio: es una declaración de qué URLs merecen ser rastreadas, y su calidad importa tanto como su existencia. Qué incluir y qué excluir del sitemap, cómo estructurarlo para sitios grandes y cómo monitorizarlo complementa el control del rastreo.

El canonical resuelve el problema de la URL preferida cuando el mismo contenido es accesible desde varias direcciones. Tiene más escenarios de aplicación de lo que parece: self-canonicals, parámetros UTM, paginación, variantes de producto, contenido sindicado y multiidioma son todos casos donde el canonical juega un papel distinto. La guía práctica de canonical con todos esos escenarios y los errores más graves que se cometen en producción cubre ese territorio. Y para cerrar, los datos estructurados: la capa técnica que hace que la arquitectura del sitio sea comprensible no solo para los usuarios sino para las máquinas. Schema.org en la práctica, con implementaciones JSON-LD para artículos, productos, eventos, glosario, breadcrumbs y FAQs es el puente entre la arquitectura y la web semántica.