
El formato del protocolo Sitemap consta de etiquetas XML. Todos los valores de datos de un Sitemap deben incluir caracteres de escape de entidad. El propio archivo debe estar codificado en UTF-8.
El Sitemap debe:
Comenzar con una etiqueta de apertura <urlset> y terminar con una de cierre </urlset>.
Especificar el espacio de nombres (protocolo estándar) en la etiqueta urlset.
Incluir una entrada <url> para cada dirección URL como una etiqueta XML principal.
Incluir una entrada secundaria <loc> para cada etiqueta principal <url>.
Las demás etiquetas son opcionales. La compatibilidad de estas etiquetas opcionales puede variar en función del motor de búsqueda. Consulte la documentación específica de cada uno de ellos para obtener información detallada.
Además, todas las direcciones URL de un Sitemap deben proceder de un único host, como www.example.com o store.example.com. Para obtener más detalles, consulte Ubicación de archivos de Sitemap
Ejemplo de un Sitemap en formato XML
El siguiente ejemplo muestra un Sitemap que contiene únicamente una URL y usa todas las etiquetas opcionales. Las etiquetas opcionales están en cursiva.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
También puede consultar nuestro ejemplo con varias URL.
Definiciones de las etiquetas XML
Las etiquetas XML disponibles se describen a continuación.
Atributo Descripción
<urlset> obligatorio Encapsula el archivo y hace referencia al protocolo estándar actual.
<url> obligatorio Etiqueta principal de cada entrada de URL. Las demás etiquetas son secundarias de esa.
<loc> obligatorio URL de la página. Esta URL debe comenzar con el protocolo (por ej., http) y acabar con una barra diagonal, si su servidor web así lo requiere. Este valor debe contener menos de 2.048 caracteres.
<lastmod> opcional Fecha de la última modificación del archivo. Esta fecha debe encontrarse en formato Fecha y hora de W3C. Este formato le permite omitir la parte referente a la hora, si así lo desea, y utilizar AAAA-MM-DD.
Tenga en cuenta que esta etiqueta es independiente de la cabecera “If-Modified-Since (304)” que puede mostrar el servidor y que los motores de búsqueda pueden utilizar la información de ambas fuentes de forma diferente.
<changefreq> opcional Frecuencia con la que puede cambiar esta página. Este valor proporciona información general a los motores de búsqueda y es posible que no se corresponda exactamente con la frecuencia de rastreo de la página. Valores aceptados:
always
hourly
daily
weekly
monthly
yearly
never
El valor "always" (siempre) debe utilizarse para describir documentos que cambian cada vez que se obtiene acceso a ellos. El valor "never" (nunca) debe utilizarse para describir direcciones URL archivadas.
Tenga en cuenta que el valor de esta etiqueta se considera una sugerencia y no una orden. A pesar de que los rastreadores de motores de búsqueda puedan tener en cuenta esta información a la hora de tomar decisiones, pueden rastrear páginas marcadas "hourly" (cada hora) con menor frecuencia de lo que indica la marca, así como rastrear páginas marcadas "yearly" (cada año) con más asiduidad. Asimismo, pueden rastrear periódicamente páginas marcadas "never" (nunca) para poder manejar los cambios inesperados que se produzcan en ellas.
<priority> opcional La prioridad de esta dirección URL es relativa con respecto a las demás URL de su sitio. Los valores válidos abarcan desde 0,0 a 1,0. Este valor no afecta a la comparación de sus páginas con respecto a las de otros sitios; únicamente permite informar a los motores de búsqueda de las páginas que considera más importantes para los rastreadores.
La prioridad predeterminada de una página es 0,5.
Tenga en cuenta que la prioridad que asigne a la página no suele influir en la posición de sus URL en las páginas de resultados de los motores de búsqueda. Los motores de búsqueda pueden utilizar esta información para elegir entre varias URL del mismo sitio, de modo que puede emplear esta etiqueta para incrementar las probabilidades de que sus páginas más importantes se incluyan en un índice de búsqueda.
Asimismo, tenga en cuenta que la asignación de alta prioridad a todas las URL de su sitio probablemente no le servirá de ayuda, dado que la prioridad es relativa y sólo se utiliza para elegir entre las distintas URL de su sitio.
Caracteres de escape de entidad
Su archivo de Sitemap debe tener codificación UTF-8; habitualmente puede establecerlo así al guardar el archivo. Al igual que con los archivos XML, los valores de datos (incluidas las URL) deben utilizar caracteres de escape de entidad para los caracteres de la tabla que encontrará más abajo.
Carácter Código de caracteres de escape
Símbolo de unión & &
Comillas simples ' '
Comillas " "
Mayor que > >
Menor que < <
Además, todas las direcciones URL (incluida la de su Sitemap) deben contener caracteres de escape y estar codificadas de modo que el servidor Web en el que se encuentran las pueda leer. No obstante, si emplea cualquier tipo de script, herramienta o archivo de registro para generar sus direcciones URL (cualquier método a excepción de la escritura a mano), esto se suele hacer automáticamente. Asegúrese de que sus direcciones URL se ajustan al estándar RFC-3986 para direcciones URI, al estándar RFC-3987 para direcciones IRI y al estándar XML.
A continuación se incluye un ejemplo de una dirección URL que emplea un carácter no ASCII (ü), así como un carácter que necesita escape de entidad (&:
http://www.example.com/ümlat.php&q=name
A continuación se encuentra la misma URL, con codificación ISO-8859-1 (para su alojamiento en un servidor que utiliza esa codificación) y la URL con caracteres de escape:
http://www.example.com/%FCmlat.php&q=name
A continuación se encuentra la misma URL, con codificación UTF-8 (para su alojamiento en un servidor que utiliza esa codificación) y la URL con caracteres de escape:
http://www.example.com/%C3%BCmlat.php&q=name
A continuación encontrará la misma URL, pero también caracteres de escape de entidad:
http://www.example.com/%C3%BCmlat.php&q=name
Sitemap XML de ejemplo
El siguiente ejemplo muestra un Sitemap en formato XML. El Sitemap en cuestión contiene un número reducido de URL, cada una de las cuales presenta un conjunto diferente de parámetros opcionales.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc>
<lastmod>2004-12-23T18:00:15+00:00</lastmod>
<priority>0.3</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
<lastmod>2004-11-23</lastmod>
</url>
</urlset>

