Podpora indexace ve vyhledávačích pomocí sitemap.xml
Tento článek jsem měl rozepsaný několik let a jeho fragmenty posílal podle potřeby kolegům. Martin Pešout mě přivedl ke KontentKing a jejich skvělým článkům — směle čtěte Soubor sitemap XML ve zkratce anebo souhrn níže.
Na co nezapomenout
- Zahrnout pouze URL důležité z hlediska SEO. Google chápe URL uvedené v
sitemap.xml
jako důležité a indexuje je primárně. - Je výborným místem, kde definovat URL, které mají být z indexu vyhozeny. Zde uvedené URL pro vyhození se nejrychleji zpracují.
- Tag
loc
je povinný, musí obsahovat absolutní a kanonickou URL (samozřejmě stejná jako v meta značce). Za kanonickou URL považujeme i tzv. self-canonical. - V případě více jazyků nezapomenout uvést jazykové alternace
hreflang
a opět propsat do příslušných meta. - Tag
lastmod
je sice nepovinný, ale velice důležitý, protože informuje robota o změně, a tedy vhodnosti reindexace. Při generování je nutné, aby se změna datumu provedla vždy při větší změně obsahu stránky. Tj. nejen při opravě překlepů :-) Google často aktualizované stránky s minimální změnou částečně penalizuje. - Tagy
changefreq
aprio
nejsou při správném používánílastmod
důležité. - Podívat se na specifikaci pro vkládání obrázků nebo videí, u větších projektů opět k vůli cwarl budgetu nezahrnovat a využít JSON-LD.
- Do sitemap nevkládat URL na články (novinky) a místo toho využít formát pro RSS/Atom feedy. Nezapomenout propsat do meta značky.
- Pro větší projekty je dobré si ověřit aktuální specifikaci, např. omezení na 50 MB v nekomprimovaném stavu (lze
index.xml.gz
), max. 50000 URL, využítsitemap-index.xml
resp.sitemap-index.xml.gz
.
Co by se nemělo do XML dostat
- Ne-kanonické stránky
- Duplicitní stránky
- Stánky se stránkováním 2+ včetně
- S parametry nebo session ID
- Výsledky vyhledávání (interní)
- Různé verze vzniklé pro sdílení (zkrácené pro twitter, do e‑mailu atp.)
- URL vzniklé použitím filtrováním, které nejsou důležité pro indexaci (viz SEO vzorce a noindex)
- Archivované stránky
- Jakákoli přesměrování 3xx, chybějící stránky 4xx nebo chybové 5xx
- Stránky blokované v
robots.txt
- Stránky v noindex
- Stránky po odeslání formuláře atp.
- Stránky, které mají význam jen pro uživatele jako je login, kontaktní formulář, privacy policy atp.
Závěr
Snad sumarizace pomohla v zorientování se v tématu sitemap :-)