Nejvýkonnější servery Nejvýkonnější servery
Dlouhodobý vítěz
ve srovnávacích testech výkonu
Robots.txt patří mezi základní SEO prvky na webu. S jeho pomocí dokážete pozitivně ovlivnit výkon vašeho webu a limitovat obsah informací, které se budou zobrazovat ve výsledcích vyhledávání. Ve článku si podrobněji řekneme co soubor robots.txt je, proč je důležitý, jak by měl vypadat jeho správný zápis a čemu se vyvarovat při jeho implementaci.

Co je soubor robots.txt?

Soubor robots.txt je obyčejný textový soubor, který vytvoříte např. v poznámkovém bloku. Název souboru musí být psán malými písmeny a musí být umístěn v kořenovém adresáři webu (hned za .cz/.sk/.com atp.), například takto https://www.zonercloud.cz/robots.txt

Na každém řádku je uvedeno, který robot (user-agent) kam nesmí. Vyhledávače pravidelně soubor robots.txt na webech kontrolují, aby zjistily, zda existují nějaké pokyny pro procházení webu. Tyto instrukce nazýváme direktivy. Pokud není přítomen žádný soubor robots.txt, nebo neexistují žádné použitelné příkazy, vyhledávače automaticky prohledají celý web.

Ačkoli všechny hlavní vyhledávače soubor robots.txt respektují, některé se mohou rozhodnout jej ignorovat (nebo jeho části). Zatímco příkazy v souboru robots.txt jsou silným signálem pro vyhledávače, je důležité si uvědomit, že tento soubor je pouze souhrn volitelných direktiv, nikoli příkazů.

UPOZORNĚNÍ: Nenechte se zmást na první pohled jednoduchým neškodným souborem. Při neodborném zacházení může natropit velkou škodu.

Proč by vás měl zajímat?

Soubor robots.txt je velmi důležitý i pro účely SEO. U větších webových stránek je robots.txt dokonce nezbytný. Zabraňuje duplicitnímu obsahu a poskytuje vyhledávačům užitečné tipy, jak mohou vaše webové stránky procházet efektivněji.

Při provádění změn v souboru robots.txt však buďte opatrní. Tento soubor může způsobit, že velké části vašeho webu budou pro vyhledávače nedostupné.

WordPress server
nyní se SLEVOU 50 %

Výkonný a snadno použitelný server nejen pro WordPress s přehlednou administrací, pravidelnou zálohou a SSL certifikáty ZDARMA s automatickou instalací a následnou obnovou.

Vytvářejte si neomezený počet služeb již od 340 Kč měsíčně!

WordPress pro každého

User-agent v souboru robots.txt

Každý vyhledávač by se měl identifikovat pomocí tzv. user-agenta:

Toto označení v souboru robots.txt vždy definuje začátek skupiny směrnic. Všechny direktivy mezi prvním user-agent a dalším user-agent záznamem jsou považovány za direktivy pro první záznam user-agent.

Direktivy se mohou vztahovat pouze na konkrétní vyhledávače, ale mohou být také použitelné na všechny user-agenty. V takovém případě se použije zástupný znak User-agent: *.

Jak má soubor robots.txt vypadat?

Níže uvádíme několik příkladů zápisu robots.txt:

    Přístup povolen všem robotům ke všemu

    Existuje několik způsobů, jak sdělit vyhledávačům, že mají přístup ke všem souborům:

    User-agent: *
    Disallow:

    Druhou možností je nechat soubor robots.txt prázdný nebo jej nemít vůbec.

    Přístup zakázán všem robotům

    Níže uvedený příklad robots.txt říká všem vyhledávačům, aby nevstupovaly na celý web:

    User-agent: *
    Disallow: /

    Berte prosím na vědomí, že pouze JEDEN znak navíc může mít zásadní dopad.

    Přístup zakázán všem Google robotům

    User-agent: googlebot
    Disallow: /

    Upozorňujeme, že pokud Googlebota zakážete, platí to pro všechny Googleboty. To zahrnuje roboty Google, kteří hledají například zprávy (googlebot-news) a obrázky (googlebot-images).

    Přístup zakázán všem Googlebot (Google) a Slurp (Yahoo)

    User-agent: Slurp
    User-agent: googlebot
    Disallow: /

    Přístup zakázán všem robotům ke 2 různým adresářům

    User-agent: *
    Disallow: /admin/
    Disallow: /private/

    Soubor robots.txt optimalizovaný pro WordPress

    Níže uvedený soubor robots.txt je speciálně optimalizován pro WordPress za předpokladu, že nechcete, aby byly prohledávány:

    • administrátorská sekce
    • vaše interní stránky s výsledky vyhledávání
    • stránky se jmény autorů článku
    • 404 error stránka

    User-agent: *
    Disallow: /wp-admin/ #block access to admin section
    Disallow: /wp-login.php #block access to admin section
    Disallow: /search/ #block access to internal search result pages
    Disallow: *?s=* #block access to internal search result pages
    Disallow: *?p=* #block access to pages for which permalinks fails
    Disallow: *&p=* #block access to pages for which permalinks fails
    Disallow: *&preview=* #block access to preview pages
    Disallow: /tag/ #block access to tag pages
    Disallow: /author/ #block access to author pages
    Disallow: /404-error/ #block access to 404 page

    Sitemap: https://www.example.com/sitemap_index.xml

    Vezměte prosím na vědomí, že tento soubor robots.txt bude ve většině případů fungovat, ale měli byste jej vždy upravit a otestovat, abyste se ujistili, že platí přesně pro vaši situaci.

TIP: V roce 2019 Google navrhl rozšíření protokolu Robots Exclusion Protocol a zpřístupnil svůj analyzátor robots.txt jako open source.

UPOZORNĚNÍ: Každá direktiva by měla být na samostatném řádku, jinak byste vyhledávače mohli při analýze souboru robots.txt zbytečně mást.

Příklad nesprávného souboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Na co si dát pozor při implementaci?

Při implementaci souboru robots.txt mějte na paměti následující doporučené postupy:

  • Při provádění změn v souboru robots.txt buďte opatrní. Tento soubor může způsobit, že velké části vašeho webu budou pro vyhledávače nedostupné.
  • Soubor robots.txt by měl být umístěn v kořenovém adresáři vašeho webu
    (např. https://www.zonercloud.cz/robots.txt).
  • Soubor robots.txt je platný pro celou doménu, ve které se nachází, včetně protokolu (http nebo https). Pro subdomény je pak potřeba soubor další.
  • Různé vyhledávače interpretují příkazy jinak. Ve výchozím nastavení vždy vyhrává první odpovídající direktiva, u Google a Bing vítězí specifičnost.
  • Pro soubory robots.txt Google aktuálně podporuje limit velikosti souboru 512 kilobajtů. Jakýkoli obsah nad tuto maximální velikost může být ignorován.
  • Vyhněte se co nejvíce používání direktivy crawl-delay*
  • *Google uvedl, že soubor robots.txt je obecně uložen do mezipaměti po dobu až 24 hodin. Je důležité vzít to v úvahu při provádění jakýchkoliv změn v souboru robots.txt. Obecně je nejlepší vyhnout se ukládání souboru robots.txt do mezipaměti, aby vyhledávačům netrvalo zbytečně dlouho než zachytí provedené změny.