Jak zabránit přístupu robotů na váš web pomocí souboru robots.txt

6. ledna 2022 | Daniel Šafařík

Obsah

Úvod
Co je soubor robots.txt?
Proč by vás měl zajímat?
User-agent v souboru robots.txt
Jak má soubor robots.txt vypadat?
Na co si dát pozor při implementaci?

Sdílejte článek

Mohlo by vás dále zajímat

Nenašli jste co jste hledali?

Kontaktujte nás

Robots.txt patří mezi základní SEO prvky na webu. S jeho pomocí dokážete pozitivně ovlivnit výkon vašeho webu a limitovat obsah informací, které se budou zobrazovat ve výsledcích vyhledávání. Ve článku si podrobněji řekneme co soubor robots.txt je, proč je důležitý, jak by měl vypadat jeho správný zápis a čemu se vyvarovat při jeho implementaci.

Co je soubor robots.txt?

Soubor robots.txt je obyčejný textový soubor, který vytvoříte např. v poznámkovém bloku. Název souboru musí být psán malými písmeny a musí být umístěn v kořenovém adresáři webu (hned za .cz/.sk/.com atp.), například takto https://www.zonercloud.cz/robots.txt

Na každém řádku je uvedeno, který robot (user-agent) kam nesmí. Vyhledávače pravidelně soubor robots.txt na webech kontrolují, aby zjistily, zda existují nějaké pokyny pro procházení webu. Tyto instrukce nazýváme direktivy. Pokud není přítomen žádný soubor robots.txt, nebo neexistují žádné použitelné příkazy, vyhledávače automaticky prohledají celý web.

Ačkoli všechny hlavní vyhledávače soubor robots.txt respektují, některé se mohou rozhodnout jej ignorovat (nebo jeho části). Zatímco příkazy v souboru robots.txt jsou silným signálem pro vyhledávače, je důležité si uvědomit, že tento soubor je pouze souhrn volitelných direktiv, nikoli příkazů.

UPOZORNĚNÍ: Nenechte se zmást na první pohled jednoduchým neškodným souborem. Při neodborném zacházení může natropit velkou škodu.

Proč by vás měl zajímat?

Soubor robots.txt je velmi důležitý i pro účely SEO. U větších webových stránek je robots.txt dokonce nezbytný. Zabraňuje duplicitnímu obsahu a poskytuje vyhledávačům užitečné tipy, jak mohou vaše webové stránky procházet efektivněji.

Při provádění změn v souboru robots.txt však buďte opatrní. Tento soubor může způsobit, že velké části vašeho webu budou pro vyhledávače nedostupné.

WordPress server
nyní se SLEVOU 50 %

Výkonný a snadno použitelný server nejen pro WordPress s přehlednou administrací, pravidelnou zálohou a SSL certifikáty ZDARMA s automatickou instalací a následnou obnovou.

Vytvářejte si neomezený počet služeb již od 340 Kč měsíčně!

Chci WordPress

User-agent v souboru robots.txt

Každý vyhledávač by se měl identifikovat pomocí tzv. user-agenta:

"Googlebot" (Google)
"Seznambot" (Seznam)
"Slurp" (Yahoo)
"Bingbot" (Bing)

Toto označení v souboru robots.txt vždy definuje začátek skupiny směrnic. Všechny direktivy mezi prvním user-agent a dalším user-agent záznamem jsou považovány za direktivy pro první záznam user-agent.

Direktivy se mohou vztahovat pouze na konkrétní vyhledávače, ale mohou být také použitelné na všechny user-agenty. V takovém případě se použije zástupný znak User-agent: *.

Jak má soubor robots.txt vypadat?

Níže uvádíme několik příkladů zápisu robots.txt:

Přístup povolen všem robotům ke všemu

Existuje několik způsobů, jak sdělit vyhledávačům, že mají přístup ke všem souborům:

User-agent: *
Disallow:

Druhou možností je nechat soubor robots.txt prázdný nebo jej nemít vůbec.

Přístup zakázán všem robotům

Níže uvedený příklad robots.txt říká všem vyhledávačům, aby nevstupovaly na celý web:

User-agent: *
Disallow: /

Berte prosím na vědomí, že pouze JEDEN znak navíc může mít zásadní dopad.

Přístup zakázán všem Google robotům

User-agent: googlebot
Disallow: /

Upozorňujeme, že pokud Googlebota zakážete, platí to pro všechny Googleboty. To zahrnuje roboty Google, kteří hledají například zprávy (googlebot-news) a obrázky (googlebot-images).

Přístup zakázán všem Googlebot (Google) a Slurp (Yahoo)

User-agent: Slurp
User-agent: googlebot
Disallow: /

Přístup zakázán všem robotům ke 2 různým adresářům

User-agent: *
Disallow: /admin/
Disallow: /private/

Soubor robots.txt optimalizovaný pro WordPress

Níže uvedený soubor robots.txt je speciálně optimalizován pro WordPress za předpokladu, že nechcete, aby byly prohledávány:

administrátorská sekce
vaše interní stránky s výsledky vyhledávání
stránky se jmény autorů článku
404 error stránka

User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

Vezměte prosím na vědomí, že tento soubor robots.txt bude ve většině případů fungovat, ale měli byste jej vždy upravit a otestovat, abyste se ujistili, že platí přesně pro vaši situaci.

TIP: V roce 2019 Google navrhl rozšíření protokolu Robots Exclusion Protocol a zpřístupnil svůj analyzátor robots.txt jako open source.

UPOZORNĚNÍ: Každá direktiva by měla být na samostatném řádku, jinak byste vyhledávače mohli při analýze souboru robots.txt zbytečně mást.

Příklad nesprávného souboru robots.txt:
User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

Na co si dát pozor při implementaci?

Při implementaci souboru robots.txt mějte na paměti následující doporučené postupy:

Při provádění změn v souboru robots.txt buďte opatrní. Tento soubor může způsobit, že velké části vašeho webu budou pro vyhledávače nedostupné.
Soubor robots.txt by měl být umístěn v kořenovém adresáři vašeho webu
(např. https://www.zonercloud.cz/robots.txt).
Soubor robots.txt je platný pro celou doménu, ve které se nachází, včetně protokolu (http nebo https). Pro subdomény je pak potřeba soubor další.
Různé vyhledávače interpretují příkazy jinak. Ve výchozím nastavení vždy vyhrává první odpovídající direktiva, u Google a Bing vítězí specifičnost.
Pro soubory robots.txt Google aktuálně podporuje limit velikosti souboru 512 kilobajtů. Jakýkoli obsah nad tuto maximální velikost může být ignorován.
Vyhněte se co nejvíce používání direktivy crawl-delay*
*Google uvedl, že soubor robots.txt je obecně uložen do mezipaměti po dobu až 24 hodin. Je důležité vzít to v úvahu při provádění jakýchkoliv změn v souboru robots.txt. Obecně je nejlepší vyhnout se ukládání souboru robots.txt do mezipaměti, aby vyhledávačům netrvalo zbytečně dlouho než zachytí provedené změny.

Přehled aktualit

Cloud Server VPS

Cloud Server Ekonom

Cloud Server Managed

Virtuální datové centrum

Cloud Mail

Cloud Newsleter

Cloud Disk

Registrace domén

Technologie a datacentra

Virtualizace

Software

Zálohování dat

Zákaznická administrace

SSL certifikát Basic DV

SSD Storage

DKIM

Nápověda

Pomocné nástroje

Platební metody

Ceník služeb

Licencování softwaru společnosti Microsoft

Garance dostupnosti

Garance vrácení platby

Srovnání výkonu serverů s konkurencí

Cloud Server vs. Azure

Kdo jsme

Udržitelnost a životní prostředí

Smluvní podmínky

Jak zabránit přístupu robotů na váš web pomocí souboru robots.txt

Obsah

Obsah

Sdílejte článek

Mohlo by vás dále zajímat

Nenašli jste co jste hledali?

Co je soubor robots.txt?

Proč by vás měl zajímat?

WordPress server nyní se SLEVOU 50 %

User-agent v souboru robots.txt

Jak má soubor robots.txt vypadat?

Přístup povolen všem robotům ke všemu

Přístup zakázán všem robotům

Přístup zakázán všem Google robotům

Přístup zakázán všem Googlebot (Google) a Slurp (Yahoo)

Přístup zakázán všem robotům ke 2 různým adresářům

Soubor robots.txt optimalizovaný pro WordPress

Na co si dát pozor při implementaci?

WordPress server
nyní se SLEVOU 50 %