Soubor robots.txt: Strážce brány, který může zabít vaše SEO (2026)

Je to jen textový soubor o velikosti pár kilobajtů. Přesto má robots.txt moc srazit váš byznys na kolena. Stačí jedno chybné lomítko a Google přestane váš web vidět. Ze dne na den.

V roce 2026 už ale nejde jen o Googlebota. Váš web navštěvují desítky "hladoletů" — AI boti (GPTBot, ClaudeBot, Google-Extended), kteří netouží po tom vás rankovat. Chtějí vaše data, aby na nich zdarma natrénovali své modely.

V tomto článku vám ukážu, jak nastavit robots.txt tak, aby pustil dovnitř zákazníky (Google) a vykopnul zloděje dat (AI scrapers).

Co je robots.txt (Vrátník vašeho webu)

Představte si váš web jako exkluzivní klub. robots.txt je svalnatý vyhazovač u dveří. V ruce má seznam:

"Ty s tou čepičkou Googlebot? Pojď dál, pro tebe máme VIP salónek."
"Ty s tou maskou GPTBot? Pro tebe máme zavřeno."

Technicky je to textový soubor v kořenovém adresáři (vasedomena.cz/robots.txt), který využívá protokol REP (Robots Exclusion Protocol).

Důležité: Je to doporučení, ne zákon. Slušní roboti (Google, Bing, Seznam) ho respektují. Škodliví boti (hackeři) ho ignorují.

K čemu slouží?

Optimalizace rozpočtu crawlování (crawl budget): Říkáte Googlu: "Neztrácej čas v admin sekci nebo ve filtrech. Běž raději indexovat produkty."
Ochrana soukromí: Skrytí technických sekcí (košík, přihlášení, PDF faktury).
Blokování AI: Zákaz trénování modelů na vašem obsahu.

Syntaxe: Jak mluvit s roboty

Jazyk robotů je primitivní. Zvládne ho i dítě.

Základní příkazy

User-agent: Komu to říkáte? (Jméno robota nebo * pro všechny).
Disallow: Kam nesmí? (Cesta k adresáři nebo souboru).
Allow: Kam smí? (Výjimka v zákazu).
Sitemap: Kde je mapa webu?

Příklad "zlatého standardu" pro e-shop

User-agent: *
Disallow: /admin/
Disallow: /kosik/
Disallow: /ucet/
Disallow: /*?filter=
Disallow: /*?sort=

User-agent: GPTBot
Disallow: /

Sitemap: https://vasedomena.cz/sitemap.xml

AI Wars: Jak zablokovat AI boty v roce 2026

Pokud tvoříte originální obsah, nechcete, aby ho OpenAI použila k tomu, aby její ChatGPT odpovídal na otázky vašich potenciálních zákazníků, aniž by k vám přišli.

Čísla mluví jasně: Podle Cloudflare vzrostl provoz GPTBot mezi květnem 2024 a květnem 2025 o 305 %. Téměř 21 % z 1000 nejnavštěvovanějších webů světa má pravidla pro GPTBot ve svém robots.txt (Paul Calvano, 2025). Trénování AI modelů generuje až 8x větší objem crawlování než vyhledávače.

Zde je seznam největších "vykradačů", které doporučuji blokovat:

1. GPTBot (OpenAI)

User-agent: GPTBot
Disallow: /

Tímto říkáte ChatGPT: "Nesmíš použít můj web k trénování."

Pozor (prosinec 2025): OpenAI změnil pravidla - bot ChatGPT User (pro uživatelské akce) nyní robots.txt ignoruje. Blokování GPTBot zabrání pouze trénování, ne live odpovědím v ChatGPT.

2. CCBot (Common Crawl)

Obrovský dataset, který používá většina menších AI modelů.

User-agent: CCBot
Disallow: /

3. Google-Extended

Tento bot slouží pro Gemini a Vertex AI. Pozor: Nezaměňovat s Googlebot (toho potřebujete pro vyhledávání!). Google-Extended je pouze pro trénování AI.

User-agent: Google-Extended
Disallow: /

4. ClaudeBot (Anthropic)

User-agent: ClaudeBot
Disallow: /

Můj názor: Pokud nejste Wikipedia, blokujte je. Nedávají vám nic zpět (žádný traffic), jen berou.

Nejste sami - podle BuzzStream analýzy 79 % top zpravodajských webů blokuje alespoň jednoho AI bota. CCBot (Common Crawl) blokuje 75 % z nich, Anthropic-ai 72 %, GPTBot 62 %.

5 smrtelných hříchů v robots.txt

Za svou kariéru jsem viděla robots.txt zničit mnoho webů. Tady jsou ty nejhorší chyby.

1. Zabila jsem celý web (The Slate-Wiper)

User-agent: *
Disallow: /

Jedno lomítko. To je vše. Tento příkaz říká: "Nikdo sem nesmí." Často zůstane na webu po přesunu z vývojové verze (kde má smysl) na ostrou.

Mějte na to checklist!

2. Blokování CSS a JS (The Design-Killer)

Disallow: /css/
Disallow: /js/

Dříve (kolem roku 2010) to bylo běžné. Dnes Google potřebuje vidět styly, aby pochopil, zda je web responzivní (mobile-friendly). Pokud mu zakážete vidět CSS, uvidí web jako rozsypaný text a pošle vás v rankingu dolů.

3. Konfliktní pravidla (The Confuser)

Googlebot respektuje nejkonkrétnější pravidlo.

Disallow: /blog/
Allow: /blog/clanek-1

Toto funguje. Ale pokud máte v souboru chaos, bot se může zachovat nepředvídatelně. Držte se jednoduchosti.

4. Noindex přes Robots.txt (The Paradox)

Chcete deindexovat stránku, tak ji dáte do robots.txt. Chyba!

Pokud Googlebot nesmí na stránku vstoupit, nemůže si přečíst meta tag <meta name="robots" content="noindex">.

Výsledek: Stránka zůstane v indexu (bez popisu), protože na ni někdo odkazuje.

Řešení: Pro deindexaci použijte meta tag, ne robots.txt!

5. Citlivá data (The Leaker)

Disallow: /tajny-projekt-neverejne/

Hackeři milují robots.txt. První věc, kterou udělají, je, že se podívají, co skrýváte. Pokud tam dáte cestu k tajným datům, právě jste jim dali mapu k pokladu.

Tajné věci chraňte heslem, ne textovým souborem.

Jak testovat robots.txt (Než zmáčknete Enter)

Nikdy, opakuji, NIKDY needitujte robots.txt přímo na produkci bez testu.

Google Robots Testing Tool: Bohužel Google tento nástroj ve staré Search Console zabil. V nové GSC vidíte jen stav aktuálního souboru.
Merkle Robots.txt Tester: technicalseo.com — Skvělý externí nástroj. Vložte URL a pravidla a simulujte přístup.
Screaming Frog: Můj favorit. Spusťte crawl v režimu "Ignore robots.txt", ale v nastavení si zapněte report "Robots.txt blocked".

Případová studie

📈 E-shop s elektronikou: +25 % tržeb z organiky za 3 měsíce

Přišla za mnou velká firma prodávající elektroniku s klasickým problémem - Googlebot se ztrácel v milionech zbytečných URL typu ?cena_od=100&barva=cervena. Nové produkty čekaly na indexaci týdny.

Metrika	Před	Po 3 měsících
Domain Authority	45	52
Organický traffic	180 000/měs	225 000/měs

Co rozhodlo: Kromě technické optimalizace robots.txt jsme spustili strategické budování odkazů. PR články na DA50+ webech z oblasti technologií a lifestylu posílily autoritu domény a Google začal nové produkty indexovat do 4 hodin místo 14 dnů.

→ Chcete podobné výsledky?

Závěr: Respektujte vrátníka

robots.txt je malý soubor s velkou zodpovědností. V roce 2026 už nestačí jen zkopírovat starý vzor. Musíte aktivně řešit AI boty a šetřit rozpočet crawlování Googlu pro to podstatné.

Zkontrolujte svůj soubor ještě dnes. Možná blokujete víc, než chcete.

Máte správně nastaveného "vrátníka"?

Provedu audit vašeho robots.txt v rámci kompletní technické analýzy webu. Zjistím, jestli neblokujete Google v rozletu a jestli nekrmíte svými daty AI konkurenci.

Chci technický audit webu ->

Často kladené otázky (FAQ)

1. Musím mít robots.txt?

Nemusíte. Pokud chybí, vyhledávače předpokládají Allow: / (vše povoleno). Ale přicházíte o kontrolu (rozpočet crawlování, AI blokace).

2. Jaká je maximální velikost robots.txt?

Google čte pouze prvních 500 KiB (kibibajtů). Pokud máte soubor větší (což byste neměli mít, pokud nepoužíváte špatnou automatizaci), zbytek ignoruje.

3. Co znamená User-agent: *?

Hvězdička je "wildcard" pro "všechny roboty". Pravidla pod tím platí pro Googlebot, Bingbot, Seznambot i ostatní, pokud nemají vlastní specifickou sekci.

4. Můžu v robots.txt blokovat konkrétní země?

Ne. Robots.txt neřídí geolokaci. To musíte řešit na úrovni serveru (IP blocking) nebo CDN (Cloudflare).

5. Funguje Crawl-delay na Google?

Ne. Příkaz Crawl-delay: 10 (čekej 10s mezi požadavky) Google ignoruje. Respektuje ho Bing a Yandex. Pro Google musíte nastavit rychlost procházení v Search Console.

Autorka: SEO specialistka s roky zkušeností. Má ráda pořádek v kódu i v životě.

Potřebujete technický audit? Kompletní SEO audit - od 5 990 Kč

O autorce

SEO specialistka s roky zkušeností v oboru. Pomohla jsem firmám zlepšit jejich viditelnost v Google. Specializuji se na technické SEO, obsahový marketing a budování odkazů.

Kontaktujte nás | Další články

Soubor robots.txt: Strážce brány, který může zabít vaše SEO (2026)

Co je robots.txt (Vrátník vašeho webu)

K čemu slouží?

Syntaxe: Jak mluvit s roboty

Základní příkazy

Příklad "zlatého standardu" pro e-shop

AI Wars: Jak zablokovat AI boty v roce 2026

1. GPTBot (OpenAI)

2. CCBot (Common Crawl)

3. Google-Extended

4. ClaudeBot (Anthropic)

5 smrtelných hříchů v robots.txt

1. Zabila jsem celý web (The Slate-Wiper)

2. Blokování CSS a JS (The Design-Killer)

3. Konfliktní pravidla (The Confuser)

4. Noindex přes Robots.txt (The Paradox)

5. Citlivá data (The Leaker)

Jak testovat robots.txt (Než zmáčknete Enter)

Závěr: Respektujte vrátníka

Máte správně nastaveného "vrátníka"?

Často kladené otázky (FAQ)

1. Musím mít robots.txt?

2. Jaká je maximální velikost robots.txt?

3. Co znamená User-agent: *?

4. Můžu v robots.txt blokovat konkrétní země?

5. Funguje Crawl-delay na Google?

O autorce

O autorce

Ing. Jana Hrabalová

📚 Čtěte dále

Strukturovana data pro e-shopy: Kompletni pruvodce

Webflow SEO: Proc ho SEO experti miluji? Kompletni Pruvodce

SEO pro Squarespace: Optimalizace pro e-shop (2026)

Získejte SEO článek zdarma