Soubor robots.txt: Jak nespadnout z Google jedním řádkem

V září 2025 mi zavolal zoufalý klient. "Celý web zmizel z Google. Kompletně. Jako by tam nikdy nebyl." Podívala jsem se do Google Search Console — nula indexovaných stránek. Den předtím jich tam bylo 1 847.

Co se stalo? Vývojář nahral aktualizaci webu. A zapomněl změnit jeden řádek v souboru robots.txt. Místo "Disallow: /admin/" tam zůstalo "Disallow: /". Jeden znak — lomítko — zablokoval celý web.

Trvalo týden, než Google web znovu načetl. Mezitím firma přišla o 70 % organického provozu.

Robots.txt je mocný nástroj. A mocné nástroje můžou způsobit katastrofu, když je použijete špatně.

Co je robots.txt

Robots.txt je jednoduchý textový soubor, který leží v kořenovém adresáři vašeho webu a říká crawlerům (robotům vyhledávačů, kteří automaticky procházejí web), které části webu smějí nebo nesmějí prohledávat.

Adresa je vždy:

https://vas-web.cz/robots.txt

Každý může ho otevřít a přečíst. Není to bezpečnostní nástroj — je to návod pro slušné roboty.

Proč robots.txt existuje

V raných dobách webu byly některé servery přetížené crawlery. Robot Google přišel, stáhl celý web, za hodinu přišel Bing, pak Yahoo, pak desítky dalších. Výsledek? Server padl.

Tak vznikl standard Robots Exclusion Protocol — dohoda mezi provozovateli webů a vyhledávači. Web říká: "Tyhle části nečti." A slušný crawler to respektuje.

Důležité: Robots.txt je prosba, ne zákaz. Zlomyslný robot ho může ignorovat. Pro skutečnou ochranu použijte heslo nebo firewall.

Základní syntaxe robots.txt

Soubor má jednoduchou strukturu:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /

Sitemap: https://vas-web.cz/sitemap.xml

Co jednotlivé řádky znamenají:

User-agent: * — Komu je instrukce určená. Hvězdička (*) znamená "všem crawlerům". Můžete specifikovat konkrétního, například Googlebot.

Disallow: /admin/ — Zakazuje přístup do složky /admin/. Crawler tam nesmí.

Allow: / — Povoluje zbytek webu. (Technicky zbytečné, protože výchozí stav je "povoleno", ale je to přehlednější.)

Sitemap: — Odkaz na sitemap. Google si ji odtud automaticky načte.

Příklady: Co dovolí a co ne

Povolit všechno (výchozí stav)

User-agent: *
Disallow:

Prázdný Disallow znamená "nic nezakazuji". To je výchozí stav, i když robots.txt neexistuje.

Zakázat všechno (staging, testovací web)

User-agent: *
Disallow: /

Crawler nesmí nikam. Tohle používají weby ve vývoji, aby se nedostaly do Google.

Varování: Pokud tohle máte na produkčním webu, jste mimo Google. Zkontrolujte to. Teď.

Zakázat konkrétní složky

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/

Crawler nesmí do administrace, košíku ani checkoutu. U e-shopů běžné.

Zakázat jen jednomu crawlerovi

User-agent: Googlebot
Disallow: /test/

User-agent: *
Allow: /

Google nesmí do /test/, ostatní crawlery můžou všude.

Co robots.txt NEUMÍ (a časté pasti)

Robots.txt NEZABRAŇUJE indexaci

Tohle je nejčastější mýtus. Spousta lidí si myslí: "Zakážu v robots.txt, Google to neindexuje." Špatně.

Robots.txt říká: "Nechoď tam." Ale Google může stránku indexovat i bez procházení, pokud na ni vede odkaz odjinud.

Příklad:

Máte stránku /private/heslo.html a v robots.txt je:

Disallow: /private/

Google stránku nenavštíví. Ale pokud na ni vede odkaz z jiného webu, Google ji může zobrazit ve výsledcích s popisem "Informace o této stránce nejsou k dispozici kvůli robots.txt".

Co použít místo robots.txt pro neindexaci

Pokud chcete, aby stránka nebyla v Google vůbec, použijte:

Meta tag:

<meta name="robots" content="noindex">

HTTP hlavička:

X-Robots-Tag: noindex

To je skutečný zákaz indexace. Více o tom v článku Noindex: Jak vyřadit stránky z Google.

Robots.txt není ochrana citlivých dat

Soubor je veřejný. Kdokoliv může otevřít vas-web.cz/robots.txt a vidět, co jste zakázali.

Občas tam lidi píšou:

Disallow: /tajne-dokumenty/
Disallow: /internal-reports/

Gratuluju, právě jste řekli celému internetu, kde máte citlivá data.

Pro ochranu použijte:

Přihlášení (login a heslo)
Firewall nebo IP whitelisting

Případová studie

📈 Fintech startup: Z bezpečnostní díry k TOP 5 za 6 měsíců

Infografika - Příběh z praxe: Jak robots.txt odhalil bezpečnostní díru - Robots.txt: Jak nespadnout z Google jedním řádkem

Spolupracovala jsem s fintech startupem, který měl nejen špatně nastavený robots.txt, ale i nízkou autoritu webu v konkurenčním prostředí.

Metrika	Před	Po 6 měsících
Domain Authority	19	41
Organická návštěvnost	1 500/měs	8 200/měs

Co rozhodlo: Opravili jsme technické nastavení a podpořili ho masivním budováním odkazů z DA50+ finančních a tech portálů. PR články na prestižních webech vybudovaly důvěryhodnost, kterou fintech sektor vyžaduje.

→ Chcete podobné výsledky?

Pokročilé direktivy

Wildcards (zástupné znaky)

Robots.txt podporuje dva speciální znaky:

Hvězdička * = jakýkoliv text

Disallow: /search?*

Zakáže všechny URL začínající na /search? (interní vyhledávání).

Dolar $ = konec URL

Disallow: /*.pdf$

Zakáže všechny PDF soubory.

Crawl-delay (pozor, nepoužívat u Google)

Některé crawlery podporují Crawl-delay — pauzu mezi požadavky:

User-agent: *
Crawl-delay: 10

Google to ignoruje. Místo toho použijte nastavení v Google Search Console.

Robots.txt a AI crawlery (2026)

V roce 2025 se robots.txt stal klíčovým nástrojem pro kontrolu AI crawlerů. Podle Cloudflare Radar 2025 jsou AI crawlery nejčastěji blokovanými user-agenty vůbec — 35 % z top 1 000 webů blokuje GPTBot a 79 % zpravodajských webů blokuje AI tréninkové boty.

Hlavní AI crawlery a jejich účel

User-agent	Společnost	Účel
GPTBot	OpenAI	Sběr dat pro trénink modelů
ChatGPT-User	OpenAI	Procházení v reálném čase pro odpovědi
ClaudeBot	Anthropic	Sběr dat pro trénink Claude
Claude-User	Anthropic	Procházení pro odpovědi v reálném čase
Claude-SearchBot	Anthropic	Vyhledávání pro Claude
Google-Extended	Google	Trénink Gemini (neovlivňuje SEO)
Applebot-Extended	Apple	Trénink Apple AI
PerplexityBot	Perplexity	Indexování pro AI vyhledávač
CCBot	Common Crawl	Open-source dataset pro trénink LLM
Meta-ExternalAgent	Meta	Trénink modelů Meta AI
Bytespider	ByteDance	Sběr dat pro TikTok AI

Jak blokovat AI crawlery

Pokud nechcete, aby vaše obsah trénoval AI modely:

# Blokace AI tréninkových botů
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Bytespider
Disallow: /

Jak povolit AI asistenty, ale zakázat trénink

Chytřejší strategie — váš obsah se může objevit v odpovědích ChatGPT nebo Claude, ale nebude použit pro trénink:

# Povolit real-time odpovědi
User-agent: ChatGPT-User
Allow: /

User-agent: Claude-User
Allow: /

# Zakázat trénink
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Důležité poznámky k AI crawlerům

Google-Extended je zvláštní případ. Podle Google dokumentace blokování Google-Extended neovlivňuje vaše pozice ve vyhledávání. Ale pozor — váš obsah se stále může objevit v AI Overviews, protože ty generuje standardní Googlebot.

Ne všichni respektují robots.txt. V srpnu 2025 Cloudflare obvinil Perplexity AI z používání "stealth crawlerů", kteří ignorují robots.txt a maskují se jako běžní uživatelé. Podle Tollbit Q2 2025 13,26 % AI botů ignorovalo robots.txt direktivy.

Nové boty přibývají rychle. Doporučuji kontrolovat nastavení každé čtvrtletí. Aktuální seznam AI crawlerů najdete na robotstxt.com/ai nebo Dark Visitors.

Jak otestovat robots.txt

Google Search Console

Nejspolehlivější nástroj.

Přihlaste se do Google Search Console
V levém menu není přímo robots.txt tester (byl to samostatný nástroj, teď je v URL Inspection Tool)
Zadejte konkrétní URL a zkontrolujte, jestli je blokovaná

Online nástroje

Robots.txt Checker od Merkle
Vložte váš robots.txt a URL, nástroj řekne, jestli je povolená

Manuální test

Prostě otevřete vas-web.cz/robots.txt a zkontrolujte, co tam je.

Typický robots.txt pro e-shop (2026)

# Obecná pravidla pro všechny crawlery
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=

Allow: /

# Blokace AI tréninkových botů (volitelné)
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Sitemap: https://vas-eshop.cz/sitemap.xml

Co to dělá:

Zakazuje admin, košík, checkout, účet uživatele
Zakazuje interní vyhledávání a stránky s filtry (duplicity)
Blokuje AI tréninkové boty (pokud nechcete, aby vaše produktové popisy trénovaly AI modely)
Odkazuje na sitemap

Checklist: Zkontrolujte svůj robots.txt

Robots.txt není na produkci nastavený na Disallow: /
Neblokuje důležité stránky (kategorie, produkty, články)
Neblokuje CSS a JavaScript (Google to potřebuje vidět)
Obsahuje odkaz na sitemap
Neodhaluje citlivé složky, které nejsou jinak chráněné
Je dostupný na vas-web.cz/robots.txt
Máte jasnou strategii pro AI crawlery (GPTBot, ClaudeBot, Google-Extended)

Pokud některý bod nesedí, opravte to. Špatný robots.txt vás může stát pozice.

Shrnutí

Robots.txt je soubor, který říká crawlerům, kam smějí a kam ne. Je to mocný nástroj — správně použitý vám pomůže řídit rozpočet crawlování, špatně použitý vás shodí z Google.

Klíčové body:

Robots.txt nezabraňuje indexaci (použijte noindex)
Robots.txt není ochrana citlivých dat
Na produkci nikdy nemějte Disallow: /
Vždy testujte změny před nasazením
V roce 2026 je důležité mít strategii pro AI crawlery — rozhodněte, zda chcete blokovat GPTBot, ClaudeBot a další

Pokud si nejste jistí, méně je víc. Prázdný robots.txt je lepší než špatně nastavený.

Chcete si být jistí, že váš robots.txt neškodí?

Nabízím úvodní konzultaci, kde projdeme technické SEO vašeho webu — včetně robots.txt, sitemap a indexace.

Objednejte si konzultaci zdarma →

Související články

Sitemap: Jak říct Google, které stránky má indexovat — doplněk k robots.txt
Noindex: Jak vyřadit stránky z Google — skutečný zákaz indexace
Crawling: Jak Google prohledává web — proces, který robots.txt řídí
Jak funguje Google — jak Google prochází a indexuje web

Často kladené otázky

Co když robots.txt neexistuje?

Nic se neděje. Výchozí stav je "všechno povoleno". Robots.txt potřebujete jen tehdy, když chcete něco zakázat.

Musím blokovat složku `/admin/`?

Doporučuji. Nejen kvůli crawlerům, ale hlavně proto, abyste neplýtvali rozpočtem crawlování (crawl budget). Plus /admin/ by měla být chráněná heslem, ne jen robots.txt.

Jak rychle Google reaguje na změny?

Hodiny až dny. Google robots.txt cachuje (ukládá do paměti), takže změny se neprojeví okamžitě.

Mohu zakázat celý web kromě homepage?

Ano:

User-agent: *
Disallow: /*
Allow: /$

Ale proč byste to dělali?

Je case-sensitive (rozlišuje velká/malá písmena)?

URL cesty ano (/Admin/ a /admin/ jsou rozdílné). Direktivy (Disallow, User-agent) ne.

Ovlivní blokování AI crawlerů moje SEO?

Ne. Google potvrdil, že blokování Google-Extended, GPTBot nebo jiných AI botů nemá žádný vliv na pozice ve vyhledávání. Standardní Googlebot a Bingbot jsou oddělené od AI tréninkových crawlerů.

Jak zjistím, které AI boty můj web navštěvují?

Zkontrolujte serverové logy — hledejte user-agenty jako GPTBot, ClaudeBot, PerplexityBot. Nástroje jako Cloudflare nebo Dark Visitors nabízejí přehledné dashboardy AI crawler aktivit.

Stačí robots.txt na ochranu před AI scrapingem?

Ne vždy. Robots.txt je dobrovolná dohoda — seriózní společnosti (OpenAI, Anthropic, Google) ji respektují, ale menší nebo anonymní crawlery ji mohou ignorovat. Pro silnější ochranu použijte firewall (WAF) nebo rate limiting.

Autorka: SEO specialistka s roky zkušeností. Pomáhám firmám vyhnout se technickým katastrofám a optimalizovat prohledávání webu.

Potřebujete technický audit? Kompletní SEO audit - od 5 990 Kc

O autorce

SEO specialistka s roky zkušeností v oboru. Pomohla jsem firmám zlepšit jejich viditelnost v Google. Specializuji se na technické SEO, obsahový marketing a budování odkazů.

Kontaktujte nás | Další články

Soubor robots.txt: Jak nespadnout z Google jedním řádkem

Co je robots.txt

Proč robots.txt existuje

Základní syntaxe robots.txt

Příklady: Co dovolí a co ne

Povolit všechno (výchozí stav)

Zakázat všechno (staging, testovací web)

Zakázat konkrétní složky

Zakázat jen jednomu crawlerovi

Co robots.txt NEUMÍ (a časté pasti)

Robots.txt NEZABRAŇUJE indexaci

Co použít místo robots.txt pro neindexaci

Robots.txt není ochrana citlivých dat

Pokročilé direktivy

Wildcards (zástupné znaky)

Crawl-delay (pozor, nepoužívat u Google)

Robots.txt a AI crawlery (2026)

Hlavní AI crawlery a jejich účel

Jak blokovat AI crawlery

Jak povolit AI asistenty, ale zakázat trénink

Důležité poznámky k AI crawlerům

Jak otestovat robots.txt

Google Search Console

Online nástroje

Manuální test

Typický robots.txt pro e-shop (2026)

Checklist: Zkontrolujte svůj robots.txt

Shrnutí

Chcete si být jistí, že váš robots.txt neškodí?

Související články

Často kladené otázky

Co když robots.txt neexistuje?

Musím blokovat složku /admin/?

Jak rychle Google reaguje na změny?

Mohu zakázat celý web kromě homepage?

Je case-sensitive (rozlišuje velká/malá písmena)?

Ovlivní blokování AI crawlerů moje SEO?

Jak zjistím, které AI boty můj web navštěvují?

Stačí robots.txt na ochranu před AI scrapingem?

O autorce

O autorce

Ing. Jana Hrabalová

📚 Čtěte dále

Strukturovana data pro e-shopy: Kompletni pruvodce

Webflow SEO: Proc ho SEO experti miluji? Kompletni Pruvodce

SEO pro Squarespace: Optimalizace pro e-shop (2026)

Získejte SEO článek zdarma

Musím blokovat složku `/admin/`?