Rozpočet procházení: Pro koho je důležitý a jak ho neplýtvat zbytečně

Před rokem jsem dostala e-mail od majitele e-shopu s elektronikou. Měl 50 000 produktů v katalogu, slušné ceny, dobré recenze. Ale organická návštěvnost? Prakticky nula. Když jsem otevřela Google Search Console, viděla jsem problém okamžitě: z 50 000 stránek Google znal jen 15 000. Zbytek jako by neexistoval.

Příčina se jmenovala rozpočet na procházení (crawl budget). Google prostě neměl kapacitu (nebo motivaci) projít celý web. Po třech měsících optimalizace jsme dostali do indexu 45 000 produktů a návštěvnost vzrostla o 67 %.

Ale pozor — rozpočet na procházení není problém každého webu. V tomto článku vám ukážu, kdy ho řešit, kdy ne, a jak poznat, že plýtváte zdroji Googlu na nesmysly.

Co je rozpočet na procházení (jednoduché vysvětlení)

Rozpočet na procházení (crawl budget) není oficiální metrika, kterou byste našli v Google Search Console. Je to koncept, který popisuje, kolik stránek vašeho webu Googlebot stihne projít v daném časovém období.

Infografika - Co Je Crawl Budget (Jednoduché Vysvětlení) Představte si to jako rozpočet. Google má omezené servery a nekonečný internet. Nemůže projít všechno. Takže každému webu přidělí určitou "kapacitu" — kolik požadavků za den na váš server pošle.

Limit rychlosti procházení vs. poptávka po procházení

Rozpočet na procházení (crawl budget) se skládá ze dvou složek:

Limit rychlosti procházení (crawl rate limit) je maximální rychlost, kterou Google navštěvuje váš web, aniž by ho přetížil. Pokud máte pomalý hosting, Google omezí frekvenci požadavků, aby vám neshodil server.

Poptávka po procházení (crawl demand) je Googlova motivace navštěvovat váš web. Populární weby s často aktualizovaným obsahem mají vysokou poptávku. Zapomenutý blog, který se nezměnil 2 roky, má poptávku minimální.

Výsledný rozpočet na procházení je průnik obou faktorů. I když máte rychlý server (vysoký limit), ale neaktualizujete obsah (nízká poptávka), Google vás nebude navštěvovat často.

Jak Google rozhoduje, kolik vás navštíví

Za roky praxe jsem vypozorovala, že Google bere v potaz několik věcí:

Autorita webu — důvěryhodné weby s kvalitními zpětnými odkazy jsou procházeny častěji
Frekvence aktualizací — měníte obsah každý den? Google přijde každý den. Neměníte ho měsíc? Google se vrátí za měsíc.
Technická kondice — rychlý server, málo chyb, čistá struktura = více procházení
Velikost webu — velké weby mají přirozeně vyšší rozpočet, ale také více stránek k pokrytí

Proč se Google stal vybíravý (2026 realita)

V roce 2026 je situace dramaticky jiná než před pěti lety. Internet je zaplavený obsahem — legitimním i spam. AI nástroje generují miliony stránek denně. Google Index praská ve švech.

Google reagoval tím, že zpřísnil kritéria. Nestačí, že stránka existuje. Musí být kvalitní, unikátní a užitečná. Pokud ne, Google ji buď nenavštíví, nebo navštíví a odmítne indexovat ("Crawled - currently not indexed").

To znamená, že i menší weby, které dříve rozpočet na procházení neřešily, mohou narazit na problémy. Zvláště pokud mají hodně technického "balastu" — duplicit, parametrů, filtrů.

Pro koho je rozpočet na procházení skutečně problém

Ne každý web musí rozpočet na procházení řešit. Většina webů má problém jinde — s kvalitou obsahu, s odkazy, s technickými chybami. Rozpočet na procházení je relevantní jen pro určitou skupinu.

Infografika - Pro Koho Je Crawl Budget Skutečně Problém

Malé weby (pod 10 000 stránek) - většinou ne

Máte firemní web s 50 stránkami? Blog s 200 články? E-shop s 500 produkty? Rozpočet na procházení není váš problém.

Google má kapacitu projít tisíce stránek na menších webech bez mrknutí oka. Pokud máte problémy s indexací, příčina je jinde — pravděpodobně v kvalitě obsahu, chybějících interních odkazech nebo technických blokacích (robots.txt, noindex).

Výjimka: I malý web může mít problém, pokud generuje obrovské množství duplicitních URL (filtry, parametry, session ID). Ale to je spíš otázka technické hygieny než rozpočtu na procházení.

Střední weby - kdy začít řešit

Weby s 10 000 až 100 000 stránkami jsou v šedé zóně. Většinou rozpočet na procházení stačí, ale můžete narazit na limity, pokud:

Máte hodně duplicitního obsahu
Server je pomalý (TTFB přes 1 sekundu)
Struktura webu je chaotická (osiřelé stránky, slepé uličky)
Generujete zbytečné URL (kalendáře, archivy, parametry)

U středních webů doporučuji sledovat metriky v Search Console. Pokud vidíte, že velká část stránek je ve stavu "Discovered - currently not indexed" (Google o nich ví, ale neobtěžoval se je navštívit), začíná být rozpočet na procházení relevantní.

Velké weby a e-shopy - kritické

Pro weby s více než 100 000 stránkami je rozpočet na procházení (crawl budget) absolutní priorita. Typicky:

Velké e-shopy s tisíci produkty
marketplace a inzertní portály
Zpravodajské weby s archivem
Agregátory (srovnávače, katalogy)

U těchto webů je běžné, že Google nikdy neprojde všechny stránky. Vaším úkolem je zajistit, že ty důležité (produkty, kategorie, články) dostávají přednost před balastem (filtry, stará archivní data, duplicity).

Rychlý test: máte problém?

Otevřete Google Search Console a podívejte se na dvě věci:

1. Stav indexace (Pages report): Kolik stránek je indexovaných vs. kolik jich máte? Pokud je indexovaných méně než 80 % důležitých stránek, možná máte problém.

2. Statistiky procházení (Settings -> Crawl statistics): Kolik stránek denně Google prochází? Pokud máte 50 000 stránek a Google jich prochází 100 denně, trvalo by rok, než projde všechny. To je problém.

Co plýtvá rozpočtem na procházení

Googlebot má omezenou kapacitu. Každý požadavek, který pošle na zbytečnou stránku, je požadavek, který nepošle na důležitou. Proto je klíčové eliminovat "žrouty" rozpočtu na procházení.

Fazetová navigace - filtry jako past

Toto je nejčastější příčina problémů u e-shopů. Máte kategorii "Boty" a zákazník může filtrovat podle barvy, velikosti, materiálu, ceny, značky. Každá kombinace generuje novou URL:

/boty?barva=cervena
/boty?barva=cervena&velikost=42
/boty?barva=cervena&velikost=42&material=kuze
/boty?velikost=42&barva=cervena&material=kuze

Poslední dvě URL mají stejný obsah — jen jiné pořadí parametrů. A to je jen jedna kombinace. Při 10 barvách, 15 velikostech a 5 materiálech máte potenciálně 750 kombinací. Pro jednu kategorii.

E-shop s 500 kategoriemi? To je 375 000 zbytečných URL. Googlebot se v tom ztratí a vaše nové produkty nevidí.

URL parametry (řazení, session ID)

Další klasika:

/produkty?sort=price-asc
/produkty?sort=price-desc
/produkty?sort=name
/produkty?session_id=abc123xyz

Řazení nemění obsah — jen jeho pořadí. Session ID je unikátní pro každého návštěvníka. Obojí generuje duplicity.

Duplicitní obsah bez canonical

Produkt dostupný ve více kategoriích:

/obleceni/tricka/modre-tricko
/novinky/modre-tricko
/akce/modre-tricko

Tři URL, jeden produkt, žádný canonical tag. Google crawluje všechny tři a neví, která je "ta pravá".

Měkké chyby 404 a prázdné stránky

Měkká chyba 404 je stránka, která vypadá jako chyba (prázdná, nebo "produkt nenalezen"), ale server vrací kód 200 OK místo 404. Google ji navštíví, stáhne, zjistí, že je prázdná, a zahodí ji.

Problém? Googlebot už vynaložil úsilí. A příště přijde znovu, protože si nepamatuje, že stránka je k ničemu.

Nekonečné kalendáře a archivy

Viděla jsem weby, kde kalendář umožňoval klikat do minulosti — rok 2025, 2024, 2023... až do roku 1990. Každý měsíc měl vlastní URL. Googlebot prošel 400 prázdných kalendářních stránek místo vašich produktů.

Podobně archivy: /archiv/2025/01/, /archiv/2025/02/... Na většině webů tyto stránky nemají žádnou hodnotu.

Diagnostika v Google Search Console

Search Console je váš základní diagnostický nástroj. Nemusíte platit za drahé SEO software — Google vám řekne, co potřebujete vědět.

Statistiky procházení (Crawl Stats) - co hledat

Přejděte do Settings (ozubené kolečko vlevo dole) -> Crawl statistics. Uvidíte:

Celkové požadavky na procházení (Total crawl requests) — kolik požadavků Google poslal za posledních 90 dní. Trend by měl být stabilní nebo rostoucí.

Průměrná doba odezvy (Average response time) — jak rychle váš server odpovídá. Pod 500 ms je dobré, nad 1000 ms je problém.

Stav hostitele (Host status) — jestli Google narazil na problémy s dostupností serveru.

Klikněte na "Otevřít report" pro detaily. Uvidíte rozložení podle typu odpovědi (200, 301, 404...) a typu souboru (HTML, JavaScript, obrázky).

Pokud většina požadavků směřuje na JavaScript, CSS nebo obrázky místo HTML stránek, něco není v pořádku.

Report stránek (Pages) - stav indexace

Sekce "Stránky" (Pages, dříve Coverage) ukazuje, kolik stránek je indexovaných a proč ostatní nejsou.

Klíčové kategorie:

Indexed — stránky v indexu, zobrazují se ve vyhledávání
Crawled - currently not indexed — Google přišel, viděl, ale neindexoval (často kvalita obsahu)
Discovered - currently not indexed — Google o stránce ví, ale nenavštívil ji (problém s rozpočtem na procházení!)
Excluded by 'noindex' tag — záměrně vyloučené
Duplicate without user-selected canonical — duplicity bez vašeho canonicalu

Objeveno vs. Procházeno vs. Indexováno

Tohle je klíčové pro pochopení rozpočtu na procházení:

Discovered — Google našel URL (v sitemap, přes odkaz), ale ještě ji nenavštívil. Pokud máte tisíce stránek v tomto stavu dlouhodobě, Google nemá kapacitu nebo motivaci je projít.

Crawled — Google stránku navštívil a stáhl obsah. Teď rozhoduje, jestli ji indexovat.

Indexed — Stránka je v indexu a může se zobrazit ve výsledcích.

Ideální stav: minimum "Discovered", většina důležitých stránek "Indexed".

Optimalizace rozpočtu na procházení

Teď k praktické části. Jak zajistit, že Googlebot tráví čas na správných stránkách?

Robots.txt - co blokovat

Soubor robots.txt je váš první obranný val. Říkáte jím Googlebotu: "Sem nechoď, ztrácíš čas."

Typický robots.txt pro e-shop:

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?session_id=
Disallow: /admin/

Sitemap: https://www.vas-eshop.cz/sitemap.xml

Co blokujete:

Košík a checkout — nemají SEO hodnotu
Uživatelský účet — privátní
Interní vyhledávání — duplicitní obsah
Řazení a filtry — duplicity
Session parametry — unikátní pro každého
Administraci — bezpečnost

Noindex vs. Disallow - důležitý rozdíl

Tohle je častý zdroj zmatků:

Disallow říká: "Nechoď sem." Googlebot stránku nenavštíví, ale může ji indexovat, pokud na ni vede odkaz odjinud. Zobrazí se ve výsledcích s textem "Informace o této stránce nejsou dostupné."

Noindex říká: "Neindexuj tohle." Googlebot stránku navštíví (pokud není blokovaná), ale nezahrne ji do indexu.

Kdy co použít:

Chcete šetřit rozpočet na procházení? → Disallow (Google nenavštíví)
Chcete zabránit indexaci, ale potřebujete, aby Google stránku viděl? → Noindex
Chcete obojí? → Jen Noindex (pokud dáte Disallow, Google Noindex neuvidí)

Pro většinu situací (filtry, řazení, interní vyhledávání) je Disallow správná volba.

Canonical tagy pro duplicity

Když nemůžete nebo nechcete blokovat URL v robots.txt, použijte canonical tag. Říkáte jím: "Tato stránka je kopie, originál je jinde."

<link rel="canonical" href="https://www.vas-eshop.cz/boty" />

Toto umístíte na /boty?barva=cervena — Google pochopí, že hlavní stránka je /boty.

Strategie XML mapy stránek (sitemap)

XML mapa stránek (sitemap) je seznam stránek, které chcete indexovat. Google ji používá jako vodítko.

Co zahrnout:

Produktové stránky
Kategorie (hlavní, ne filtrované)
Důležité informační stránky
Blog články

Co vynechat:

Filtrované stránky
Paginované stránky (strana 2, 3, 4...)
Stránky s noindex
Stránky blokované v robots.txt

Mapa stránek by měla obsahovat jen to, co chcete v indexu. Tisíce zbytečných URL v sitemapě jsou signál pro Google, že nevíte, co děláte.

Interní prolinkování pro prioritizaci

Googlebot následuje odkazy. Stránky s více interními odkazy jsou důležitější. Použijte to.

Homepage by měla odkazovat na hlavní kategorie
Kategorie by měly odkazovat na podkategorie a klíčové produkty
Produkty by měly odkazovat na související produkty

Stránka bez interních odkazů (tzv. osiřelá stránka, orphan page) má nízkou prioritu. Google ji může ignorovat i když je v sitemapě.

E-shop Specifika

E-shopy mají specifické výzvy. Tisíce produktů, filtry, varianty, vyprodané zboží. Každá z těchto věcí může plýtvat rozpočtem na procházení.

Filtry a kategorie - správné řešení

Máte kategorii "Trička" s filtry barva, velikost, materiál, cena. Jak to řešit?

Varianta 1: Blokovat vše v robots.txt

Disallow: /*?barva=
Disallow: /*?velikost=
Disallow: /*?material=

Výhoda: Jednoduché. Nevýhoda: Některé filtrované stránky mohou mít SEO potenciál ("červená trička" může být dobrý long-tail klíčový výraz).

Varianta 2: Selektivní indexace

Jeden filtr (barva) → indexovat (canonical na sebe)
Kombinace filtrů → noindex nebo canonical na kategorii

Toto vyžaduje naprogramování logiky v CMS, ale dává největší kontrolu.

Varianta 3: Statické landing pages Místo filtrů vytvořte samostatné kategorie: /tricka/cervena-tricka/. Čistá URL, unikátní obsah, plná kontrola.

Produktové varianty

Produkt má 5 barev a 10 velikostí. Jak to řešit?

Špatně: 50 URL s prakticky stejným obsahem.

Správně: Jedna URL pro produkt, varianty řešeny JavaScriptem nebo dropdownem. Případně canonical ze všech variant na hlavní produkt.

Vyprodané produkty

Vyprodaný produkt — nechat, nebo smazat?

Dočasně vyprodaný: Nechat, přidat informaci "dočasně nedostupné", případně odkaz na alternativy.

Trvale zrušený: Přesměrovat (301) na podobný produkt nebo kategorii. Pokud není kam, vrátit 410 Gone (lepší než 404 pro SEO).

Nikdy nenechávejte tisíce vyprodaných produktů bez řešení. Google je bude navštěvovat a ztrácet čas.

Stránkování - rel=next/prev už nefunguje

Google oznámil, že už nepoužívá značky rel="next" a rel="prev". Jak tedy řešit stránkování?

Aktuální doporučení:

Stránka 1 má self-referencing canonical
Stránky 2, 3, 4... mají self-referencing canonical (NE canonical na stránku 1!)
V robots.txt neblokujte stránkování — Google potřebuje projít všechny stránky, aby viděl všechny produkty
V mapě stránek mějte jen stránku 1 každé kategorie

Google si stránkování vyřeší sám. Důležité je, aby mohl projít všechny stránky a najít všechny produkty.

Případová studie

E-shop s elektronikou: +67 % organické návštěvnosti za 3 měsíce

Klient měl 50 000 produktů, ale Google indexoval jen 15 000. Viděla jsem typický problém - fazetová navigace generovala desetitisíce zbytečných URL, které plýtvaly rozpočtem na procházení.

Metrika	Před	Po 3 měsících
Domain Authority	28	34
Indexované stránky	15 000	45 000
Organická návštěvnost	12 000/měs	20 000/měs

Co rozhodlo: Kromě technické optimalizace rozpočtu na procházení jsem nasadila strategické budování odkazů. PR články na webech s DA50+ zvýšily autoritu domény a motivovaly Google k častějšímu procházení. Kombinace čisté struktury a kvalitních zpětných odkazů přinesla výsledky.

→ Chcete podobné výsledky?

Problém - 70 % produktů neindexováno

Když jsem se podívala do Search Console, viděla jsem:

15 000 stránek indexovaných
25 000 stránek "Discovered - currently not indexed"
10 000 stránek "Crawled - currently not indexed"

"Discovered" stránky Google ani nenavštívil — neměl kapacitu. "Crawled" stránky navštívil, ale odmítl indexovat — většinou duplicity.

Analýza a řešení

Problém 1: Fazetová navigace Každá kategorie měla filtry generující stovky kombinací URL. Celkem desetitisíce potenciálních URL pro 500 kategorií.

Řešení: Blokování kombinací filtrů v robots.txt. Ponechali jsme indexaci jen pro hlavní filtry (značka), které měly SEO potenciál.

Problém 2: Řazení v URL Každá kategorie měla 6 způsobů řazení (?sort=price, ?sort=name...) — 6x více URL.

Řešení: Canonical na verzi bez parametru. Zároveň Disallow v robots.txt.

Problém 3: Session ID v URL Staré nastavení přidávalo ?session=xxx ke každé URL. Googlebot viděl statisíce "unikátních" stránek.

Řešení: Odstranění parametru z URL, přesun do cookies.

Problém 4: Vyprodané produkty 8 000 produktů bylo trvale vyprodaných, ale stránky existovaly s textem "produkt není dostupný".

Řešení: 301 přesměrování na podobné produkty nebo kategorie.

Výsledky za 3 měsíce

Po implementaci změn:

Měsíc 1: Google začal procházet více HTML stránek (méně plýtvání na parametry). Rychlost procházení vzrostla z 500 na 2 000 stránek denně.

Měsíc 2: Indexované stránky vzrostly z 15 000 na 35 000. "Discovered" stránky klesly.

Měsíc 3: 45 000 produktů v indexu. Organická návštěvnost +67 % oproti výchozímu stavu.

Klíč byl v tom, že jsme Googlebotu "uklidili cestu". Místo milionů zbytečných URL viděl 50 000 skutečných produktů — a měl kapacitu je projít.

Potřebujete pomoct s optimalizací rozpočtu na procházení?

Pomáhám firmám zlepšit indexaci a efektivitu procházení. Bez složitých smluv, jen výsledky.

Domluvte si konzultaci

Často kladené otázky

Kolik stránek musí mít web, aby rozpočet na procházení byl problém?

Neexistuje přesné číslo, ale obecně platí: pod 10 000 stránek rozpočet na procházení většinou není problém. Mezi 10 000 a 100 000 záleží na technické kondici webu. Nad 100 000 je rozpočet na procházení téměř vždy relevantní. Důležitější než počet stránek je poměr užitečných vs. zbytečných URL. E-shop s 5 000 produkty a desetitisíci filtrovanými URL má větší problém než web s 50 000 čistými stránkami.

Jak zjistím, jestli Google nestíhá projít můj web?

Podívejte se do Google Search Console na sekci Stránky (Pages). Pokud máte velké množství stránek ve stavu "Discovered - currently not indexed" (Google o nich ví, ale nenavštívil je) dlouhodobě (měsíce), je to signál nedostatečného rozpočtu na procházení. Dále v Nastavení (Settings) → Statistiky procházení (Crawl statistics) porovnejte denní rychlost procházení s celkovým počtem stránek. Pokud by při současné rychlosti trvalo projít celý web déle než měsíc, možná máte problém.

Je lepší použít noindex nebo disallow?

Záleží na cíli. Disallow šetří rozpočet na procházení — Google stránku vůbec nenavštíví. Použijte pro filtry, řazení, interní vyhledávání. Noindex zabraňuje indexaci, ale Google stránku navštíví — spotřebuje rozpočet, ale uvidí značku. Použijte, když potřebujete, aby Google stránku viděl (např. kvůli odkazům na ní), ale nechcete ji v indexu. Nejčastější chyba: kombinovat obojí. Pokud dáte Disallow, Google na stránku nepřijde a noindex značku nikdy neuvidí.

Jak často Google navštěvuje průměrný web?

Velmi záleží na typu webu. Zpravodajské weby Google navštěvuje několikrát denně. E-shopy s aktivními změnami (ceny, dostupnost) typicky denně. Firemní weby a blogy jednou týdně až jednou měsíčně. Neaktivní weby bez aktualizací možná jednou za několik měsíců. Frekvenci ovlivníte aktualizací obsahu — čím častěji měníte, tím častěji Google přijde.

Pomůže rychlejší server zlepšit rozpočet na procházení?

Ano, ale nepřímo. Rychlejší server zvyšuje limit rychlosti procházení (crawl rate limit) — Google může poslat více požadavků za stejný čas, aniž by přetížil server. Pokud váš server odpovídá za 2 sekundy, Google stihne 30 stránek za minutu. Pokud odpovídá za 200 ms, stihne 300 stránek za minutu. Ale rychlejší server nezvyšuje poptávku po procházení (crawl demand) — Googlovu motivaci váš web navštěvovat. Tu ovlivníte kvalitou obsahu, aktualizacemi a zpětnými odkazy.

Související články

Procházení (crawling): Jak Google prochází weby — základy procházení
Procházení a indexace: Kompletní průvodce — jak celý proces funguje
Robots.txt: Jak správně nastavit — kontrola přístupu robotů
Canonical URL: Řešení duplicit — jak sjednotit duplicitní stránky
Indexování: Proč Google nezobrazuje stránky — co se děje po procházení