Analýza logů: Jak Zjistit, Co Googlebot Dělá na Webu
"Proč mi Google indexuje staré tiskovky z roku 2018, ale nové produkty ignoruje?"
Tohle je otázka, kterou slyším minimálně jednou týdně. A odpověď většinou nezjistíte v Google Search Console. Ta vám ukáže, co Google zaindexoval. Ale neřekne vám, kam chodí nejčastěji. Kde tráví svůj drahocenný čas. A hlavně — kde ho zbytečně plýtvá.
K tomu potřebujete serverové logy. Surová data o každé návštěvě robota na vašem webu.
Za roky v SEO jsem analyzovala logy desítek webů. A vždy tam najdu překvapení. e-shop, kde bot strávil 60 % času na stránkách filtrů, které měly být blokované. Zpravodajský portál, kde 40 % procházení šlo na články starší pěti let. Firemní web, kde jak funguje Google systematicky ignoroval celou sekci služeb.
V tomto návodu vám ukážu, jak na to. Krok za krokem. Od získání logů až po konkrétní akce.
Proč analýza serverových logů, Když Mám Search Console
Search Console je skvělý nástroj. Zdarma, oficiální, od Google. Ale má jedno zásadní omezení: ukazuje vám agregovaná data a jen to, co Google chce.
Co Search Console neukazuje
Search Console vám řekne:
- Kolik stránek je zaindexovaných
- Které URL mají problémy s indexací
- Průměrnou pozici ve vyhledávání
Ale neřekne vám:
- Jak často Googlebot navštěvuje konkrétní URL
- V jakém pořadí stránky prochází
- Jak dlouho trvá, než server odpoví
- Které sekce webu robot kompletně ignoruje
- Zda chodí na URL, které jste mu zakázali
Představte si to jako rozdíl mezi účetní uzávěrkou a výpisem z účtu. Uzávěrka vám řekne celkový stav. Výpis ukáže každou transakci.
Surová data vs agregované metriky
V Search Console vidíte, že máte "1 247 indexovaných stránek". Ale nevíte, jestli se bot k některým dostal jednou za měsíc nebo třikrát denně.
Serverové logy vám ukáží každý jednotlivý požadavek:
66.249.66.1 - - [08/Jan/2026:14:23:15 +0100] "GET /produkty/tricko-bile-xl HTTP/1.1" 200 15234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Jeden řádek = jeden požadavek. Víte přesně kdy, na jakou URL, s jakým výsledkem.
Kdy má analýza logů smysl
Analýza logů není pro každého. Pokud máte web s 20 stránkami a 50 návštěvami denně, Search Console vám bohatě stačí.
Ale rozhodně ji potřebujete, pokud:
- Máte velký web (1000+ URL) — e-shop, katalog, zpravodajství
- Bojujete s indexací — stavy "Discovered - not indexed" nebo "Crawled - not indexed"
- Migrujete web — potřebujete vědět, jak rychle bot přijme změny
- Máte problémy s rozpočtem na procházení (crawl budget) — robot nestíhá procházet důležité stránky
- Podezření na technické problémy — pomalý server, chybové odpovědi
Základy: Co Jsou Serverové Logy
Každý webový server si vede záznamy o všech požadavcích. Kdo přišel, kdy, na jakou adresu, jaký dostal výsledek. Tyto záznamy se ukládají do souborů — přístupových logů (access logs).
Kde je najdete (cPanel, VPS, cloud)
Umístění logů závisí na vašem hostingu:
cPanel (většina sdílených hostingů)
- Přihlaste se do cPanel
- Sekce "Metrics" nebo "Logs"
- "Raw Access Logs" — stáhnete jako .gz soubor
VPS / Dedicated server
- Apache:
/var/log/apache2/access.lognebo/var/log/httpd/access_log - Nginx:
/var/log/nginx/access.log - Přístup přes SSH nebo SFTP
Cloudové služby
- AWS CloudFront: zapnout logging do S3 bucketu
- Cloudflare: Enterprise plán má Log Push
- Vercel/Netlify: většinou omezené nebo placené
WordPress managed hosting (Wedos, Savana)
- Zákaznická podpora vám logy poskytne na vyžádání
- Někdy v administraci v sekci "Statistiky"
Důležité: Logy se obvykle rotují (starší se mažou). Vyžádejte si alespoň 30denní historii.
Formát access logu — anatomie řádku
Standardní formát Apache/Nginx vypadá takto:
66.249.66.1 - - [08/Jan/2026:14:23:15 +0100] "GET /stranka HTTP/1.1" 200 15234 "[HTTPS](/blog/https-a-ssl-proc-vas-web-bez-zamku-trati-penize-2026)://google.com/" "Googlebot/2.1"
Co jednotlivé části znamenají:
Jak poznat Googlebot (user agent, IP)
Ne každý, kdo tvrdí, že je Googlebot, jím skutečně je. Spousta scraperů a spammerů se za něj vydává.
User-Agent Googlebotu:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Ověření pravosti:
- Zjistěte IP adresu z logu
- Proveďte reverzní DNS lookup:
host 66.249.66.1 - Výsledek musí končit na
.googlebot.comnebo.google.com - Pro jistotu ověřte dopředným lookupem:
host crawl-66-249-66-1.googlebot.com
IP adresy Googlebotu jsou v rozsazích:
- 66.249.64.0/19
- 64.233.160.0/19
- Kompletní seznam na developers.google.com
Nástroje pro Analýzu
Surový log je textový soubor. Může mít miliony řádků. Bez správného nástroje se v tom ztratíte.
Screaming Frog Log Analyzer (doporučeno)
Pokud děláte SEO profesionálně, Screaming Frog Log Analyzer je jednoznačná volba.
Výhody:
- Přehledná vizualizace aktivity procházení
- Filtry podle botů, status kódů, URL vzorů
- Rozpoznání AI crawlerů (GPTBot, ClaudeBot a další)
- Propojení s daty procházení (co bot navštívil vs. co existuje)
- Export do Excelu pro další analýzu
Cena: 99 GBP/rok (samostatně) nebo v balíčku se SEO Spiderem.
Jak na to:
- Stáhněte a nainstalujte Log Analyzer
- Importujte log soubory (podporuje .log, .gz, .zip)
- Vyberte formát logu (Apache, Nginx, IIS...)
- Nechte zpracovat a prozkoumejte dashboardy
Excel/Google Sheets pro malé weby
Pro menší weby (do 10 000 záznamů) zvládnete analýzu v tabulkovém procesoru.
Postup:
- Otevřete log v textovém editoru
- Importujte do Sheets/Excelu (mezera jako oddělovač)
- Filtrujte podle User-Agent obsahujícího "Googlebot"
- Vytvořte kontingenční tabulku podle URL
Omezení: Pomalé zpracování, omezené vizualizace, ruční práce s formátováním.
ELK Stack pro velké objemy
Pro weby s miliony URL a terabajty logů existuje ELK Stack (Elasticsearch, Logstash, Kibana).
Výhody:
- Zpracuje libovolný objem dat
- Real-time analýza
- Pokročilé dashboardy a alerting
- Dotazování přes Elasticsearch Query DSL
Nevýhody:
- Vyžaduje technické znalosti
- Náročné na server (RAM, úložiště)
- Čas na nastavení a údržbu
Řešení pro větší e-shopy a vydavatelské weby s in-house IT týmem.
Python skripty pro custom analýzu
Pokud umíte trochu programovat (nebo máte vývojáře), Python s knihovnami pandas a matplotlib nabízí maximální flexibilitu.
import pandas as pd
# Načtení a parsování logu
df = pd.read_csv('access.log', sep=' ', header=None,
names=['ip', 'dash1', 'dash2', 'datetime',
'tz', 'request', 'status', 'size',
'referer', 'useragent'])
# Filtrace Googlebotu
googlebot = df[df['useragent'].str.contains('Googlebot', na=False)]
# Top 20 nejnavštěvovanějších URL
print(googlebot['request'].value_counts().head(20))
Ideální pro opakované analýzy nebo napojení na automatizované reporty.
Co Hledat v Lozích
Máte logy. Máte nástroj. Co teď vlastně hledáte?
Frekvence procházení — jak často bot přichází
První otázka: jak aktivně Google váš web prochází?
Zdravý web: Googlebot přichází pravidelně, několikrát denně nebo častěji.
Problémový web: Návštěvy jednou týdně nebo méně. Znamená to, že Google váš web nepovažuje za prioritu.
Sledujte trend v čase. Rostoucí frekvence = Google má zájem. Klesající = něco je špatně.
Nejnavštěvovanější URL — kam chodí nejvíc
Vytvořte si žebříček TOP 100 URL podle počtu návštěv bota.
Co chcete vidět: Důležité stránky (homepage, kategorie, klíčové produkty) na vrcholu.
Co nechcete vidět:
- Stránky s parametry (/produkty?sort=cena&page=5)
- Admin sekce (/wp-admin/...)
- Staré, irelevantní obsahy
- Technické soubory (/xmlrpc.php, /wp-json/...)
Pokud bot tráví většinu času na nepodstatných URL, máte problém s rozpočtem na procházení (crawl budget).
Ignorované sekce — co bot nevidí
Stejně důležité je zjistit, kam bot NEchodí.
Porovnejte:
- Seznam URL na webu (z procházení nebo sitemapy)
- Seznam URL v lozích
Rozdíl = URL, které Googlebot ignoruje.
Časté příčiny:
- Žádné interní odkazy na tyto stránky
- Sekce je příliš hluboko ve struktuře
- Robots.txt blokuje přístup (záměrně nebo omylem)
- Server je pomalý a bot nedokončí procházení
Status kódy — chyby a přesměrování
Každý požadavek má status kód. Rozdělte si je do skupin:
Vysoký podíl 4xx a 5xx chyb signalizuje problém. Google neplýtvá rozpočtem na procházení na rozbitý web.
Doba odezvy (response time) — jak rychle server odpovídá
Některé logy obsahují i čas odpovědi serveru (v milisekundách).
Zdravé hodnoty:
- Pod 200 ms: Výborné
- 200-500 ms: Přijatelné
- Nad 1000 ms: Problém
Pomalé odpovědi = bot stihne méně stránek. A časem přijde méně často.
Pozor na špičky. Server může být rychlý v noci, ale pomalý ve 14
, kdy je nejvíc uživatelů.AI crawlery — nová hrozba pro rozpočet na procházení
V roce 2026 už nemůžete analyzovat pouze Googlebot. AI crawlery jako GPTBot, ClaudeBot a Bytespider představují významnou zátěž pro servery.
Alarmující čísla z roku 2025:
- Celkový provoz crawlerů vzrostl o 18 % (květen 2024 vs. květen 2025)
- GPTBot vzrostl o 305 %
- Googlebot vzrostl o 96 %
Na některých webech GPTBot navštíví 20 000 URL denně, zatímco Googlebot jen 8 000. To je problém.
Proč sledovat AI crawlery:
- Konzumují serverové zdroje stejně jako vyhledávací boti
- Mohou objevit URL, které Google vůbec neprochází
- Způsobují plýtvání výpočetním výkonem
- Některé crawlují agresivně bez ohledu na zatížení serveru
Co s tím:
- Identifikujte podíl — kolik procent požadavků jde od AI botů?
- Rozhodněte se — chcete být součástí AI tréninku?
- Nastavte robots.txt — můžete blokovat selektivně:
# Blokování AI tréninkových crawlerů
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
Důležité: Blokování Google-Extended NEOVLIVNÍ vaše pozice ve vyhledávání. Je to samostatný token oddělený od Googlebotu. Stejně tak blokování GPTBot neovlivní, zda se váš web objeví v ChatGPT odpovědích z webu.
Odhalování Problémů
Teď to zajímavé. Jaké konkrétní problémy v lozích najdete?
Pavoučí pasti — zacyklené URL
Pavoučí past je URL struktura, která generuje nekonečně mnoho kombinací.
Typické příklady:
/kalendar/2026/01/08
/kalendar/2026/01/09
/kalendar/2026/01/10
... (tisíce kombinací do budoucnosti)
/filtry?barva=cervena&velikost=m
/filtry?velikost=m&barva=cervena
... (jiné pořadí = jiná URL)
V lozích to poznáte podle:
- Vysokého počtu požadavků na podobné URL vzory
- Nekonečného nárůstu unikátních URL v čase
Řešení: Blokovat v robots.txt nebo použít canonical tag.
Plýtvání na nežádoucí stránky
Kolik procent procházení jde na stránky, které nepotřebujete indexovat?
Kandidáti na zablokování:
- Interní vyhledávání (/search?q=...)
- Řazení a filtrace (/produkty?sort=...)
- Stránkování (/blog/page/47/)
- Tisková verze (/clanek/print/)
- Staré archivní sekce
Pokud tyto URL tvoří více než 20 % procházení, aktivně plýtváte.
Porovnání procházení vs indexace
Zajímavé srovnání: co bot prochází vs. co Google indexuje.
Data z logů + data ze Search Console vám ukáží:
- Prochází, ale neindexuje — kvalita obsahu je nízká, nebo máte noindex
- Indexuje, ale neprochází — stará položka v indexu, kterou bot přestal navštěvovat
- Neprochází a neindexuje — osiřelé stránky nebo blokované sekce
Sezónní vzorce procházení
Googlebot nemá konstantní aktivitu. Sledujte vzorce:
- Denní cyklus: Často aktivnější v noci a brzy ráno (nižší zatížení serverů)
- Týdenní cyklus: Někdy nižší aktivita o víkendu
- Po aktualizacích: Špička po přidání nového obsahu
- Po získání odkazů: Nové zpětné odkazy často spustí opětovné procházení
Pokud vidíte náhlý propad aktivity procházení, hledejte příčinu (výpadek serveru, změna robots.txt, penalizace).
Praktický Postup Analýzy
Pojďme si to dát dohromady. Systematický postup, který můžete následovat.
Krok 1: Export logu (poslední měsíc)
Získejte logy za posledních 30 dní. Kratší období nemusí zachytit všechny vzorce.
Formáty: .log, .gz (komprimovaný), někdy .csv
Velikost: Očekávejte stovky MB až jednotky GB pro větší weby.
Krok 2: Filtrace návštěv botů
Ze všech požadavků vás zajímá jen Googlebot (případně další vyhledávače).
Filtrujte podle User-Agent:
Googlebot— hlavní robot pro vyhledáváníGooglebot-Image— obrázkyGooglebot-Video— videaGooglebot-News— zpravodajský obsahAdsBot-Google— kontrola landing pages pro AdsGoogle-Extended— AI tréninkový crawler (Gemini, Vertex AI)
Nezapomeňte na AI crawlery:
GPTBot— OpenAI crawler pro ChatGPTClaudeBot— Anthropic crawler pro Claude AIClaude-SearchBot— Anthropic vyhledávací botCCBot— Common Crawl (používá mnoho AI projektů)Bytespider— ByteDance (TikTok) crawler
Ověřte pravost přes reverzní DNS (viz výše). U AI botů je ověření složitější — kontrolujte oficiální IP rozsahy na stránkách OpenAI a Anthropic.
Krok 3: Kategorizace URL
Rozdělte URL do logických skupin:
V Screaming Frog Log Analyzeru použijte regex filtry. V Excelu pomocné sloupce s funkcí IF/CONTAINS.
Krok 4: Identifikace problémů
Pro každou kategorii odpovězte na otázky:
- Odpovídá podíl procházení důležitosti sekce?
- Jsou všechny důležité URL procházeny pravidelně?
- Kolik procent má chybové kódy (4xx, 5xx)?
- Jaká je průměrná doba odpovědi?
- Existují URL vzory, které bot prochází zbytečně?
Zapište si konkrétní nálezy. Ne "máme problém", ale "47 % procházení jde na /produkty?* filtry".
Krok 5: Akce a monitoring
Ke každému nálezu přiřaďte akci:
Implementujte změny a zopakujte analýzu za měsíc. Sledujte, zda se situace zlepšila.
Zpravodajsky portal: Indexace nových článků z 5-7 dnů na 1-2 dny
Klient publikoval 20-30 článků denně, ale nové články se indexovaly pomalu. Analýza logů ukázala, že 41 % procházení šlo na archiv starší 2 let místo čerstvého obsahu.
Co rozhodlo: Optimalizace robots.txt a sitemap prioritizace byly základ. Ale skutečný průlom přišel s PR články na DA50+ zpravodajských webech, které zvýšily autoritu domény a přiměly Google navštěvovat web častěji.
Objev — 40 % procházení na staré články
Klient provozoval zpravodajský web s denní produkcí obsahu. Stěžoval si, že nové články se indexují pomalu — někdy až týden.
Když jsem analyzovala měsíční logy, čísla byla jednoznačná:
Googlebot trávil skoro polovinu času na článcích starých dva a více let. Většina z nich už byla neaktuální — zprávy o dávno proběhlých událostech.
Další problém: staré články měly více interních odkazů (historicky se na ně odkazovalo). Nové články měly odkazy jen z homepage a kategorie — a ty se rychle posunuly dolů.
Řešení
-
Úprava robots.txt — Blokování archivních sekcí starších 18 měsíců:
Disallow: /2024/ Disallow: /2023/ -
Nastavení prodlevy procházení (crawl-delay) — Signál pro roboty, aby zpomalili na archivních URL (ne všichni boti to respektují, ale pomáhá)
-
Posílení interního prolinkování — Sekce "Právě vychází" na homepage s 10 nejnovějšími články
-
Přidání noindex na skutečně mrtvý obsah — Zprávy typu "Počasí na víkend 15.3.2024"
-
XML sitemap prioritizace — Rozdělení sitemapy na "aktuální" (denně aktualizovaná) a "archiv"
Výsledky
Po 6 týdnech nová analýza ukázala:
Průměrná doba indexace nového článku klesla z 5-7 dnů na 1-2 dny.
Bonus: Core Web Vitals se zlepšily, protože server nemusel obsluhovat tolik zbytečných požadavků.
Potřebujete pomoct s analýzou serverových logů?
Pomáhám firmám pochopit chování Googlebotu a zlepšit indexaci. Bez složitých smluv, jen výsledky.
Často kladené otázky (FAQ)
1. Kde najdu serverové logy svého webu?
Záleží na typu hostingu. V cPanelu hledejte sekci "Metrics" nebo "Raw Access Logs". Na VPS jsou typicky v /var/log/apache2/ nebo /var/log/nginx/. U managed hostingů (Wedos, Savana) požádejte zákaznickou podporu. Cloudové služby jako Cloudflare vyžadují Enterprise plán pro plný přístup k logům.
2. Jak poznám, že jde opravdu o Googlebot?
User-Agent lze snadno podvrhnout, takže samotný řetězec "Googlebot" nestačí. Proveďte reverzní DNS lookup na IP adresu z logu. Příkaz host 66.249.66.1 musí vrátit hostname končící na .googlebot.com nebo .google.com. Pokud ne, jde o podvržený požadavek.
3. Jak často bych měla analyzovat logy?
Pro běžné weby stačí jednou za čtvrtletí nebo po větších změnách (migrace, redesign, změna struktury URL). Velké e-shopy a zpravodajské weby s tisíci URL by měly mít automatizovaný monitoring — buď vlastní řešení, nebo služby jako Botify či OnCrawl.
4. Mohu blokovat nevítané boty?
Ano, a měli byste. Legitimní boti (Google, Bing, Seznam) respektují robots.txt. Škodlivé scrapery můžete blokovat na úrovni serveru přes .htaccess (Apache) nebo konfiguraci Nginx. Případně použijte WAF (Web Application Firewall) jako Cloudflare, který automaticky blokuje známé škodlivé boty.
5. Jak se bránit AI crawlerům jako GPTBot nebo ClaudeBot?
Přidejte pravidla do robots.txt pro konkrétní AI boty (GPTBot, ClaudeBot, Google-Extended, CCBot). Pamatujte ale, že robots.txt je pouze doporučení — nečestní boti ho mohou ignorovat. Pro spolehlivější ochranu ověřujte IP adresy proti oficiálním rozsahům (OpenAI a Anthropic je publikují) a blokujte na úrovni firewallu. Pozor: některé AI nástroje jako ChatGPT Atlas se tváří jako běžný prohlížeč Chrome a robots.txt pravidla nerespektují.
6. Ovlivní blokování AI botů moje SEO?
Ne. Google-Extended je oddělený od Googlebotu — blokováním Google-Extended nezhoršíte své pozice ve vyhledávání. Stejně tak GPTBot a ClaudeBot jsou čistě tréninkové crawlery a jejich blokování neovlivní, zda se váš obsah objeví v AI odpovědích z webu (ty používají jiné user-agenty jako ChatGPT-User nebo Claude-User).
O autorce
Pomohla jsem desítkám firem optimalizovat jejich weby pro vyhledávače. Specializuji se na technické SEO, analýzu serverových logů a zlepšování indexace. Každý projekt řeším individuálně podle potřeb klienta.
O autorce

Ing. Jana Hrabalová
SEO specialistka
SEO se věnuji od roku 2012. Pomáhám firmám získat více zákazníků z Google a přežít každý algoritmus update bez škrábnutí.
📚 Čtěte dále
Získejte SEO článek zdarma
Publikuji váš článek na kvalitním webu s vysokou autoritou
- Publikace na webu s DA 50+
- Dofollow odkaz na váš web
- Profesionální copywriting
Vyzkoušejte také mé bezplatné SEO nástroje: