Technické SEO

Googlebot: kompletní průvodce

Zjistěte, jak Googlebot funguje, co vidí, co ho blokuje a jak s ním aktivně pracovat, abyste zrychlili indexaci a neztráceli viditelnost.

Chci SEO konzultaci Číst průvodce ↓

18 min

odhadovaná doba čtení

praktických tipů

3 fáze

od URL po výsledek vyhledávání

specializovaných crawlerů Google

2 MB

limit HTML souboru při crawlování

30 dní

cache JS/CSS zdrojů ve WRS

Definice

Co je Googlebot?

Googlebot je automatizovaný program, crawler, který Googlu slouží k procházení internetu, stahování obsahu webových stránek a jejich předávání do vyhledávacího indexu.

Bez Googlebota Google nic neví. Nezáleží na tom, jak dobrý váš obsah je. Pokud ho Googlebot nenašel, nebo ho sice navštívil, ale nebyl schopen ho přečíst, vaše stránka v Google neexistuje.

Představte si Googlebota jako kurýra, který systematicky objíždí internetové adresy, stahuje obsah každé stránky, zapisuje si, o čem pojednává, a odnáší tyto informace do obrovského skladu. Tím skladem je Google index. Z tohoto skladu pak Google vybírá výsledky pro každý dotaz uživatele.

Název „Googlebot“ zastřešuje celou rodinu crawlerů. Nejde o jeden program, ale o sadu specializovaných robotů, z nichž každý má jiný účel.

Klíčový koncept

Crawling ≠ indexování

Googlebot stránku navštíví (crawling) a stáhne její obsah. Teprve poté ji Google vyhodnotí a rozhodne, zda ji zařadí do indexu (indexování). Tyto dvě fáze jsou oddělené a nezávislé.

Stránka může být crawlovaná a přesto nezaindexovaná. Právě zde vzniká velká část technických SEO problémů.

Přehled

Typy Googlebota: přehled všech crawlerů

Google provozuje více druhů crawlerů. Každý má jiný User-Agent string a jiný účel.

Crawler	Účel	robots.txt token
Googlebot Desktop	Indexace pro Google Search, desktop pohled	`Googlebot`
Googlebot Smartphone	Indexace pro Google Search, mobilní pohled. Primární crawler od roku 2020.	`Googlebot`
Googlebot-Image	Indexace obrázků pro Google Images	`Googlebot-Image`
Googlebot-Video	Indexace videí	`Googlebot-Video`
Googlebot-News	Indexace pro Google News	`Googlebot-News`
Storebot-Google	Indexace produktů pro Google Shopping	`Storebot-Google`
Google-InspectionTool	URL Inspection Tool v Google Search Console	`Google-InspectionTool`
AdsBot-Google	Kontrola kvality cílových stránek reklam	`AdsBot-Google`

Upozornění

Desktop a Smartphone sdílejí token v robots.txt

Googlebot Desktop a Googlebot Smartphone mají různé User-Agent stringy, ale v robots.txt sdílejí stejný token Googlebot. Pravidlo pro Googlebot platí pro oba zároveň. Pokud chcete odlišit jejich chování, musíte sáhnout po jiném přístupu, například po noindex v meta tagu.

Technická poznámka

User-Agent se průběžně mění

Verze Chrome v User-Agent stringu Googlebota odpovídá aktuální verzi Chromia, které Google používá pro renderování. Konkrétní číslo verze se mění, proto při detekci Googlebota nespoléhejte na číslo verze. Detekujte přítomnost slova Googlebot v řetězci.

Mechanismus

Jak Googlebot funguje: 3 fáze

Cesta od „stránka existuje“ po „stránka je v Google“ prochází třemi odlišnými fázemi: objevováním, procházením a renderováním, a indexováním.

Objevování

Discovery

Procházení a renderování

Crawling & Rendering

Indexování

Indexing

Fáze 1: Objevování

Než Googlebot může stránku navštívit, musí o ní vědět. Nové URL adresy nachází třemi způsoby.

Sledování odkazů je nejběžnější cestou. Googlebot začíná na stránkách, které zná, a prochází všechny nalezené odkazy.

XML Sitemap je seznam URL, který webu majitel předkládá přes Google Search Console. Zvláště důležitá pro nové weby nebo stránky, na které nikdo neodkazuje.

Manuální předložení URL přes URL Inspection Tool v GSC umožňuje požádat o (re)crawlování konkrétní stránky. Vhodné po vydání nového obsahu nebo po opravě chyby.

Praktický dopad: sirotčí stránky mohou trvat měsíce, než je Googlebot najde, nebo je nenajde vůbec.

Fáze 2: Procházení a renderování

Jakmile Googlebot URL zná, stáhne HTML stránky. Moderní weby ale nejsou čistý HTML, proto Google provozuje Web Rendering Service (WRS), renderovací engine postavený na Chromiu.

Googlebot stahuje prvních 2 MB HTML souboru (nebo prvních 64 MB v případě PDF). Obsah za tímto limitem je ignorován.

Při crawlování zkoumá textový obsah, interní a externí odkazy, obrázky a jejich alt texty, meta tagy (title, description, canonical, robots), strukturovaná data a JavaScript po renderování přes WRS.

Limit 2 MB HTML: obsah za touto hranicí Google nevidí.

Fáze 3: Indexování

Po renderování Google stránku vyhodnotí a rozhodne, zda a jak ji zařadí do indexu. Indexování není automatické.

Ne každá crawlovaná stránka je indexována. Google může stránku crawlovat a přesto ji do indexu nezařadit, například pokud ji vyhodnotí jako duplicitní, tenkou nebo nerelevantní.

Z indexu pak Google při každém vyhledávacím dotazu vybírá nejrelevantnější výsledky a seřazuje je podle svých rankingových algoritmů.

Crawlovaná stránka není automaticky indexovaná stránka.

Technické SEO

Crawl budget: co to je a kdy na něm záleží

Crawl budget je množství URL adres, které Google může a chce na vašem webu procrawlovat za dané časové období.

Pro weby s tisíci nebo desítkami tisíc stránek je crawl budget kritickým faktorem, který přímo určuje, zda nový obsah bude zaindexován v rozumném čase. Pro malé weby do stovek stránek s pravidelně aktualizovaným obsahem obvykle není problém.

Crawl capacity limit

Maximální počet paralelních připojení, které Googlebot může na váš web otevřít najednou, a časová prodleva mezi požadavky. Googlebot cílí na to, aby neohrožoval dostupnost vašeho serveru. Pokud váš server reaguje rychle a bez chyb, Googlebot může procházet více stránek za stejný čas.

Crawl demand

Jak moc Google chce vaše stránky crawlovat. Závisí na popularitě webu, počtu odkazů, objemu vyhledávání na vaše stránky, frekvenci aktualizací a hodnotě obsahu. Nové stránky a čerstvě aktualizovaný obsah mají vyšší demand.

Kdy je crawl budget problém?

Crawl budget se stává kritickým u těchto typů webů:

E-shopy s parametrizovanými URL

Filtrace, řazení a parametry v URL generují tisíce kombinací se stejným nebo velmi podobným obsahem. Každá kombinace filtrů může vytvořit samostatnou URL, která plýtvá crawl budgetem.

Velké zpravodajské weby

Archivy stovek tisíc článků, starý obsah s nízkou hodnotou a duplicitní meta tagy způsobují, že Googlebot tráví čas na stránkách, které nepřinášejí hodnotu.

Weby s duplicitním obsahem

Googlebot plýtvá časem na stránky, které jsou prakticky totožné s jinou URL na stejném webu. Výsledek: hodnotný nový obsah se do indexu dostane se zpožděním.

Weby po migraci

Přesun domény nebo URL struktury výrazně zvyšuje crawl demand. Nesprávně nastavená přesměrování nebo chybějící canonicaly způsobují masivní plýtvání crawl budgetem.

Jak optimalizovat crawl budget

Odstraňte nebo skryjte nízkohodnotné stránky pomocí noindex nebo robots.txt disallow
Konsolidujte duplicitní obsah přes canonical tagy na kanonickou verzi
Opravte chybná přesměrování a redirect chainy, ideálně přímé přesměrování A na D
Zajistěte rychlý server s nízkým TTFB (pod 200 ms je dobrý základ)
Udržujte XML sitemap čistou, pouze indexované stránky vracející HTTP 200

Pozor na časté mýty: Komprimované sitemapy nezvyšují crawl budget. Stránky vracející 4xx kód (kromě 429) crawl budget neplýtvají. Noindex přímou cestou crawl budget nešetří, ale nepřímo ano, protože stránky vyřazené z indexu uvolní kapacitu pro hodnotný obsah.

JavaScript SEO

Googlebot a JavaScript: co musí každý vývojář vědět

Googlebot JavaScript renderuje, ale s časovým zpožděním. Obsah generovaný přes JS může být zaindexován o dny nebo týdny později než statický HTML obsah.

Toto je jedno z nejčastějších technických SEO nedorozumění a pro weby postavené na JavaScriptových frameworcích (React, Vue, Angular, Next.js) může mít zásadní dopad.

Two-wave indexing: proč JS obsah čeká

První vlna

Okamžité zpracování statického HTML

Googlebot stáhne HTML a ihned zpracuje vše, co je v raw HTML kódu. Pokud je obsah statický, tedy přímo v HTML, je zaindexován bez prodlení.

Druhá vlna

Zpožděné renderování přes WRS

Googlebot předá stránku WRS (Web Rendering Service) ke zpracování JavaScriptu. WRS funguje asynchronně a ve frontě. Může trvat dny až týdny, než dojde na renderování. Teprve po renderování je JS obsah předán k indexaci.

Praktický důsledek: Pokud vaše stránka zobrazuje obsah pouze přes JavaScript bez server-side renderování, tento obsah může být v indexu Google výrazně opožděn nebo v horším případě zcela chybět.

Jak to ověřit a vyřešit

Test: Použijte URL Inspection Tool v Google Search Console. V záložce „Rendered page“ uvidíte, jak Google stránku skutečně vidí po renderování. Porovnejte s raw HTML v záložce „Page source“. Pokud vidíte výrazné rozdíly, máte JS SEO problém.

Situace	Doporučení
Kritický obsah jen v JS	Přejděte na Server-Side Rendering (SSR) nebo Static Site Generation (SSG)
Méně kritický obsah v JS	Zvažte pre-rendering pro Googlebot
JS framework obecně	Implementujte progressive enhancement, klíčový obsah vložte do statického HTML

WRS cachuje JS a CSS zdroje až na 30 dní pro šetření crawl budgetu. Změny v JS souborech proto nemusí Googlebot okamžitě zaregistrovat.

Bezpečnost a monitoring

Jak ověřit, že návštěva pochází od Googlebota

Jedinou spolehlivou metodou verifikace Googlebota je reverse DNS lookup. User-Agent string lze podvrhnout, IP adresu v kombinaci s DNS nikoli.

Fake Googleboti jsou reálný fenomén. Různé scrapery a spamboti se vydávají za Googlebot, aby obešly bezpečnostní opatření. Proto je verifikace důležitá při blokování IP adres nebo analýze serverových logů.

Krok za krokem: verifikace přes reverse DNS

Najděte IP adresu v serverovém logu

V access logu vašeho serveru najdete záznamy ve formátu:

66.249.66.1 - - [18/Mar/2025:10:23:45 +0100] "GET /stranka/ HTTP/1.1" 200 4523 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; ...)"

IP adresa v tomto případě je 66.249.66.1.

Spusťte reverse DNS lookup

Na Linuxu nebo macOS v terminálu:

host 66.249.66.1

Výsledek musí obsahovat .googlebot.com nebo .google.com. Na Windows použijte příkaz nslookup 66.249.66.1.

Forward DNS lookup pro potvrzení

Zpětně ověřte, že hostname ukazuje zpět na původní IP:

host crawl-66-249-66-1.googlebot.com

Výsledek musí vrátit stejnou IP adresu. Pokud se IP adresy neshodují, návštěva není od Googlebota.

Alternativa: rozsahy IP od Googlu

Google publikuje aktuální seznam svých IP rozsahů na adrese https://www.gstatic.com/ipranges/googlebot.json. Můžete automatizovaně porovnávat IP adresy z logů s tímto seznamem.

Kdy je verifikace důležitá

Tři situace, kdy se vyplatí ověřit

Plánujete blokovat IP adresy, které zdánlivě způsobují problémy s výkonem serveru
Analyzujete serverové logy a chcete oddělit skutečné Googlebot požadavky od fake botů
Řešíte bezpečnostní incident a potřebujete zjistit, zda aktivita pochází od Googlebota

Pozor

User-Agent nestačí

User-Agent string lze jednoduše podvrhnout. Jakýkoli bot nebo scraper může tvrdit, že je Googlebot. Jediná spolehlivá metoda je kombinace reverse DNS a forward DNS lookup. Verifikace přes User-Agent samotný vás chrání pouze před nepoučenými scrapery.

Technické základy

Co Googlebot vidí a co ne

Rozumět tomu, co Googlebot skutečně vidí, je základem technického SEO. Mnohé chyby v indexaci pramení z nepochopení tohoto rozdílu.

Prvek	Googlebot vidí?	Poznámka
HTML obsah	Ano	Základ indexace, první vlna
CSS soubory	Ano	Nutné pro správné renderování
JavaScript (statický)	Ano	Pokud není blokován v robots.txt
JavaScript (dynamický obsah)	Ano, ale se zpožděním	Two-wave indexing, viz sekce o JS výše
Obrázky s alt textem	Ano	Alt text je klíčový pro pochopení obsahu obrázku
Obrázky bez alt textu	Částečně	Googlebot obrázek vidí, ale hůře chápe kontext
PDF soubory	Ano	Indexuje text, prvních 64 MB
Obsah za přihlášením	Ne	Googlebot nemá přihlašovací údaje
Obsah blokovaný v robots.txt	Ne	Stránka není navštívena
Noindex stránky	Crawluje, neindexuje	Rozdíl mezi crawling a indexing
Lazy loading (správně)	Ano	Atribut `loading="lazy"` nebo Intersection Observer s SSR
Lazy loading (špatně)	Ne	Obsah mimo viewport bez správné implementace
Iframe obsah	Omezeně	Záleží na implementaci a dostupnosti URL v iframe
Obsah za paywallem	Podmíněně	Google má speciální pravidla pro flexible sampling
Skrytý text (display:none)	Ano, ale hodnotí jinak	Není penalizace, ale obsah má nižší váhu

Optimalizace

20 praktických tipů, jak optimalizovat web pro Googlebota

Konkrétní kroky seřazené do čtyř oblastí: technická dostupnost, sitemap a struktura, rychlost a renderování, crawl budget a monitoring.

Technická dostupnost

Tip 1

Zkontrolujte robots.txt

Soubor robots.txt najdete na vasedomena.cz/robots.txt. Projděte pravidla Disallow a ověřte, že neblokujete důležité stránky nebo složky. Nejnebezpečnější chyba: Disallow: / zablokuje celý web. Správnost pravidel ověřte přes robots.txt Tester v Google Search Console.

Tip 2

Neblokujte CSS a JS soubory

Historicky se CSS a JS v robots.txt blokovaly pro urychlení crawlování. Dnes je to chyba. Googlebot potřebuje tyto soubory pro korektní renderování stránky. Pokud je zablokujete, vidí stránku polámaně a hodnotí ji méně příznivě.

Tip 3

Udržujte správné HTTP stavové kódy

Každá stránka musí vracet správný kód: existující stránka 200, přesměrovaná 301, neexistující 404, trvale odstraněná 410. Špatné stavové kódy Googlebota mátou a plýtvají crawl budgetem.

Tip 4

Najděte a opravte soft 404 stránky

Soft 404 je stránka, která vrací HTTP 200, ale ve skutečnosti obsahuje zprávu „stránka nenalezena“ nebo je prázdná. Google je považuje za hodnotné URL, prochází je znovu a znovu a plýtvá crawl budgetem. Hledejte je v GSC v sekci Index Coverage.

Tip 5

Zkontrolujte canonical tagy na každé stránce

Canonical tag říká Googlebotovi, která verze stránky je ta hlavní. Špatně nastavený canonical (například canonical ukazující sám na sebe na noindex stránce nebo chybějící canonical u duplicitního obsahu) způsobuje nejasnosti v indexaci.

Tip 6

Nastavte správné hreflang tagy

Pokud máte web ve více jazycích nebo pro více zemí, hreflang říká Googlebotovi, která jazyková verze je určena pro které uživatele. Chybný hreflang způsobuje indexaci špatné jazykové verze pro daný trh.

Sitemap a struktura

Tip 7

Vytvořte XML sitemap a odešlete ji do GSC

Sitemap je mapa vašeho webu pro Googlebota. Vygenerujte ji přes Yoast SEO, Rank Math nebo Screaming Frog a odešlete do GSC přes sekci Sitemaps. Průběžně aktualizujte.

Tip 8

Vylučte ze sitemapy noindex stránky a přesměrování

Sitemap by měla obsahovat pouze stránky, které chcete indexovat a které vrací HTTP 200. Noindex stránky, 301 přesměrování a 404 stránky do sitemapy nepatří.

Tip 9

Zajistěte silné interní prolinkování nových stránek

Nová stránka bez interních odkazů z jiných stránek je pro Googlebota těžko dostupná. Odkazujte na nový obsah z relevantních existujících stránek, ze sekce „Doporučujeme“ nebo z navigace.

Tip 10

Opravte broken links (404 interní odkazy)

Každý interní odkaz vedoucí na neexistující stránku je promarněný crawl request. Pravidelně kontrolujte interní broken links přes Screaming Frog nebo Ahrefs a opravujte je přesměrováním nebo aktualizací odkazu.

Rychlost a renderování

Tip 11

Optimalizujte TTFB (Time to First Byte)

TTFB pod 200 ms je dobrý základ. Pomalý server znamená, že Googlebot za stejný čas procrawluje méně stránek. Zlepšení: kvalitní hosting, serverové cachování, CDN.

Tip 12

Implementujte server-side rendering pro kritický JS obsah

Pokud stavíte na React, Vue nebo jiném JS frameworku a váš klíčový obsah se renderuje pouze klientsky, přejděte na SSR nebo SSG. Obsah se dostane do HTML ihned a Googlebot ho zaindexuje bez čekání na druhou vlnu.

Tip 13

Správně implementujte lazy loading

Pro obrázky mimo viewport použijte nativní atribut loading="lazy". Špatná implementace lazy loadingu způsobuje, že Googlebot obrázky vůbec nevidí.

Tip 14

Minimalizujte redirect chainy

Každé přesměrování navíc znamená extra HTTP požadavek a zdržení. Řetězce A na B na C na D jsou drahé jak pro výkon, tak pro crawlování. Ideální je přímé přesměrování A na D. Maximálně dva skoky.

Crawl budget a monitoring

Tip 15

Nastavte noindex pro nízkohodnotné stránky

Stránky s filtry, řazením, parametry URL, prázdné kategorie nebo stránky s minimálním obsahem by neměly být indexovány. Noindex je signál, aby Google tyto stránky z indexu odstranil.

Tip 16

Ošetřete parametrizované URL

E-shopy s filtrací (?color=red&size=M) generují tisíce kombinací URL. Nastavte canonicaly na kanonickou verzi produktu nebo kategorie, nebo zakažte parametry v GSC přes nastavení URL parametrů.

Tip 17

Sledujte Crawl Stats v GSC

Náhlý pokles crawlovaných stránek může signalizovat technické chyby nebo blokování. Vzrůst může signalizovat generování duplicitních URL. Zkontrolujte Crawl Stats pravidelně, alespoň jednou za měsíc.

Tip 18

Testujte nové stránky přes URL Inspection Tool

Po vydání nového článku nebo stránky zadejte URL do URL Inspection Tool v GSC. Uvidíte, zda je stránka v indexu, kdy ji Googlebot naposledy navštívil a jak ji vidí po renderování.

Tip 19

Verifikujte Googlebota v server logu

Pravidelná analýza serverových logů ukáže, které stránky Googlebot skutečně crawluje a jak často. Nástroje: Screaming Frog Log Analyser nebo vlastní skript. Porovnejte crawlované URL s URL v indexu.

Tip 20

Sledujte Index Coverage report a reagujte na chyby

Index Coverage report v GSC ukazuje stav všech URL na vašem webu. Kategorie „Crawled – currently not indexed“ jsou varovným signálem. Důvodem bývá nízká kvalita, tenký obsah nebo duplicita. Nezanedbávejte tuto sekci.

Diagnostika

Nejčastější chyby a jak je opravit

Přehled chyb, které opakovaně způsobují problémy s indexací, spolu s jejich dopadem a konkrétním řešením.

Chyba	Dopad	Jak opravit
Disallow: / v robots.txt	Celý web neviditelný pro Googlebot	Okamžitá kontrola a oprava robots.txt, otestovat v GSC
Blokování CSS nebo JS v robots.txt	Stránka se renderuje polámaně, horší hodnocení	Odebrat Disallow pro CSS/JS složky
Redirect chain 3 a více skoků	Ztráta crawl budgetu, pomalejší indexace	Přesměrovat přímo na finální URL
Chybějící nebo špatný canonical	Google indexuje špatnou verzi nebo se rozhoduje libovolně	Nastavit canonical na každé stránce
Canonical ukazující na noindex stránku	Konfliktní signály, Google se rozhoduje nepředvídatelně	Canonical a noindex musí být konzistentní
Soft 404 stránky	Plýtvání crawl budgetu, snížení kvality webu	Doplnit obsah nebo vrátit 404 nebo 301
Lazy loading bez správné implementace	Obrázky nejsou zaindexovány	Přejít na `loading="lazy"` nebo zajistit SSR
Nízkohodnotné stránky v indexu	Dilutace crawl budgetu a kvality webu	Noindex pro filtry, tagy, prázdné kategorie
Parametrizované URL bez ošetření	Tisíce duplicitních URL plýtvají budgetem	Canonical na kanonickou verzi nebo GSC parametry
Cloaking	Manuální penalizace Google	Nikdy nezkoušet. Obsah musí být identický pro Googlebota i uživatele.

Google Search Console

Jak sledovat Googlebota v Google Search Console

Google Search Console je primární nástroj pro sledování toho, jak Googlebot váš web vidí a prochází.

Report 1

Crawl Stats report

Najdete ho v GSC pod Settings → Crawl stats. Report zobrazuje počet crawlovaných stránek denně za posledních 90 dní, objem stažených dat a typy odpovědí HTTP.

Sledujte Host availability: zobrazuje, zda Googlebot nenaráží na nedostupnost vašeho serveru.

Report 2

URL Inspection Tool

Zadejte libovolnou URL a zjistíte, zda je stránka v indexu, kdy ji Googlebot naposledy crawloval, jak stránka vypadá po renderování a které zdroje se nepodařilo načíst.

URL Inspection Tool je první krok při diagnostice jakéhokoli problému s indexací konkrétní stránky.

Report 3

Index Coverage report

Dnes sekce „Pages“ v novém rozhraní GSC. Rozděluje všechny known URL do kategorií podle stavu indexace.

Kategorie „Crawled – currently not indexed“ jsou varovným signálem vyžadujícím pozornost.

Stav v GSC	Co znamená	Co dělat
Indexed	Stránka je v indexu	Sledovat, udržovat kvalitu obsahu
Crawled – currently not indexed	Googlebot stránku zná, ale rozhodl se ji neindexovat	Zvýšit kvalitu obsahu, zkontrolovat duplicity
Discovered – currently not indexed	URL Google zná, ale ještě necrawloval	Zlepšit interní prolinkování, zkontrolovat crawl budget
Excluded	Stránka je záměrně vyloučena (noindex, canonical)	Ověřit, že je vyloučení záměrné
Error	Technická chyba brání indexaci	Okamžitě opravit

Mobile-first

Googlebot a mobile-first indexing

Od roku 2020 Google používá primárně Googlebot Smartphone pro indexaci všech webů. Mobilní verze stránky je výchozí základ pro hodnocení.

Pokud má vaše mobilní verze méně obsahu, chybějící strukturovaná data nebo jiné interní prolinkování než desktopová verze, Google tuto odlehčenou verzi indexuje a hodnotí. Dopad: desktopový obsah, který není dostupný na mobilu, přestane přispívat k rankingu.

Kontrolní seznam pro mobile-first indexing

Stejný textový obsah na mobilní i desktopové verzi
Stejná strukturovaná data (schema markup) na obou verzích
Stejné interní odkazy, nevynechávejte navigaci nebo CTA
Alt texty u obrázků na mobilní verzi

Mobilní verze se rychle načítá (test přes Google PageSpeed Insights)
Responsivní design nebo ekvivalentní mobilní verze
Stejné zdroje dostupné pro Googlebot Smartphone i Desktop
Vzájemné prolinkování rel=“alternate“ a rel=“canonical“ u oddělených mobilních URL

Pokud má váš web oddělené URL pro desktop a mobil (například m.vasedomena.cz), zajistěte vzájemné prolinkování přes rel="alternate" a rel="canonical" a identický obsah na obou verzích.

Kontext

Historie Googlebota

Googlebot existuje od samého vzniku Googlu v roce 1998 a za tu dobu prošel zásadní proměnou.

1998

Vznik

Larry Page a Sergey Brin, projekt BackRub na Stanfordu

2009

Crawl budget

Google poprvé veřejně popsal crawl budget a faktory ovlivňující crawlování

2011

Mobilní crawler

Spuštění Googlebot-Mobile pro smartphony

2019

Chromium engine

Googlebot přešel na renderovací engine postavený na Chromiu. Moderní JavaScript výrazně lépe.

2020

Mobile-first

Dokončení přechodu na mobile-first indexing pro všechny weby

2024

WRS dokumentace

Google vydal podrobnější dokumentaci k tomu, jak WRS zpracovává zdroje stránek

Časté dotazy

Nejčastější otázky o Googlebotu

Nejspolehlivěji přes serverové logy. Hledejte záznamy s User-Agent obsahujícím Googlebot. V Google Search Console najdete Crawl Stats s přehledem crawlové aktivity za posledních 90 dní. URL Inspection Tool ukáže, kdy Googlebot konkrétní stránku naposledy navštívil.

Závisí na autoritě webu, frekvenci aktualizací a technickém výkonu serveru. Pro malé weby jde o dny až týdny. Pro velké zpravodajské weby a vysokoautoritativní domény může jít o hodiny. Google uvádí, že pro většinu webů by Googlebot neměl přistupovat více než jednou za několik sekund v průměru.

Crawl budget je množství URL, které Google může a chce na vašem webu crawlovat. Zvyšuje se dvěma cestami: technicky (rychlejší server) a obsahově (kvalitnější, jedinečný obsah). Nejrychlejší zlepšení přináší odstranění nízkohodnotných URL z crawl fronty pomocí noindex nebo robots.txt disallow.

Ne. Googlebot nemá přihlašovací údaje a obsah za přihlašovací bránou nevidí. Pokud chcete, aby byl obsah indexován, musí být veřejně dostupný nebo použijte speciální schéma jako flexible sampling pro placený obsah.

Pro nové weby bez autority: dny až týdny. Pro zavedené weby s dobrou autoritou a interním prolinkováním: hodiny až dny. Pro stránky s rychlou aktualizací (zpravodajství): minuty až hodiny. Urychlíte to ručním předložením URL přes URL Inspection Tool v GSC.

Googlebot stránku navštívil a přečetl, ale rozhodl se ji nezařadit do indexu. Nejčastější důvody: tenký nebo duplicitní obsah, nízká kvalita, stránka je příliš podobná jiné na stejném webu. Řešení: výrazně zlepšit obsah nebo konsolidovat s jinou stránkou.

Liší se User-Agent stringem. Desktop neobsahuje identifikátor mobilního zařízení, Smartphone simuluje Nexus 5X s Android 6.0.1. Od roku 2020 je Smartphone crawler primární. V robots.txt sdílejí token Googlebot a nelze je pravidly oddělit.

Ano, v ojedinělých případech zejména u velkých webů. Googlebot se snaží server nezahltit, ale pokud pozorujete nadměrnou zátěž, můžete crawl rate snížit v GSC (Settings → Crawl rate). Varování: snížení crawl rate zpomalí indexaci nových a aktualizovaných stránek.

Web Rendering Service (WRS) je renderovací engine Googlu postavený na Chromiu. Slouží ke zpracování JavaScriptu na stránkách. Renderování neprobíhá okamžitě při crawlování. WRS pracuje asynchronně ve frontě, a proto může být JS obsah zaindexován o dny nebo týdny později než statický HTML obsah (tzv. two-wave indexing).

Máte dvě možnosti s různými důsledky: noindex v meta tagu (Googlebot stránku navštíví, ale neindexuje ji) nebo Disallow v robots.txt (Googlebot stránku vůbec nenavštíví, ale URL se může stále objevit v indexu na základě externích odkazů).

Ano. Googlebot indexuje text z PDF souborů, prvních 64 MB. Pokud chcete, aby byl obsah PDF indexován, zajistěte, že soubor není blokován v robots.txt a je dostupný přes veřejnou URL. Pro lepší výsledky přidejte PDF do sitemapy.

Jediná spolehlivá metoda je reverse DNS lookup. Vezměte IP adresu z serverového logu, spusťte host [IP adresa] a ověřte, že výsledný hostname obsahuje .googlebot.com. Poté spusťte forward DNS lookup a ověřte, že hostname vrací stejnou IP. User-Agent string lze podvrhnout, IP v kombinaci s DNS nikoli.

Referenční přehled

Slovníček pojmů

Crawler

Automatizovaný program procházející internet a stahující obsah webových stránek. Synonyma: spider, bot, robot.

Crawling

Proces procházení webových stránek crawlerem, stahování HTML, CSS, JS a dalších zdrojů.

Crawl budget

Množství URL, které Google může a chce na daném webu crawlovat za určité časové období. Určeno crawl capacity limitem a crawl demand.

Rendering

Proces zpracování HTML, CSS a JavaScriptu a sestavení stránky tak, jak ji vidí prohlížeč. Googlebot renderuje přes WRS.

Indexace (indexování)

Zařazení stránky do Google indexu po vyhodnocení její kvality a relevance. Crawlovaná stránka nemusí být nutně indexována.

User-Agent

Identifikační řetězec, který HTTP klient (prohlížeč nebo crawler) zasílá serveru při požadavku. Říká, kdo žádá o stránku.

robots.txt

Textový soubor na kořeni domény (vasedomena.cz/robots.txt), který říká crawlerům, které části webu smí nebo nesmí navštěvovat.

Two-wave indexing

Způsob, jakým Google indexuje stránky s JavaScriptem ve dvou vlnách: první okamžitě po crawlování (statický HTML), druhá s časovým zpožděním po renderování přes WRS.

Mobile-first indexing

Přístup Googlu, při kterém je mobilní verze stránky primárním základem pro indexaci a hodnocení. Platí pro všechny weby od roku 2020.

WRS (Web Rendering Service)

Renderovací engine Googlu postavený na Chromiu, který zpracovává JavaScript stránek pro potřeby indexace.

Autor článku

Samuel Krištof

CEO & CMO · PŘESAH.agency

SEO Online marketing Technické SEO Google Search Console

Marketingu se věnuji od roku 2017. Začínal jsem ve Fajn skupině, kde jsem budoval komunity na Facebooku a záhy přešel k placeným kampaním. Postupně jsem se dostal k SEO, automatizacím a celkové správě marketingu. Dnes působím jako CEO agentury PŘESAH a zároveň jako externí CMO ve společnosti Bohemian Estates.

Obsah článku je ověřen vůči oficiálním zdrojům Google Search Central a Ahrefs.

Reference

Zdroje

Veškerá data a technické informace v tomto článku jsou ověřeny z níže uvedených oficiálních zdrojů. Žádný z nich není komerční konkurent.

Google Search Central: Co je Googlebot — developers.google.com
Google Search Central: Přehled Google crawlerů — developers.google.com
Google Search Central: Správa crawl budgetu pro velké weby — developers.google.com
Google Search Central Blog: Co crawl budget znamená pro Googlebot (2017) — developers.google.com
Google Search Central Blog: Crawling December, WRS a crawl budget (2024) — developers.google.com
Google Search Central Blog: Aktualizace User-Agent Googlebota (2019) — developers.google.com
Google Search Central: Jak funguje vyhledávání — developers.google.com
Google Search Central: Crawl Stats report (GSC nápověda) — support.google.com

Článek je průběžně aktualizován. Naposledy ověřeno: březen 2026.

Chcete, aby Googlebot
našel a zaindexoval váš web?

Konzultace zdarma

SEO agentura SEO konzultace SEO konzultant

Googlebot: kompletní průvodce

Co je Googlebot?

Crawling ≠ indexování

Typy Googlebota: přehled všech crawlerů

Desktop a Smartphone sdílejí token v robots.txt

User-Agent se průběžně mění

Jak Googlebot funguje: 3 fáze

Crawl budget: co to je a kdy na něm záleží

Kdy je crawl budget problém?

E-shopy s parametrizovanými URL

Velké zpravodajské weby

Weby s duplicitním obsahem

Weby po migraci

Jak optimalizovat crawl budget

Googlebot a JavaScript: co musí každý vývojář vědět

Two-wave indexing: proč JS obsah čeká

Okamžité zpracování statického HTML

Zpožděné renderování přes WRS

Jak to ověřit a vyřešit

Jak ověřit, že návštěva pochází od Googlebota

Krok za krokem: verifikace přes reverse DNS

Tři situace, kdy se vyplatí ověřit

User-Agent nestačí

Co Googlebot vidí a co ne

20 praktických tipů, jak optimalizovat web pro Googlebota

Technická dostupnost

Zkontrolujte robots.txt

Neblokujte CSS a JS soubory

Udržujte správné HTTP stavové kódy

Najděte a opravte soft 404 stránky

Zkontrolujte canonical tagy na každé stránce

Nastavte správné hreflang tagy

Sitemap a struktura

Vytvořte XML sitemap a odešlete ji do GSC

Vylučte ze sitemapy noindex stránky a přesměrování

Zajistěte silné interní prolinkování nových stránek

Opravte broken links (404 interní odkazy)

Rychlost a renderování

Optimalizujte TTFB (Time to First Byte)

Implementujte server-side rendering pro kritický JS obsah

Správně implementujte lazy loading

Minimalizujte redirect chainy

Crawl budget a monitoring

Nastavte noindex pro nízkohodnotné stránky

Ošetřete parametrizované URL

Sledujte Crawl Stats v GSC

Testujte nové stránky přes URL Inspection Tool

Verifikujte Googlebota v server logu

Sledujte Index Coverage report a reagujte na chyby

Nejčastější chyby a jak je opravit

Jak sledovat Googlebota v Google Search Console

Crawl Stats report

URL Inspection Tool

Index Coverage report

Googlebot a mobile-first indexing

Kontrolní seznam pro mobile-first indexing

Historie Googlebota

Nejčastější otázky o Googlebotu

Slovníček pojmů

Crawler

Crawling

Crawl budget

Rendering

Indexace (indexování)

User-Agent

robots.txt

Two-wave indexing

Mobile-first indexing

WRS (Web Rendering Service)

Samuel Krištof

Zdroje

Chcete, aby Googlebotnašel a zaindexoval váš web?

Dejte nám vědět

Chcete, aby Googlebot
našel a zaindexoval váš web?