Technické SEO

Googlebot: kompletní průvodce

Zjistěte, jak Googlebot funguje, co vidí, co ho blokuje a jak s ním aktivně pracovat, abyste zrychlili indexaci a neztráceli viditelnost.

18 min
odhadovaná doba čtení
20
praktických tipů
3 fáze
od URL po výsledek vyhledávání
8+
specializovaných crawlerů Google
2 MB
limit HTML souboru při crawlování
30 dní
cache JS/CSS zdrojů ve WRS
Definice

Co je Googlebot?

Googlebot je automatizovaný program, crawler, který Googlu slouží k procházení internetu, stahování obsahu webových stránek a jejich předávání do vyhledávacího indexu.

Bez Googlebota Google nic neví. Nezáleží na tom, jak dobrý váš obsah je. Pokud ho Googlebot nenašel, nebo ho sice navštívil, ale nebyl schopen ho přečíst, vaše stránka v Google neexistuje.

Představte si Googlebota jako kurýra, který systematicky objíždí internetové adresy, stahuje obsah každé stránky, zapisuje si, o čem pojednává, a odnáší tyto informace do obrovského skladu. Tím skladem je Google index. Z tohoto skladu pak Google vybírá výsledky pro každý dotaz uživatele.

Název „Googlebot“ zastřešuje celou rodinu crawlerů. Nejde o jeden program, ale o sadu specializovaných robotů, z nichž každý má jiný účel.

Klíčový koncept

Crawling ≠ indexování

Googlebot stránku navštíví (crawling) a stáhne její obsah. Teprve poté ji Google vyhodnotí a rozhodne, zda ji zařadí do indexu (indexování). Tyto dvě fáze jsou oddělené a nezávislé.

Stránka může být crawlovaná a přesto nezaindexovaná. Právě zde vzniká velká část technických SEO problémů.

Přehled

Typy Googlebota: přehled všech crawlerů

Google provozuje více druhů crawlerů. Každý má jiný User-Agent string a jiný účel.

Crawler Účel robots.txt token
Googlebot Desktop Indexace pro Google Search, desktop pohled Googlebot
Googlebot Smartphone Indexace pro Google Search, mobilní pohled. Primární crawler od roku 2020. Googlebot
Googlebot-Image Indexace obrázků pro Google Images Googlebot-Image
Googlebot-Video Indexace videí Googlebot-Video
Googlebot-News Indexace pro Google News Googlebot-News
Storebot-Google Indexace produktů pro Google Shopping Storebot-Google
Google-InspectionTool URL Inspection Tool v Google Search Console Google-InspectionTool
AdsBot-Google Kontrola kvality cílových stránek reklam AdsBot-Google
Upozornění

Desktop a Smartphone sdílejí token v robots.txt

Googlebot Desktop a Googlebot Smartphone mají různé User-Agent stringy, ale v robots.txt sdílejí stejný token Googlebot. Pravidlo pro Googlebot platí pro oba zároveň. Pokud chcete odlišit jejich chování, musíte sáhnout po jiném přístupu, například po noindex v meta tagu.

Technická poznámka

User-Agent se průběžně mění

Verze Chrome v User-Agent stringu Googlebota odpovídá aktuální verzi Chromia, které Google používá pro renderování. Konkrétní číslo verze se mění, proto při detekci Googlebota nespoléhejte na číslo verze. Detekujte přítomnost slova Googlebot v řetězci.

Mechanismus

Jak Googlebot funguje: 3 fáze

Cesta od „stránka existuje“ po „stránka je v Google“ prochází třemi odlišnými fázemi: objevováním, procházením a renderováním, a indexováním.

01
Objevování
Discovery
02
Procházení a renderování
Crawling & Rendering
03
Indexování
Indexing
01
Fáze 1: Objevování

Než Googlebot může stránku navštívit, musí o ní vědět. Nové URL adresy nachází třemi způsoby.

Sledování odkazů je nejběžnější cestou. Googlebot začíná na stránkách, které zná, a prochází všechny nalezené odkazy.

XML Sitemap je seznam URL, který webu majitel předkládá přes Google Search Console. Zvláště důležitá pro nové weby nebo stránky, na které nikdo neodkazuje.

Manuální předložení URL přes URL Inspection Tool v GSC umožňuje požádat o (re)crawlování konkrétní stránky. Vhodné po vydání nového obsahu nebo po opravě chyby.

Praktický dopad: sirotčí stránky mohou trvat měsíce, než je Googlebot najde, nebo je nenajde vůbec.
02
Fáze 2: Procházení a renderování

Jakmile Googlebot URL zná, stáhne HTML stránky. Moderní weby ale nejsou čistý HTML, proto Google provozuje Web Rendering Service (WRS), renderovací engine postavený na Chromiu.

Googlebot stahuje prvních 2 MB HTML souboru (nebo prvních 64 MB v případě PDF). Obsah za tímto limitem je ignorován.

Při crawlování zkoumá textový obsah, interní a externí odkazy, obrázky a jejich alt texty, meta tagy (title, description, canonical, robots), strukturovaná data a JavaScript po renderování přes WRS.

Limit 2 MB HTML: obsah za touto hranicí Google nevidí.
03
Fáze 3: Indexování

Po renderování Google stránku vyhodnotí a rozhodne, zda a jak ji zařadí do indexu. Indexování není automatické.

Ne každá crawlovaná stránka je indexována. Google může stránku crawlovat a přesto ji do indexu nezařadit, například pokud ji vyhodnotí jako duplicitní, tenkou nebo nerelevantní.

Z indexu pak Google při každém vyhledávacím dotazu vybírá nejrelevantnější výsledky a seřazuje je podle svých rankingových algoritmů.

Crawlovaná stránka není automaticky indexovaná stránka.
Technické SEO

Crawl budget: co to je a kdy na něm záleží

Crawl budget je množství URL adres, které Google může a chce na vašem webu procrawlovat za dané časové období.

Pro weby s tisíci nebo desítkami tisíc stránek je crawl budget kritickým faktorem, který přímo určuje, zda nový obsah bude zaindexován v rozumném čase. Pro malé weby do stovek stránek s pravidelně aktualizovaným obsahem obvykle není problém.

Crawl capacity limit

Maximální počet paralelních připojení, které Googlebot může na váš web otevřít najednou, a časová prodleva mezi požadavky. Googlebot cílí na to, aby neohrožoval dostupnost vašeho serveru. Pokud váš server reaguje rychle a bez chyb, Googlebot může procházet více stránek za stejný čas.

Crawl demand

Jak moc Google chce vaše stránky crawlovat. Závisí na popularitě webu, počtu odkazů, objemu vyhledávání na vaše stránky, frekvenci aktualizací a hodnotě obsahu. Nové stránky a čerstvě aktualizovaný obsah mají vyšší demand.

Kdy je crawl budget problém?

Crawl budget se stává kritickým u těchto typů webů:

E-shopy s parametrizovanými URL

Filtrace, řazení a parametry v URL generují tisíce kombinací se stejným nebo velmi podobným obsahem. Každá kombinace filtrů může vytvořit samostatnou URL, která plýtvá crawl budgetem.

Velké zpravodajské weby

Archivy stovek tisíc článků, starý obsah s nízkou hodnotou a duplicitní meta tagy způsobují, že Googlebot tráví čas na stránkách, které nepřinášejí hodnotu.

Weby s duplicitním obsahem

Googlebot plýtvá časem na stránky, které jsou prakticky totožné s jinou URL na stejném webu. Výsledek: hodnotný nový obsah se do indexu dostane se zpožděním.

Weby po migraci

Přesun domény nebo URL struktury výrazně zvyšuje crawl demand. Nesprávně nastavená přesměrování nebo chybějící canonicaly způsobují masivní plýtvání crawl budgetem.

Jak optimalizovat crawl budget

  • Odstraňte nebo skryjte nízkohodnotné stránky pomocí noindex nebo robots.txt disallow
  • Konsolidujte duplicitní obsah přes canonical tagy na kanonickou verzi
  • Opravte chybná přesměrování a redirect chainy, ideálně přímé přesměrování A na D
  • Zajistěte rychlý server s nízkým TTFB (pod 200 ms je dobrý základ)
  • Udržujte XML sitemap čistou, pouze indexované stránky vracející HTTP 200
Pozor na časté mýty: Komprimované sitemapy nezvyšují crawl budget. Stránky vracející 4xx kód (kromě 429) crawl budget neplýtvají. Noindex přímou cestou crawl budget nešetří, ale nepřímo ano, protože stránky vyřazené z indexu uvolní kapacitu pro hodnotný obsah.
JavaScript SEO

Googlebot a JavaScript: co musí každý vývojář vědět

Googlebot JavaScript renderuje, ale s časovým zpožděním. Obsah generovaný přes JS může být zaindexován o dny nebo týdny později než statický HTML obsah.

Toto je jedno z nejčastějších technických SEO nedorozumění a pro weby postavené na JavaScriptových frameworcích (React, Vue, Angular, Next.js) může mít zásadní dopad.

Two-wave indexing: proč JS obsah čeká

První vlna

Okamžité zpracování statického HTML

Googlebot stáhne HTML a ihned zpracuje vše, co je v raw HTML kódu. Pokud je obsah statický, tedy přímo v HTML, je zaindexován bez prodlení.

Druhá vlna

Zpožděné renderování přes WRS

Googlebot předá stránku WRS (Web Rendering Service) ke zpracování JavaScriptu. WRS funguje asynchronně a ve frontě. Může trvat dny až týdny, než dojde na renderování. Teprve po renderování je JS obsah předán k indexaci.

Praktický důsledek: Pokud vaše stránka zobrazuje obsah pouze přes JavaScript bez server-side renderování, tento obsah může být v indexu Google výrazně opožděn nebo v horším případě zcela chybět.

Jak to ověřit a vyřešit

Test: Použijte URL Inspection Tool v Google Search Console. V záložce „Rendered page“ uvidíte, jak Google stránku skutečně vidí po renderování. Porovnejte s raw HTML v záložce „Page source“. Pokud vidíte výrazné rozdíly, máte JS SEO problém.
Situace Doporučení
Kritický obsah jen v JS Přejděte na Server-Side Rendering (SSR) nebo Static Site Generation (SSG)
Méně kritický obsah v JS Zvažte pre-rendering pro Googlebot
JS framework obecně Implementujte progressive enhancement, klíčový obsah vložte do statického HTML

WRS cachuje JS a CSS zdroje až na 30 dní pro šetření crawl budgetu. Změny v JS souborech proto nemusí Googlebot okamžitě zaregistrovat.

Bezpečnost a monitoring

Jak ověřit, že návštěva pochází od Googlebota

Jedinou spolehlivou metodou verifikace Googlebota je reverse DNS lookup. User-Agent string lze podvrhnout, IP adresu v kombinaci s DNS nikoli.

Fake Googleboti jsou reálný fenomén. Různé scrapery a spamboti se vydávají za Googlebot, aby obešly bezpečnostní opatření. Proto je verifikace důležitá při blokování IP adres nebo analýze serverových logů.

Krok za krokem: verifikace přes reverse DNS

01
Najděte IP adresu v serverovém logu

V access logu vašeho serveru najdete záznamy ve formátu:

66.249.66.1 - - [18/Mar/2025:10:23:45 +0100] "GET /stranka/ HTTP/1.1" 200 4523 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; ...)"

IP adresa v tomto případě je 66.249.66.1.

02
Spusťte reverse DNS lookup

Na Linuxu nebo macOS v terminálu:

host 66.249.66.1

Výsledek musí obsahovat .googlebot.com nebo .google.com. Na Windows použijte příkaz nslookup 66.249.66.1.

03
Forward DNS lookup pro potvrzení

Zpětně ověřte, že hostname ukazuje zpět na původní IP:

host crawl-66-249-66-1.googlebot.com

Výsledek musí vrátit stejnou IP adresu. Pokud se IP adresy neshodují, návštěva není od Googlebota.

04
Alternativa: rozsahy IP od Googlu

Google publikuje aktuální seznam svých IP rozsahů na adrese https://www.gstatic.com/ipranges/googlebot.json. Můžete automatizovaně porovnávat IP adresy z logů s tímto seznamem.

Kdy je verifikace důležitá

Tři situace, kdy se vyplatí ověřit

  • Plánujete blokovat IP adresy, které zdánlivě způsobují problémy s výkonem serveru
  • Analyzujete serverové logy a chcete oddělit skutečné Googlebot požadavky od fake botů
  • Řešíte bezpečnostní incident a potřebujete zjistit, zda aktivita pochází od Googlebota
Pozor

User-Agent nestačí

User-Agent string lze jednoduše podvrhnout. Jakýkoli bot nebo scraper může tvrdit, že je Googlebot. Jediná spolehlivá metoda je kombinace reverse DNS a forward DNS lookup. Verifikace přes User-Agent samotný vás chrání pouze před nepoučenými scrapery.

Technické základy

Co Googlebot vidí a co ne

Rozumět tomu, co Googlebot skutečně vidí, je základem technického SEO. Mnohé chyby v indexaci pramení z nepochopení tohoto rozdílu.

Prvek Googlebot vidí? Poznámka
HTML obsah Ano Základ indexace, první vlna
CSS soubory Ano Nutné pro správné renderování
JavaScript (statický) Ano Pokud není blokován v robots.txt
JavaScript (dynamický obsah) Ano, ale se zpožděním Two-wave indexing, viz sekce o JS výše
Obrázky s alt textem Ano Alt text je klíčový pro pochopení obsahu obrázku
Obrázky bez alt textu Částečně Googlebot obrázek vidí, ale hůře chápe kontext
PDF soubory Ano Indexuje text, prvních 64 MB
Obsah za přihlášením Ne Googlebot nemá přihlašovací údaje
Obsah blokovaný v robots.txt Ne Stránka není navštívena
Noindex stránky Crawluje, neindexuje Rozdíl mezi crawling a indexing
Lazy loading (správně) Ano Atribut loading="lazy" nebo Intersection Observer s SSR
Lazy loading (špatně) Ne Obsah mimo viewport bez správné implementace
Iframe obsah Omezeně Záleží na implementaci a dostupnosti URL v iframe
Obsah za paywallem Podmíněně Google má speciální pravidla pro flexible sampling
Skrytý text (display:none) Ano, ale hodnotí jinak Není penalizace, ale obsah má nižší váhu
Optimalizace

20 praktických tipů, jak optimalizovat web pro Googlebota

Konkrétní kroky seřazené do čtyř oblastí: technická dostupnost, sitemap a struktura, rychlost a renderování, crawl budget a monitoring.

Technická dostupnost

Tip 1

Zkontrolujte robots.txt

Soubor robots.txt najdete na vasedomena.cz/robots.txt. Projděte pravidla Disallow a ověřte, že neblokujete důležité stránky nebo složky. Nejnebezpečnější chyba: Disallow: / zablokuje celý web. Správnost pravidel ověřte přes robots.txt Tester v Google Search Console.

Tip 2

Neblokujte CSS a JS soubory

Historicky se CSS a JS v robots.txt blokovaly pro urychlení crawlování. Dnes je to chyba. Googlebot potřebuje tyto soubory pro korektní renderování stránky. Pokud je zablokujete, vidí stránku polámaně a hodnotí ji méně příznivě.

Tip 3

Udržujte správné HTTP stavové kódy

Každá stránka musí vracet správný kód: existující stránka 200, přesměrovaná 301, neexistující 404, trvale odstraněná 410. Špatné stavové kódy Googlebota mátou a plýtvají crawl budgetem.

Tip 4

Najděte a opravte soft 404 stránky

Soft 404 je stránka, která vrací HTTP 200, ale ve skutečnosti obsahuje zprávu „stránka nenalezena“ nebo je prázdná. Google je považuje za hodnotné URL, prochází je znovu a znovu a plýtvá crawl budgetem. Hledejte je v GSC v sekci Index Coverage.

Tip 5

Zkontrolujte canonical tagy na každé stránce

Canonical tag říká Googlebotovi, která verze stránky je ta hlavní. Špatně nastavený canonical (například canonical ukazující sám na sebe na noindex stránce nebo chybějící canonical u duplicitního obsahu) způsobuje nejasnosti v indexaci.

Tip 6

Nastavte správné hreflang tagy

Pokud máte web ve více jazycích nebo pro více zemí, hreflang říká Googlebotovi, která jazyková verze je určena pro které uživatele. Chybný hreflang způsobuje indexaci špatné jazykové verze pro daný trh.

Sitemap a struktura

Tip 7

Vytvořte XML sitemap a odešlete ji do GSC

Sitemap je mapa vašeho webu pro Googlebota. Vygenerujte ji přes Yoast SEO, Rank Math nebo Screaming Frog a odešlete do GSC přes sekci Sitemaps. Průběžně aktualizujte.

Tip 8

Vylučte ze sitemapy noindex stránky a přesměrování

Sitemap by měla obsahovat pouze stránky, které chcete indexovat a které vrací HTTP 200. Noindex stránky, 301 přesměrování a 404 stránky do sitemapy nepatří.

Tip 9

Zajistěte silné interní prolinkování nových stránek

Nová stránka bez interních odkazů z jiných stránek je pro Googlebota těžko dostupná. Odkazujte na nový obsah z relevantních existujících stránek, ze sekce „Doporučujeme“ nebo z navigace.

Tip 10

Opravte broken links (404 interní odkazy)

Každý interní odkaz vedoucí na neexistující stránku je promarněný crawl request. Pravidelně kontrolujte interní broken links přes Screaming Frog nebo Ahrefs a opravujte je přesměrováním nebo aktualizací odkazu.

Rychlost a renderování

Tip 11

Optimalizujte TTFB (Time to First Byte)

TTFB pod 200 ms je dobrý základ. Pomalý server znamená, že Googlebot za stejný čas procrawluje méně stránek. Zlepšení: kvalitní hosting, serverové cachování, CDN.

Tip 12

Implementujte server-side rendering pro kritický JS obsah

Pokud stavíte na React, Vue nebo jiném JS frameworku a váš klíčový obsah se renderuje pouze klientsky, přejděte na SSR nebo SSG. Obsah se dostane do HTML ihned a Googlebot ho zaindexuje bez čekání na druhou vlnu.

Tip 13

Správně implementujte lazy loading

Pro obrázky mimo viewport použijte nativní atribut loading="lazy". Špatná implementace lazy loadingu způsobuje, že Googlebot obrázky vůbec nevidí.

Tip 14

Minimalizujte redirect chainy

Každé přesměrování navíc znamená extra HTTP požadavek a zdržení. Řetězce A na B na C na D jsou drahé jak pro výkon, tak pro crawlování. Ideální je přímé přesměrování A na D. Maximálně dva skoky.

Crawl budget a monitoring

Tip 15

Nastavte noindex pro nízkohodnotné stránky

Stránky s filtry, řazením, parametry URL, prázdné kategorie nebo stránky s minimálním obsahem by neměly být indexovány. Noindex je signál, aby Google tyto stránky z indexu odstranil.

Tip 16

Ošetřete parametrizované URL

E-shopy s filtrací (?color=red&size=M) generují tisíce kombinací URL. Nastavte canonicaly na kanonickou verzi produktu nebo kategorie, nebo zakažte parametry v GSC přes nastavení URL parametrů.

Tip 17

Sledujte Crawl Stats v GSC

Náhlý pokles crawlovaných stránek může signalizovat technické chyby nebo blokování. Vzrůst může signalizovat generování duplicitních URL. Zkontrolujte Crawl Stats pravidelně, alespoň jednou za měsíc.

Tip 18

Testujte nové stránky přes URL Inspection Tool

Po vydání nového článku nebo stránky zadejte URL do URL Inspection Tool v GSC. Uvidíte, zda je stránka v indexu, kdy ji Googlebot naposledy navštívil a jak ji vidí po renderování.

Tip 19

Verifikujte Googlebota v server logu

Pravidelná analýza serverových logů ukáže, které stránky Googlebot skutečně crawluje a jak často. Nástroje: Screaming Frog Log Analyser nebo vlastní skript. Porovnejte crawlované URL s URL v indexu.

Tip 20

Sledujte Index Coverage report a reagujte na chyby

Index Coverage report v GSC ukazuje stav všech URL na vašem webu. Kategorie „Crawled – currently not indexed“ jsou varovným signálem. Důvodem bývá nízká kvalita, tenký obsah nebo duplicita. Nezanedbávejte tuto sekci.

Diagnostika

Nejčastější chyby a jak je opravit

Přehled chyb, které opakovaně způsobují problémy s indexací, spolu s jejich dopadem a konkrétním řešením.

Chyba Dopad Jak opravit
Disallow: / v robots.txt Celý web neviditelný pro Googlebot Okamžitá kontrola a oprava robots.txt, otestovat v GSC
Blokování CSS nebo JS v robots.txt Stránka se renderuje polámaně, horší hodnocení Odebrat Disallow pro CSS/JS složky
Redirect chain 3 a více skoků Ztráta crawl budgetu, pomalejší indexace Přesměrovat přímo na finální URL
Chybějící nebo špatný canonical Google indexuje špatnou verzi nebo se rozhoduje libovolně Nastavit canonical na každé stránce
Canonical ukazující na noindex stránku Konfliktní signály, Google se rozhoduje nepředvídatelně Canonical a noindex musí být konzistentní
Soft 404 stránky Plýtvání crawl budgetu, snížení kvality webu Doplnit obsah nebo vrátit 404 nebo 301
Lazy loading bez správné implementace Obrázky nejsou zaindexovány Přejít na loading="lazy" nebo zajistit SSR
Nízkohodnotné stránky v indexu Dilutace crawl budgetu a kvality webu Noindex pro filtry, tagy, prázdné kategorie
Parametrizované URL bez ošetření Tisíce duplicitních URL plýtvají budgetem Canonical na kanonickou verzi nebo GSC parametry
Cloaking Manuální penalizace Google Nikdy nezkoušet. Obsah musí být identický pro Googlebota i uživatele.
Google Search Console

Jak sledovat Googlebota v Google Search Console

Google Search Console je primární nástroj pro sledování toho, jak Googlebot váš web vidí a prochází.

Report 1

Crawl Stats report

Najdete ho v GSC pod Settings → Crawl stats. Report zobrazuje počet crawlovaných stránek denně za posledních 90 dní, objem stažených dat a typy odpovědí HTTP.

Sledujte Host availability: zobrazuje, zda Googlebot nenaráží na nedostupnost vašeho serveru.

Report 2

URL Inspection Tool

Zadejte libovolnou URL a zjistíte, zda je stránka v indexu, kdy ji Googlebot naposledy crawloval, jak stránka vypadá po renderování a které zdroje se nepodařilo načíst.

URL Inspection Tool je první krok při diagnostice jakéhokoli problému s indexací konkrétní stránky.

Report 3

Index Coverage report

Dnes sekce „Pages“ v novém rozhraní GSC. Rozděluje všechny known URL do kategorií podle stavu indexace.

Kategorie „Crawled – currently not indexed“ jsou varovným signálem vyžadujícím pozornost.

Stav v GSC Co znamená Co dělat
Indexed Stránka je v indexu Sledovat, udržovat kvalitu obsahu
Crawled – currently not indexed Googlebot stránku zná, ale rozhodl se ji neindexovat Zvýšit kvalitu obsahu, zkontrolovat duplicity
Discovered – currently not indexed URL Google zná, ale ještě necrawloval Zlepšit interní prolinkování, zkontrolovat crawl budget
Excluded Stránka je záměrně vyloučena (noindex, canonical) Ověřit, že je vyloučení záměrné
Error Technická chyba brání indexaci Okamžitě opravit
Mobile-first

Googlebot a mobile-first indexing

Od roku 2020 Google používá primárně Googlebot Smartphone pro indexaci všech webů. Mobilní verze stránky je výchozí základ pro hodnocení.

Pokud má vaše mobilní verze méně obsahu, chybějící strukturovaná data nebo jiné interní prolinkování než desktopová verze, Google tuto odlehčenou verzi indexuje a hodnotí. Dopad: desktopový obsah, který není dostupný na mobilu, přestane přispívat k rankingu.

Kontrolní seznam pro mobile-first indexing

  • Stejný textový obsah na mobilní i desktopové verzi
  • Stejná strukturovaná data (schema markup) na obou verzích
  • Stejné interní odkazy, nevynechávejte navigaci nebo CTA
  • Alt texty u obrázků na mobilní verzi
  • Mobilní verze se rychle načítá (test přes Google PageSpeed Insights)
  • Responsivní design nebo ekvivalentní mobilní verze
  • Stejné zdroje dostupné pro Googlebot Smartphone i Desktop
  • Vzájemné prolinkování rel=“alternate“ a rel=“canonical“ u oddělených mobilních URL
Pokud má váš web oddělené URL pro desktop a mobil (například m.vasedomena.cz), zajistěte vzájemné prolinkování přes rel="alternate" a rel="canonical" a identický obsah na obou verzích.
Kontext

Historie Googlebota

Googlebot existuje od samého vzniku Googlu v roce 1998 a za tu dobu prošel zásadní proměnou.

1998
Vznik
Larry Page a Sergey Brin, projekt BackRub na Stanfordu
2009
Crawl budget
Google poprvé veřejně popsal crawl budget a faktory ovlivňující crawlování
2011
Mobilní crawler
Spuštění Googlebot-Mobile pro smartphony
2019
Chromium engine
Googlebot přešel na renderovací engine postavený na Chromiu. Moderní JavaScript výrazně lépe.
2020
Mobile-first
Dokončení přechodu na mobile-first indexing pro všechny weby
2024
WRS dokumentace
Google vydal podrobnější dokumentaci k tomu, jak WRS zpracovává zdroje stránek
Časté dotazy

Nejčastější otázky o Googlebotu

Nejspolehlivěji přes serverové logy. Hledejte záznamy s User-Agent obsahujícím Googlebot. V Google Search Console najdete Crawl Stats s přehledem crawlové aktivity za posledních 90 dní. URL Inspection Tool ukáže, kdy Googlebot konkrétní stránku naposledy navštívil.
Závisí na autoritě webu, frekvenci aktualizací a technickém výkonu serveru. Pro malé weby jde o dny až týdny. Pro velké zpravodajské weby a vysokoautoritativní domény může jít o hodiny. Google uvádí, že pro většinu webů by Googlebot neměl přistupovat více než jednou za několik sekund v průměru.
Crawl budget je množství URL, které Google může a chce na vašem webu crawlovat. Zvyšuje se dvěma cestami: technicky (rychlejší server) a obsahově (kvalitnější, jedinečný obsah). Nejrychlejší zlepšení přináší odstranění nízkohodnotných URL z crawl fronty pomocí noindex nebo robots.txt disallow.
Ne. Googlebot nemá přihlašovací údaje a obsah za přihlašovací bránou nevidí. Pokud chcete, aby byl obsah indexován, musí být veřejně dostupný nebo použijte speciální schéma jako flexible sampling pro placený obsah.
Pro nové weby bez autority: dny až týdny. Pro zavedené weby s dobrou autoritou a interním prolinkováním: hodiny až dny. Pro stránky s rychlou aktualizací (zpravodajství): minuty až hodiny. Urychlíte to ručním předložením URL přes URL Inspection Tool v GSC.
Googlebot stránku navštívil a přečetl, ale rozhodl se ji nezařadit do indexu. Nejčastější důvody: tenký nebo duplicitní obsah, nízká kvalita, stránka je příliš podobná jiné na stejném webu. Řešení: výrazně zlepšit obsah nebo konsolidovat s jinou stránkou.
Liší se User-Agent stringem. Desktop neobsahuje identifikátor mobilního zařízení, Smartphone simuluje Nexus 5X s Android 6.0.1. Od roku 2020 je Smartphone crawler primární. V robots.txt sdílejí token Googlebot a nelze je pravidly oddělit.
Ano, v ojedinělých případech zejména u velkých webů. Googlebot se snaží server nezahltit, ale pokud pozorujete nadměrnou zátěž, můžete crawl rate snížit v GSC (Settings → Crawl rate). Varování: snížení crawl rate zpomalí indexaci nových a aktualizovaných stránek.
Web Rendering Service (WRS) je renderovací engine Googlu postavený na Chromiu. Slouží ke zpracování JavaScriptu na stránkách. Renderování neprobíhá okamžitě při crawlování. WRS pracuje asynchronně ve frontě, a proto může být JS obsah zaindexován o dny nebo týdny později než statický HTML obsah (tzv. two-wave indexing).
Máte dvě možnosti s různými důsledky: noindex v meta tagu (Googlebot stránku navštíví, ale neindexuje ji) nebo Disallow v robots.txt (Googlebot stránku vůbec nenavštíví, ale URL se může stále objevit v indexu na základě externích odkazů).
Ano. Googlebot indexuje text z PDF souborů, prvních 64 MB. Pokud chcete, aby byl obsah PDF indexován, zajistěte, že soubor není blokován v robots.txt a je dostupný přes veřejnou URL. Pro lepší výsledky přidejte PDF do sitemapy.
Jediná spolehlivá metoda je reverse DNS lookup. Vezměte IP adresu z serverového logu, spusťte host [IP adresa] a ověřte, že výsledný hostname obsahuje .googlebot.com. Poté spusťte forward DNS lookup a ověřte, že hostname vrací stejnou IP. User-Agent string lze podvrhnout, IP v kombinaci s DNS nikoli.
Referenční přehled

Slovníček pojmů

Crawler

Automatizovaný program procházející internet a stahující obsah webových stránek. Synonyma: spider, bot, robot.

Crawling

Proces procházení webových stránek crawlerem, stahování HTML, CSS, JS a dalších zdrojů.

Crawl budget

Množství URL, které Google může a chce na daném webu crawlovat za určité časové období. Určeno crawl capacity limitem a crawl demand.

Rendering

Proces zpracování HTML, CSS a JavaScriptu a sestavení stránky tak, jak ji vidí prohlížeč. Googlebot renderuje přes WRS.

Indexace (indexování)

Zařazení stránky do Google indexu po vyhodnocení její kvality a relevance. Crawlovaná stránka nemusí být nutně indexována.

User-Agent

Identifikační řetězec, který HTTP klient (prohlížeč nebo crawler) zasílá serveru při požadavku. Říká, kdo žádá o stránku.

robots.txt

Textový soubor na kořeni domény (vasedomena.cz/robots.txt), který říká crawlerům, které části webu smí nebo nesmí navštěvovat.

Two-wave indexing

Způsob, jakým Google indexuje stránky s JavaScriptem ve dvou vlnách: první okamžitě po crawlování (statický HTML), druhá s časovým zpožděním po renderování přes WRS.

Mobile-first indexing

Přístup Googlu, při kterém je mobilní verze stránky primárním základem pro indexaci a hodnocení. Platí pro všechny weby od roku 2020.

WRS (Web Rendering Service)

Renderovací engine Googlu postavený na Chromiu, který zpracovává JavaScript stránek pro potřeby indexace.

Samuel Krištof — CEO PŘESAH.agency

Autor článku

Samuel Krištof

CEO & CMO · PŘESAH.agency

SEO Online marketing Technické SEO Google Search Console

Marketingu se věnuji od roku 2017. Začínal jsem ve Fajn skupině, kde jsem budoval komunity na Facebooku a záhy přešel k placeným kampaním. Postupně jsem se dostal k SEO, automatizacím a celkové správě marketingu. Dnes působím jako CEO agentury PŘESAH a zároveň jako externí CMO ve společnosti Bohemian Estates.

Obsah článku je ověřen vůči oficiálním zdrojům Google Search Central a Ahrefs.

Reference

Zdroje

Veškerá data a technické informace v tomto článku jsou ověřeny z níže uvedených oficiálních zdrojů. Žádný z nich není komerční konkurent.

Článek je průběžně aktualizován. Naposledy ověřeno: .

Chcete, aby Googlebot
našel a zaindexoval váš web?

Přejít nahoru