Technické SEO · Slovníček pojmů

Crawl budget od A do Z:
optimalizace procházení
vašeho webu

Crawl budget určuje, kolik stránek vašeho webu Google za dané období projde. U většiny webů to není téma. U e-shopů s tisíci URL nebo webů s rychle přibývajícím obsahem to rozhoduje o tom, zda se nové stránky vůbec dostanou do indexu.

10 000+
stránek — od kdy crawl budget řešit
2
faktory, které crawl budget tvoří
robots.txt
správný nástroj pro blokování

Definice

Co je crawl budget

Crawl budget je množství stránek, které je Google ochoten a schopen na vašem webu procházet za určité časové období. Nejde o pevné číslo, které by vám Google sdělil — jde o výsledek dvou faktorů, které Google vyhodnocuje automaticky na základě toho, jak se váš web chová a jak moc ho Google považuje za hodnotný.

Google rozlišuje tři pojmy, které se v praxi často zaměňují. Každý z nich popisuje jinou část procesu a ovlivňuje ho jiná nastavení.

Pojem Co znamená Co ho ovlivňuje
Crawl budget Celkový rozsah procházení vašeho webu Googlem — sada URL, které Google může a chce procházet Kombinace obou níže uvedených faktorů
Crawl capacity limit Maximální počet paralelních připojení, která Googlebot použije při procházení vašeho webu Rychlost a stabilita serveru — pokud server reaguje rychle, limit roste; pokud vrací chyby nebo je pomalý, Google crawluje méně
Crawl demand Jak moc Google chce konkrétní stránky procházet a jak často Popularita stránek, čerstvost obsahu a velikost URL inventáře — čím více zbytečných URL, tím nižší zájem o ty hodnotné
Proč na tom záleží: Pokud Google tráví čas procházením stránek, které nepotřebujete v indexu — filtrované URL e-shopu, stránky s parametry, duplicitní obsah — zbytek webu dostane méně pozornosti. Nové produktové stránky nebo články se pak do indexu dostávají se zpožděním nebo vůbec.

Crawl budget je součástí oblasti technického SEO. Úzce souvisí s tím, jak web crawling funguje a jakou roli v něm hraje Googlebot.

Aktualizováno: · Zdroj: Google Search Central — Crawl Budget

Kdy je to relevantní

Kdy crawl budget řešit a kdy ne

Crawl budget je pokročilé téma vaší SEO strategie a Google to říká otevřeně: pokud se vaše stránky indexují v den, kdy je publikujete, tento článek číst nemusíte.

Crawl budget řešte, pokud

  • Web má více než 10 000 stránek, které se mění každý den
  • Web má více než 1 000 000 unikátních URL celkem
  • V Google Search Console vidíte vysoký podíl stránek se stavem Discovered — currently not indexed
  • Nové stránky se indexují s výrazným zpožděním — dny až týdny po publikování
  • Web generuje velké množství parametrických nebo filtrovaných URL (typicky e-shop s filtry podle barvy, velikosti, ceny)
  • Po migraci nebo přidání velkého množství obsahu se část stránek vůbec neindexuje

Crawl budget neřešte, pokud

  • Provozujete blog nebo firemní web s desítkami až stovkami stránek
  • Nový obsah se indexuje rychle — do 24 až 48 hodin
  • V GSC nevidíte velké množství neindexovaných nebo neobjevených URL
  • Web nemá velký objem duplicitních nebo parametrických URL
Praktické pravidlo: Pro web s méně než 1 000 stránkami, který aktualizujete méně než denně, je prioritou kvalita obsahu a interní prolinkování — ne optimalizace crawl budgetu.

Čísla výše jsou orientační prahové hodnoty, které uvádí Google Search Central. Nejde o absolutní limity — záleží také na tom, jak rychle se obsah mění a jaká je celková kvalita webu.

Faktory

Co ovlivňuje crawl budget

Crawl budget ovlivňují dvě skupiny faktorů. První skupina určuje, kolik zdrojů může Google na váš web vynaložit — to závisí především na technickém stavu serveru. Druhá skupina určuje, o které stránky má Google zájem — to závisí na tom, co mu server nabízí ke zpracování.

Crawl capacity limit — rychlost a stabilita serveru

Google nechce přetížit váš server. Proto Googlebot průběžně sleduje, jak rychle a spolehlivě server odpovídá, a podle toho upravuje intenzitu procházení. Pokud server reaguje rychle a bez chyb, Google postupně zvyšuje počet paralelních požadavků. Pokud server vrací chyby 5xx nebo odpovídá pomalu, Google crawluje méně — a tento limit neroste zpět automaticky, potřebuje čas.

Praktický dopad: každá vlna serverových chyb zpomaluje procházení i na dalších několik dní po jejich odstranění.

Crawl demand — o které stránky má Google zájem

Google sám rozhoduje, které URL stojí za procházení. Tři faktory, které toto rozhodnutí nejvíce ovlivňují:

01
Popularita URL
Stránky, na které odkazuje více externích i interních odkazů, Google navštěvuje častěji. Slabě prolinkované nebo izolované stránky (orphan pages) se dostávají do fronty procházení pomalu nebo vůbec.
02
Čerstvost obsahu
Stránky, které se pravidelně mění, Google recrawluje častěji. Weby s denně aktualizovaným obsahem — zpravodajské portály, e-shopy — mají vyšší crawl demand než statické firemní weby.
03
Velikost URL inventáře
Čím více URL Google o vašem webu zná, tím více času potřebuje na jejich procházení. Pokud velkou část tvoří duplicitní nebo bezcenné URL, crawl budget se plýtvá na stránky, které indexaci nepotřebují.

Faktory, které crawl budget plýtvají

Toto jsou nejčastější technické problémy, které způsobují, že Googlebot tráví čas na nesprávných stránkách:

Technické problémy

  • Chyby serveru (5xx) — každá chyba snižuje crawl rate a obnovení trvá dny
  • Pomalé načítání stránek — Google fetche méně stránek za sekundu
  • Řetězce přesměrování — každý skok v řetězci spotřebovává crawl budget navíc; přesměrování by mělo mít nejvýše jeden skok
  • Soft 404 chyby — stránky, které vrací kód 200, ale zobrazují obsah typu „stránka nenalezena“, se opakovaně crawlují bez užitku

Problémy s URL inventářem

  • Parametrické URL — filtry, řazení a vyhledávání v e-shopech generují tisíce unikátních URL se stejným nebo velmi podobným obsahem
  • Duplicitní obsah bez správně nastaveného canonical tagu — Google procházení opakuje zbytečně
  • Stránkování bez správného propojení — hluboké stránkování (page=47, page=48) s nízkým obsahem plýtvá crawl budgetem
  • Orphan pages — stránky bez jediného interního odkazu jsou pro Googlebot těžko dostupné a dostávají minimální crawl demand

Klíčová nuance

Robots.txt vs. noindex: co použít pro crawl budget

Tady se chybuje nejčastěji. Intuitivně se zdá, že přidáním noindex na stránku, kterou nechcete v indexu, ušetříte crawl budget. Ale není to tak — a Google tuto chybu v dokumentaci výslovně upozorňuje.

noindex meta tag

Co se skutečně stane

Googlebot stránku stále fetchne — přijde na server, stáhne HTML, teprve pak zjistí, že je tam noindex tag, a stránku zahodí. Čas crawlera byl spotřebován. Crawl budget se nešetří vůbec.

Kdy noindex použít: Na stránky, které má Googlebot vidět a které chcete vyloučit z indexu, ale zároveň potřebujete, aby fungovaly přirozené interní odkazování nebo aby je jiné systémy Googlu zpracovaly (například Google Ads landing pages).
robots.txt Disallow

Co se skutečně stane

Googlebot stránku vůbec nenačte — URL sice zůstane v crawl queue, ale server nikdy neobdrží požadavek. Crawl budget se skutečně šetří.

Kdy robots.txt použít: Na stránky, které chcete zcela vyloučit z procházení — URL s parametry, filtrované stránky e-shopu, interní administrační stránky, testovací prostředí.
Metoda Google stránku fetchne? Ušetří crawl budget? Kdy použít
robots.txt Disallow Ne Ano Stránky, které nechcete procházet ani indexovat
noindex meta tag Ano Ne Stránky viditelné pro crawlery, ale mimo výsledky vyhledávání
HTTP 404 nebo 410 Ano (s každým recrawlem méně) Částečně — Google postupně přestane stránku navštěvovat Trvale smazané stránky
robots.txt pro smazané stránky Ne Zdánlivě ano — ale URL zůstane v crawl queue velmi dlouho Nepoužívejte pro smazané stránky — vraťte 404 nebo 410
Důležité upozornění z Google dokumentace: robots.txt nepoužívejte jako dočasný nástroj pro přerozdělení crawl budgetu. Google volné zdroje automaticky nepřesune na jiné stránky, pokud váš server svůj limit ještě nedosáhl. Blokujte jen to, co nechcete crawlovat trvale.

Postup optimalizace

Jak crawl budget optimalizovat krok za krokem

Optimalizace crawl budgetu začíná vždy inventářem URL — ne technickými nastaveními. Nejprve zjistěte, co Google crawluje, pak teprve rozhodujte, co blokovat nebo opravit.

01
Audit URL inventáře
Co Google o webu zná
02
Blokování zbytečných URL
robots.txt + canonical
03
Oprava technických chyb
Rychlost, přesměrování, 5xx
04
Aktualizace sitemapy
Jen indexovatelné stránky
05
Monitoring v GSC
Statistiky procházení

Krok 1 — Zjistěte, co Google crawluje

Před jakýmkoliv blokováním musíte vědět, které URL Google navštěvuje a jak s nimi nakládá. Exportujte URL z Google Search Console (sekce Indexování, zpráva o pokrytí) a porovnejte je s tím, co skutečně na webu existuje. Hledejte URL, která jsou crawlována, ale neměla by být — filtry, stránkování, session ID v URL, testovací verze stránek.

Krok 2 — Odstraňte nebo zablokujte stránky bez hodnoty

Nejúčinnějším krokem je zmenšení URL inventáře. Google sám uvádí, že toto je faktor, který můžete ovlivnit nejvíce. Konkrétní postup:

  • Parametrické URL e-shopu — blokujte v robots.txt nebo nastavte canonical na kanonickou verzi stránky bez parametrů
  • Duplicitní stránky — doplňte canonical tagem na preferovanou URL; duplicitní obsah bez canonicalu plýtvá crawl budgetem dvakrát
  • Stránky s velmi nízkým obsahem — zvažte sloučení, noindex nebo odstranění; prázdné kategorie, stránky s jedním produktem
  • Trvale smazané URL — vracejte HTTP 404 nebo 410, ne přesměrování na homepage nebo robots.txt blokování

Krok 3 — Opravte technické problémy snižující crawl rate

Server musí reagovat rychle a spolehlivě. Každá chyba 5xx signalizuje Googlebotu, že má zpomalit. Zkontrolujte:

  • Chyby serveru — v GSC sekce Procházení, záložka Odpověď serveru; hledejte opakující se 5xx kódy
  • Rychlost odpovědi serveru — čas do prvního bajtu (TTFB) pod 200 ms je cíl; nad 500 ms Google citelně omezuje crawl rate
  • Řetězce přesměrování — každý zbytečný skok prodlužuje čas fetche; přesměrování zkraťte na jeden skok
  • Interní broken links — odkaz na neexistující stránku znamená zbytečný fetch s odpovědí 404

Krok 4 — Aktualizujte sitemapu

Sitemap by měla obsahovat výhradně URL, které chcete mít v indexu — žádné noindex stránky, žádné stránky blokované v robots.txt, žádné URL s parametry. Google sitemapu čte pravidelně a bere ji jako signál priority. Pokud sitemap obsahuje stovky URL, které Google nikdy neindexuje, ztrácí jako signál hodnotu.

Krok 5 — Sledujte výsledky v Google Search Console

Po každé změně sledujte data v sekci Nastavení a Statistiky procházení (dříve Crawl Stats). Viz samostatná sekce níže o tom, jak tato data číst.

Pokročilé téma

Crawl budget a JavaScript

Weby postavené na JavaScriptových frameworcích (React, Vue, Angular, Next.js) mají u Googlebotu vyšší náklady na procházení. Důvod je jednoduchý: Google musí každou stránku nejen fetchnout — to je běžný HTTP požadavek — ale také vyrenderovat, tedy spustit JavaScript a počkat na výsledný DOM. Renderování probíhá ve frontě odlišné od crawlování a může trvat dny.

Pro crawl budget to znamená dvě věci. Za prvé, JavaScript stránky spotřebují více zdrojů Googlebotu na jednu URL. Za druhé, obsah generovaný JavaScriptem (produktové detaily, texty načítané přes API) se může indexovat s výrazným zpožděním oproti staticky renderovanému HTML.

Doporučení

Kritický obsah v HTML

Veškerý obsah důležitý pro indexaci — texty, nadpisy, interní odkazy, strukturovaná data — by měl být dostupný přímo v HTML odpovědi serveru (server-side rendering nebo statický rendering), ne teprve po spuštění JavaScriptu.

Diagnostika

URL inspection v GSC

Nástroj URL Inspection v Google Search Console zobrazí, jak stránku Google skutečně vidí po renderování. Pokud se obsah generovaný JavaScriptem v náhledu nezobrazuje, Google ho pravděpodobně neindexuje.

Monitoring

Crawl budget v Google Search Console

Google Search Console obsahuje sekci Statistiky procházení, kde vidíte, jak Googlebot váš web navštěvoval za posledních 90 dní. Tato data jsou jedním z mála přímých signálů o tom, jak Google váš web vnímá z pohledu crawl budgetu.

Kde data najdete: GSC > Nastavení > Statistiky procházení (nebo přímo vyhledejte „Crawl stats“ v URL). Sekce zobrazuje tři hlavní grafy:

Graf 1
Celkový počet požadavků
Kolik URL Googlebot za den navštívil. Výrazný pokles signalizuje problém se serverem nebo nárůst chyb 5xx — Google automaticky snížil crawl rate.
Graf 2
Stažená data (kB)
Objem dat stažených Googlebotu. Velmi vysoká čísla při nízkém počtu požadavků mohou ukazovat na stránky s nadměrně velkým HTML nebo načítaným obsahem.
Graf 3
Průměrná doba odezvy
Jak rychle server odpovídal na požadavky Googlebotu. Dlouhodobý nárůst doby odezvy je signálem, že crawl capacity limit klesá.

Co hledat a jak reagovat

  • Náhlý pokles počtu požadavků — zkontrolujte chyby serveru v záložce Odpověď serveru; hledejte nárůst 5xx kódů v období před poklesem
  • Stagnující počet požadavků při rostoucím webu — Google nezvyšuje crawl rate i přes přibývající obsah; problém je pravděpodobně v crawl demand — příliš mnoho bezcenných URL snižuje celkový zájem
  • Vysoký podíl URL se stavem „Discovered — currently not indexed“ — Google URL zná, ale aktivně je neindexuje; příčina bývá nízká crawl demand nebo nedostatečná interní prolinkovací síť
  • Nárůst průměrné doby odezvy — optimalizujte výkon serveru nebo hostingový plán; TTFB nad 500 ms je přímá příčina snižování crawl rate
GSC zobrazuje data se zpožděním 2–3 dny. Po provedení změn (blokování URL v robots.txt, oprava chyb serveru) počítejte s tím, že výsledky v grafech uvidíte s týdenním až dvoutýdenním odstupem.

Příklad z praxe

Jak špatně nastavený crawl budget brzdí indexaci

Typický případ, který řešíme u e-shopů: web má 8 000 produktových stránek. V GSC ale vidíme 140 000 indexovaných URL. Rozdíl tvoří parametrické adresy z filtrů — každá kombinace barvy, velikosti a ceny vytvoří vlastní URL. Googlebot je procházet všechny, protože nikde nebylo řečeno, aby neprocházel.

Situace před optimalizací

E-shop s filtry generoval přes 130 000 parametrických URL. Googlebot trávil drtivou většinu crawl budgetu na stránkách jako /produkty?barva=cervena&velikost=M&razeni=cena-asc, které neměly žádný SEO potenciál. Nové produktové stránky se indexovaly 3 až 4 týdny po přidání.

  • Crawlované URL: 140 000+
  • Produktových URL: 8 000
  • Průměrná doba indexace nového produktu: 3–4 týdny
Situace po optimalizaci

Parametrické URL byly zablokovány v robots.txt. Canonical tagy doplněny na stránky s řazením a stránkováním. Sitemap pročištěna — zůstaly jen produktové a kategoriové stránky. Googlebot přesunul pozornost na smysluplný obsah.

  • Crawlované URL: ~9 000
  • Průměrná doba indexace nového produktu: 2–3 dny
  • Výsledek: Nové produkty se začaly zobrazovat ve výsledcích vyhledávání výrazně dříve
Poznámka: Čísla jsou orientační a vychází z typického průběhu podobných projektů. Konkrétní výsledky závisí na velikosti webu, kvalitě obsahu a celkové autoritě domény.

Časté otázky

Nejčastější otázky o crawl budgetu

Crawl budget je množství stránek, které je Googlebot ochoten a schopen na vašem webu procházet za určité časové období. Tvoří ho dva faktory: crawl capacity limit (kolik paralelních připojení Google použije, závisí na rychlosti serveru) a crawl demand (jak moc Google chce konkrétní URL navštívit, závisí na popularitě a čerstvosti obsahu). Oba faktory dohromady určují, které stránky Google procházet bude a které ne.
Crawl budget je téma primárně pro velké weby. Google doporučuje zaměřit se na něj, pokud máte více než 10 000 stránek měnících se každý den nebo více než 1 000 000 unikátních URL celkem. Dalším signálem je vysoký podíl stránek ve stavu „Discovered — currently not indexed“ v Google Search Console nebo výrazné zpoždění indexace nového obsahu. Pro weby s méně než tisícem stránek crawl budget zpravidla nehraje roli.
Crawl rate (nebo crawl capacity limit) popisuje technické omezení — kolik požadavků za sekundu může Googlebot provést, aniž by přetížil váš server. Crawl demand vyjadřuje zájem Googlu o konkrétní stránky — jak moc je chce navštěvovat a jak často. Crawl rate ovlivňujete rychlostí serveru. Crawl demand ovlivňujete kvalitou URL inventáře, interním prolinkováním a popularitou stránek.
Protože Googlebot stránku s noindex tagem stále fetchne — přijde na server, stáhne HTML, teprve pak zjistí, že ji nemá indexovat, a zahodí ji. Čas a kapacita crawlera byly spotřebovány. Pro skutečné šetření crawl budgetu použijte robots.txt Disallow — ten zabrání Googlebotu stránku vůbec načíst.
Pokud Googlebot tráví crawl budget na bezcenných URL — filtrech e-shopu, duplicitních stránkách, chybných přesměrováních — zbývá mu méně kapacity na nové stránky. Výsledkem je, že nové produkty, články nebo kategorie se do indexu dostávají se zpožděním nebo vůbec. Na webu s dobře nastaveným crawl budgetem se nový obsah indexuje řádově rychleji.
Přímo v Google Search Console v sekci Nastavení > Statistiky procházení. Uvidíte, kolik URL Googlebot denně navštívil za posledních 90 dní, jak rychle server odpovídal a jaký objem dat byl stažen. Doplňkově v záložce Indexování > Stránky zjistíte, kolik URL je ve stavu „Discovered — currently not indexed“ — vysoký podíl je signálem plýtvání crawl budgetu.
Přidejte Disallow pravidla pro URL, které nechcete, aby Googlebot vůbec navštívil. Typicky jde o URL s parametry (?barva=, ?razeni=, ?page=), interní vyhledávací stránky, filtrované výpisy e-shopu nebo administrační sekce. Pravidlo vypadá takto: Disallow: /*?* zablokuje všechny URL obsahující parametry. Před nasazením vždy otestujte v nástroji Google Search Console > robots.txt tester, aby nedošlo k nechtěnému blokování důležitých stránek.
Samuel Krištof — CEO PŘESAH.agency

Autor článku

Samuel Krištof

CEO & CMO · PŘESAH.agency

SEO Online marketing Správa PPC Sociální sítě Emailing

Marketingu se věnuji od roku 2017. Začínal jsem ve Fajn skupině, kde jsem budoval komunity na Facebooku a záhy přešel k placeným kampaním — pod vedením Janči Skalkové jsem nasbíral základy, které používám dodnes. Postupně jsem se dostal k SEO, automatizacím a celkové správě marketingu. Dnes působím jako CEO agentury PŘESAH a zároveň jako externí CMO ve společnosti Bohemian Estates.

Obsah článku je ověřen vůči oficiálním zdrojům Google Search Central a Ahrefs.

Nevíte, co váš crawl budget
brzdí?

V rámci technického SEO auditu zjistíme, které URL zbytečně spotřebovávají pozornost Googlebotu a co udělat jako první.

Chci technický SEO audit

Přejít nahoru