Technické SEO · Slovníček pojmů
Crawl budget od A do Z:
optimalizace procházení
vašeho webu
Crawl budget určuje, kolik stránek vašeho webu Google za dané období projde. U většiny webů to není téma. U e-shopů s tisíci URL nebo webů s rychle přibývajícím obsahem to rozhoduje o tom, zda se nové stránky vůbec dostanou do indexu.
Definice
Co je crawl budget
Crawl budget je množství stránek, které je Google ochoten a schopen na vašem webu procházet za určité časové období. Nejde o pevné číslo, které by vám Google sdělil — jde o výsledek dvou faktorů, které Google vyhodnocuje automaticky na základě toho, jak se váš web chová a jak moc ho Google považuje za hodnotný.
Google rozlišuje tři pojmy, které se v praxi často zaměňují. Každý z nich popisuje jinou část procesu a ovlivňuje ho jiná nastavení.
| Pojem | Co znamená | Co ho ovlivňuje |
|---|---|---|
| Crawl budget | Celkový rozsah procházení vašeho webu Googlem — sada URL, které Google může a chce procházet | Kombinace obou níže uvedených faktorů |
| Crawl capacity limit | Maximální počet paralelních připojení, která Googlebot použije při procházení vašeho webu | Rychlost a stabilita serveru — pokud server reaguje rychle, limit roste; pokud vrací chyby nebo je pomalý, Google crawluje méně |
| Crawl demand | Jak moc Google chce konkrétní stránky procházet a jak často | Popularita stránek, čerstvost obsahu a velikost URL inventáře — čím více zbytečných URL, tím nižší zájem o ty hodnotné |
Crawl budget je součástí oblasti technického SEO. Úzce souvisí s tím, jak web crawling funguje a jakou roli v něm hraje Googlebot.
Aktualizováno: · Zdroj: Google Search Central — Crawl Budget
Kdy je to relevantní
Kdy crawl budget řešit a kdy ne
Crawl budget je pokročilé téma vaší SEO strategie a Google to říká otevřeně: pokud se vaše stránky indexují v den, kdy je publikujete, tento článek číst nemusíte.
Crawl budget řešte, pokud
- Web má více než 10 000 stránek, které se mění každý den
- Web má více než 1 000 000 unikátních URL celkem
- V Google Search Console vidíte vysoký podíl stránek se stavem Discovered — currently not indexed
- Nové stránky se indexují s výrazným zpožděním — dny až týdny po publikování
- Web generuje velké množství parametrických nebo filtrovaných URL (typicky e-shop s filtry podle barvy, velikosti, ceny)
- Po migraci nebo přidání velkého množství obsahu se část stránek vůbec neindexuje
Crawl budget neřešte, pokud
- Provozujete blog nebo firemní web s desítkami až stovkami stránek
- Nový obsah se indexuje rychle — do 24 až 48 hodin
- V GSC nevidíte velké množství neindexovaných nebo neobjevených URL
- Web nemá velký objem duplicitních nebo parametrických URL
Čísla výše jsou orientační prahové hodnoty, které uvádí Google Search Central. Nejde o absolutní limity — záleží také na tom, jak rychle se obsah mění a jaká je celková kvalita webu.
Faktory
Co ovlivňuje crawl budget
Crawl budget ovlivňují dvě skupiny faktorů. První skupina určuje, kolik zdrojů může Google na váš web vynaložit — to závisí především na technickém stavu serveru. Druhá skupina určuje, o které stránky má Google zájem — to závisí na tom, co mu server nabízí ke zpracování.
Crawl capacity limit — rychlost a stabilita serveru
Google nechce přetížit váš server. Proto Googlebot průběžně sleduje, jak rychle a spolehlivě server odpovídá, a podle toho upravuje intenzitu procházení. Pokud server reaguje rychle a bez chyb, Google postupně zvyšuje počet paralelních požadavků. Pokud server vrací chyby 5xx nebo odpovídá pomalu, Google crawluje méně — a tento limit neroste zpět automaticky, potřebuje čas.
Praktický dopad: každá vlna serverových chyb zpomaluje procházení i na dalších několik dní po jejich odstranění.
Crawl demand — o které stránky má Google zájem
Google sám rozhoduje, které URL stojí za procházení. Tři faktory, které toto rozhodnutí nejvíce ovlivňují:
Faktory, které crawl budget plýtvají
Toto jsou nejčastější technické problémy, které způsobují, že Googlebot tráví čas na nesprávných stránkách:
Technické problémy
- Chyby serveru (5xx) — každá chyba snižuje crawl rate a obnovení trvá dny
- Pomalé načítání stránek — Google fetche méně stránek za sekundu
- Řetězce přesměrování — každý skok v řetězci spotřebovává crawl budget navíc; přesměrování by mělo mít nejvýše jeden skok
- Soft 404 chyby — stránky, které vrací kód 200, ale zobrazují obsah typu „stránka nenalezena“, se opakovaně crawlují bez užitku
Problémy s URL inventářem
- Parametrické URL — filtry, řazení a vyhledávání v e-shopech generují tisíce unikátních URL se stejným nebo velmi podobným obsahem
- Duplicitní obsah bez správně nastaveného canonical tagu — Google procházení opakuje zbytečně
- Stránkování bez správného propojení — hluboké stránkování (page=47, page=48) s nízkým obsahem plýtvá crawl budgetem
- Orphan pages — stránky bez jediného interního odkazu jsou pro Googlebot těžko dostupné a dostávají minimální crawl demand
Klíčová nuance
Robots.txt vs. noindex: co použít pro crawl budget
Tady se chybuje nejčastěji. Intuitivně se zdá, že přidáním noindex na stránku, kterou nechcete v indexu, ušetříte crawl budget. Ale není to tak — a Google tuto chybu v dokumentaci výslovně upozorňuje.
Co se skutečně stane
Googlebot stránku stále fetchne — přijde na server, stáhne HTML, teprve pak zjistí, že je tam noindex tag, a stránku zahodí. Čas crawlera byl spotřebován. Crawl budget se nešetří vůbec.
Co se skutečně stane
Googlebot stránku vůbec nenačte — URL sice zůstane v crawl queue, ale server nikdy neobdrží požadavek. Crawl budget se skutečně šetří.
| Metoda | Google stránku fetchne? | Ušetří crawl budget? | Kdy použít |
|---|---|---|---|
| robots.txt Disallow | Ne | Ano | Stránky, které nechcete procházet ani indexovat |
| noindex meta tag | Ano | Ne | Stránky viditelné pro crawlery, ale mimo výsledky vyhledávání |
| HTTP 404 nebo 410 | Ano (s každým recrawlem méně) | Částečně — Google postupně přestane stránku navštěvovat | Trvale smazané stránky |
| robots.txt pro smazané stránky | Ne | Zdánlivě ano — ale URL zůstane v crawl queue velmi dlouho | Nepoužívejte pro smazané stránky — vraťte 404 nebo 410 |
Postup optimalizace
Jak crawl budget optimalizovat krok za krokem
Optimalizace crawl budgetu začíná vždy inventářem URL — ne technickými nastaveními. Nejprve zjistěte, co Google crawluje, pak teprve rozhodujte, co blokovat nebo opravit.
Krok 1 — Zjistěte, co Google crawluje
Před jakýmkoliv blokováním musíte vědět, které URL Google navštěvuje a jak s nimi nakládá. Exportujte URL z Google Search Console (sekce Indexování, zpráva o pokrytí) a porovnejte je s tím, co skutečně na webu existuje. Hledejte URL, která jsou crawlována, ale neměla by být — filtry, stránkování, session ID v URL, testovací verze stránek.
Krok 2 — Odstraňte nebo zablokujte stránky bez hodnoty
Nejúčinnějším krokem je zmenšení URL inventáře. Google sám uvádí, že toto je faktor, který můžete ovlivnit nejvíce. Konkrétní postup:
- Parametrické URL e-shopu — blokujte v robots.txt nebo nastavte canonical na kanonickou verzi stránky bez parametrů
- Duplicitní stránky — doplňte canonical tagem na preferovanou URL; duplicitní obsah bez canonicalu plýtvá crawl budgetem dvakrát
- Stránky s velmi nízkým obsahem — zvažte sloučení, noindex nebo odstranění; prázdné kategorie, stránky s jedním produktem
- Trvale smazané URL — vracejte HTTP 404 nebo 410, ne přesměrování na homepage nebo robots.txt blokování
Krok 3 — Opravte technické problémy snižující crawl rate
Server musí reagovat rychle a spolehlivě. Každá chyba 5xx signalizuje Googlebotu, že má zpomalit. Zkontrolujte:
- Chyby serveru — v GSC sekce Procházení, záložka Odpověď serveru; hledejte opakující se 5xx kódy
- Rychlost odpovědi serveru — čas do prvního bajtu (TTFB) pod 200 ms je cíl; nad 500 ms Google citelně omezuje crawl rate
- Řetězce přesměrování — každý zbytečný skok prodlužuje čas fetche; přesměrování zkraťte na jeden skok
- Interní broken links — odkaz na neexistující stránku znamená zbytečný fetch s odpovědí 404
Krok 4 — Aktualizujte sitemapu
Sitemap by měla obsahovat výhradně URL, které chcete mít v indexu — žádné noindex stránky, žádné stránky blokované v robots.txt, žádné URL s parametry. Google sitemapu čte pravidelně a bere ji jako signál priority. Pokud sitemap obsahuje stovky URL, které Google nikdy neindexuje, ztrácí jako signál hodnotu.
Krok 5 — Sledujte výsledky v Google Search Console
Po každé změně sledujte data v sekci Nastavení a Statistiky procházení (dříve Crawl Stats). Viz samostatná sekce níže o tom, jak tato data číst.
Pokročilé téma
Crawl budget a JavaScript
Weby postavené na JavaScriptových frameworcích (React, Vue, Angular, Next.js) mají u Googlebotu vyšší náklady na procházení. Důvod je jednoduchý: Google musí každou stránku nejen fetchnout — to je běžný HTTP požadavek — ale také vyrenderovat, tedy spustit JavaScript a počkat na výsledný DOM. Renderování probíhá ve frontě odlišné od crawlování a může trvat dny.
Pro crawl budget to znamená dvě věci. Za prvé, JavaScript stránky spotřebují více zdrojů Googlebotu na jednu URL. Za druhé, obsah generovaný JavaScriptem (produktové detaily, texty načítané přes API) se může indexovat s výrazným zpožděním oproti staticky renderovanému HTML.
Kritický obsah v HTML
Veškerý obsah důležitý pro indexaci — texty, nadpisy, interní odkazy, strukturovaná data — by měl být dostupný přímo v HTML odpovědi serveru (server-side rendering nebo statický rendering), ne teprve po spuštění JavaScriptu.
URL inspection v GSC
Nástroj URL Inspection v Google Search Console zobrazí, jak stránku Google skutečně vidí po renderování. Pokud se obsah generovaný JavaScriptem v náhledu nezobrazuje, Google ho pravděpodobně neindexuje.
Monitoring
Crawl budget v Google Search Console
Google Search Console obsahuje sekci Statistiky procházení, kde vidíte, jak Googlebot váš web navštěvoval za posledních 90 dní. Tato data jsou jedním z mála přímých signálů o tom, jak Google váš web vnímá z pohledu crawl budgetu.
Kde data najdete: GSC > Nastavení > Statistiky procházení (nebo přímo vyhledejte „Crawl stats“ v URL). Sekce zobrazuje tři hlavní grafy:
Co hledat a jak reagovat
- Náhlý pokles počtu požadavků — zkontrolujte chyby serveru v záložce Odpověď serveru; hledejte nárůst 5xx kódů v období před poklesem
- Stagnující počet požadavků při rostoucím webu — Google nezvyšuje crawl rate i přes přibývající obsah; problém je pravděpodobně v crawl demand — příliš mnoho bezcenných URL snižuje celkový zájem
- Vysoký podíl URL se stavem „Discovered — currently not indexed“ — Google URL zná, ale aktivně je neindexuje; příčina bývá nízká crawl demand nebo nedostatečná interní prolinkovací síť
- Nárůst průměrné doby odezvy — optimalizujte výkon serveru nebo hostingový plán; TTFB nad 500 ms je přímá příčina snižování crawl rate
Příklad z praxe
Jak špatně nastavený crawl budget brzdí indexaci
Typický případ, který řešíme u e-shopů: web má 8 000 produktových stránek. V GSC ale vidíme 140 000 indexovaných URL. Rozdíl tvoří parametrické adresy z filtrů — každá kombinace barvy, velikosti a ceny vytvoří vlastní URL. Googlebot je procházet všechny, protože nikde nebylo řečeno, aby neprocházel.
E-shop s filtry generoval přes 130 000 parametrických URL. Googlebot trávil drtivou většinu crawl budgetu na stránkách jako /produkty?barva=cervena&velikost=M&razeni=cena-asc, které neměly žádný SEO potenciál. Nové produktové stránky se indexovaly 3 až 4 týdny po přidání.
- Crawlované URL: 140 000+
- Produktových URL: 8 000
- Průměrná doba indexace nového produktu: 3–4 týdny
Parametrické URL byly zablokovány v robots.txt. Canonical tagy doplněny na stránky s řazením a stránkováním. Sitemap pročištěna — zůstaly jen produktové a kategoriové stránky. Googlebot přesunul pozornost na smysluplný obsah.
- Crawlované URL: ~9 000
- Průměrná doba indexace nového produktu: 2–3 dny
- Výsledek: Nové produkty se začaly zobrazovat ve výsledcích vyhledávání výrazně dříve
Časté otázky
Nejčastější otázky o crawl budgetu
Nevíte, co váš crawl budget
brzdí?
V rámci technického SEO auditu zjistíme, které URL zbytečně spotřebovávají pozornost Googlebotu a co udělat jako první.
Chci technický SEO auditZdroje
Použité zdroje
- Google Search Central — Optimize your crawl budget · přístup 12. 4. 2026
- Google Search Central — robots.txt: úvod · přístup 12. 4. 2026
- Google Search Central — Konsolidace duplicitních URL · přístup 12. 4. 2026
- Google Search Console — Zpráva o pokrytí indexu · přístup 12. 4. 2026
- Semrush — Crawl Budget: What It Is and How to Optimize It · přístup 12. 4. 2026
- Ahrefs — Crawled, Currently Not Indexed: How to Fix It · přístup 12. 4. 2026