Technické SEO · Slovníček pojmů
Web crawler
a web crawling
Jak Googlebot prochází váš web, proč některé stránky nikdy nenajde a co s tím konkrétně udělat.
Základní pojmy
Co je web crawler a co je web crawling
Web crawler (také spider, robot nebo bot) je automatizovaný program, který systematicky prochází webové stránky a sbírá o nich data. Nejznámějším příkladem je Googlebot, crawler společnosti Google. Vedle něj fungují desítky dalších crawlerů od vyhledávačů, SEO nástrojů i specializovaných systémů.
Web crawling je samotný proces, při kterém crawler prochází web. Jde o první ze tří fází, které určují, zda se vaše stránka objeví ve výsledcích vyhledávání. Bez crawlingu žádná indexace neprobíhá, a bez indexace stránka ve výsledcích vyhledávání nevyskočí.
Co je web crawler
Automatizovaný program, který stahuje obsah webových stránek, extrahuje z nich odkazy a předává data vyhledávači k dalšímu zpracování. Funguje nepřetržitě a bez lidského zásahu.
Příklady: Googlebot, Bingbot, SeznamBot, Screaming Frog, Sitebulb
Co je web crawling
Proces systematického procházení webu crawlerem. Crawler načítá stránky, čte jejich obsah, nachází nové odkazy a postupně prochází celou dostupnou část internetu.
Výsledek: Data předaná do indexu vyhledávače pro pozdější zobrazení ve výsledcích
Oba pojmy se v praxi běžně zaměňují a v SEO kontextu to nevadí. Přesnější je říkat „Googlebot crawluje web“ (provádí crawling pomocí crawleru), ale ve většině situací jsou termíny web crawler a web crawling srozumitelné jako synonyma označující totéž téma.
Aktualizováno: . Informace vychází z dokumentace Google Search Central.
Mechanismus
Jak web crawler funguje
Crawler neprochází web náhodně. Řídí se sadou pravidel a priorit, které určují, které stránky navštíví, v jakém pořadí a jak často. Celý proces je základem technického SEO a probíhá ve čtyřech opakujících se krocích.
Seed URLs: odkud crawler začíná
Crawler vždy začíná se seznamem výchozích adres, kterým se říká seed URLs. Pro Googlebot to jsou adresy, které už zná z předchozích návštěv, odkazy z jiných webů, a adresy odeslané přes Google Search Console prostřednictvím souboru sitemap.xml. Nový web, na který nevede žádný odkaz z indexovaného webu a jehož sitemap nebyla odeslána, Googlebot sám od sebe nenajde.
Fronta URL a prioritizace
Z každé navštívené stránky crawler extrahuje všechny hypertextové odkazy a přidává je do fronty adres k budoucímu procházení. Fronta není náhodná. Googlebot přiřazuje adresám prioritu podle několika faktorů: jak silný je interní PageRank dané stránky, jak často se obsah mění a jak důležitá je stránka v rámci celého webu. Stránka, na kterou nevede žádný interní odkaz (tzv. orphan page), se do fronty dostane pozdě nebo vůbec.
Stažení stránky a kontrola robots.txt
Ještě před stažením první stránky si Googlebot načte soubor robots.txt, který je na adrese vasedomena.cz/robots.txt. Tento soubor říká, které části webu smí crawler navštívit a které jsou pro něj zakázané. Pokud robots.txt blokuje přístup ke CSS nebo JavaScript souborům, Googlebot stránku sice stáhne, ale nemůže ji správně vykreslit a vyhodnotit. To je běžná technická chyba, která způsobuje, že Google vidí stránku jinak než uživatel.
Po ověření robots.txt crawler pošle HTTP požadavek na server, stáhne HTML obsah stránky a zpracuje ho. Rychlost odpovědi serveru přímo ovlivňuje, kolik stránek Googlebot za jednu návštěvu projde.
Extrakce odkazů a předání do indexu
Ze staženého HTML crawler identifikuje všechny odchozí a interní odkazy a přidává je do fronty. Zároveň předává data o obsahu stránky systému indexace ke zpracování. Crawling a indexace jsou dva oddělené procesy, které neprobíhají simultánně. Stránka může být crawlována a přesto se v indexu neobjeví, například pokud obsahuje meta tag noindex nebo pokud ji Google vyhodnotí jako duplicitní.
Nejčastější zmatek v SEO
Crawling nestačí: co přijde po něm
Crawling je jen první krok. Stránka, kterou Googlebot navštíví, nemusí skončit v indexu. A stránka, která je v indexu, nemusí rankovat. Jsou to tři různé procesy s různými podmínkami.
| Fáze | Co to znamená | Co to ovlivňuje | Jak to ovlivnit |
|---|---|---|---|
| Crawling | Googlebot stránku navštíví a stáhne její obsah | robots.txt, sitemap, rychlost serveru, interní prolinkování, crawl budget | Sitemap, opravit robots.txt, zlepšit interní prolinkování, zrychlit server |
| Indexace | Google stránku uloží do své databáze a zpřístupní ji pro vyhledávání | Meta tag noindex, kvalita obsahu, duplicitní obsah, canonical tag | Odstranit noindex, zajistit jedinečnost obsahu, správně nastavit canonical |
| Rankování | Google rozhodne, na které pozici stránka ve výsledcích vyhledávání zobrazí | Relevance obsahu, E-E-A-T, zpětné odkazy, Core Web Vitals, search intent | Kvalitní obsah, budování autority, technická optimalizace |
Indexace: z crawlu do databáze Google
Poté, co Googlebot stránku crawluje, předá data systému indexace. Ten obsah analyzuje, vyhodnotí jeho kvalitu, zkontroluje duplicitu a rozhodne, zda stránku do indexu zařadí. Stránka, která obsahuje meta tag noindex, crawlována být může, ale do indexu se nedostane. Stejně tak může být stránka crawlována a Google ji označí jako „Crawled, currently not indexed“ v Google Search Console, pokud ji vyhodnotí jako slabou nebo duplicitní.
Rankování: z indexu do výsledků vyhledávání
Zařazení do indexu neznamená, že stránku uživatelé uvidí. Google z indexu vybírá stránky a řadí je podle stovek signálů: jak dobře obsah odpovídá vyhledávacímu dotazu, jak silná je autorita domény, jak rychlá a technicky kvalitní stránka je, a jaký mají uživatelé zpětný signál. Crawling je tedy podmínkou, ne zárukou viditelnosti ve vyhledávání.
Technické SEO
Crawl budget: kolik stránek Googlebot skutečně projde
Googlebot neprojde váš celý web při každé návštěvě. Každému webu přidělí určitý objem crawlování — crawl budget. Pro malé weby do několika tisíc stránek to prakticky nevadí. Problém nastává u e-shopů s desetitisíci URL, webů s parametrickými adresami nebo tam, kde technické chyby plýtvají crawl budgetem na stránky, které indexovat nechcete.
Co crawl budget snižuje nejčastěji: duplicitní URL bez canonical tagu, soft 404 stránky, přesměrovací řetězce a pomalý server. Jak crawl budget prověřit a co s tím dělat podrobně vysvětlujeme v samostatném článku o crawl budgetu.
Jak Googlebot rozhoduje
Jak Googlebot prioritizuje stránky
Googlebot neprochází všechny stránky stejně často. Některé navštíví každý den, jiné jednou za měsíc a některé prakticky nikdy. Tři hlavní faktory, které pořadí a frekvenci určují, jsou frekvence změn obsahu, síla interního prolinkování a autorita domény z pohledu zpětných odkazů.
Praktický dopad na váš web
Pokud publikujete nový článek nebo aktualizujete existující stránku a chcete, aby ji Googlebot zaindexoval co nejdřív, máte tři páky: odeslat URL přes Google Search Console (funkce Kontrola URL), přidat na novou stránku odkaz z existující stránky s vysokou návštěvností a aktualizovat soubor sitemap.xml. Kombinace těchto tří kroků zkracuje dobu od publikace po indexaci z týdnů na hodiny u webů s dobrou autoritou.
Praktická doporučení
Jak připravit web pro Googlebot
Technické SEO z pohledu crawlování stojí na pěti oblastech. Každá z nich přímo ovlivňuje, kolik stránek Googlebot projde, které zaindexuje a jak rychle nový obsah ve výsledcích vyhledávání najdete.
robots.txt: co crawler smí a nesmí
Soubor robots.txt je první věc, kterou Googlebot na vašem webu načte. Definuje, které části webu jsou pro crawlery přístupné a které ne. Správné nastavení robots.txt zajistí, že Googlebot nebude plýtvat crawl budgetem na admin sekce, výsledky interního vyhledávání nebo parametrické URL filtrovací stránky.
Dvě nejčastější chyby, které vidíme v praxi: blokování CSS a JavaScript souborů, které Googlebot potřebuje k vykreslení stránky, a blokování celých sekcí webu, které by měly být indexovány. Oba problémy vedou k tomu, že Google vidí stránku jinak než uživatel nebo ji neindexuje vůbec.
sitemap.xml: mapa webu pro crawlera
Soubor sitemap.xml je strukturovaný seznam URL adres vašeho webu. Nenahrazuje správné interní prolinkování, ale výrazně urychluje objevení nových stránek. Sitemap by měla obsahovat pouze URL adresy, které chcete indexovat, bez noindex stránek, bez parametrických variant a bez 404 a přesměrovaných URL.
Sitemap odešlete do Google Search Console přes sekci Soubory sitemap. Googlebot ji pak při každé návštěvě zkontroluje a nové URL zařadí do fronty ke crawlování.
Interní prolinkování bez slepých uliček
Interní prolinkování je pro crawlera navigační mapa webu. Každá stránka, na kterou nevede žádný interní odkaz, je pro Googlebot prakticky neviditelná, i kdyby byla v sitemap. Zároveň platí, že čím více odkazů z důležitých stránek na danou URL vede, tím vyšší prioritu dostane ve frontě crawlování.
Při každém publikování nové stránky zkontrolujte: existuje alespoň jedna relevantní existující stránka, ze které na novou URL odkážete? Pokud ne, přidejte odkaz před nebo krátce po publikaci.
Rychlost webu a crawl rate
Googlebot měří dobu odpovědi serveru při každém požadavku. Pokud server odpovídá pomalu, crawler automaticky snižuje frekvenci požadavků, aby server nepřetížil. Praktický dopad: pomalý server znamená méně stránek procházených za jednu návštěvu a potenciálně horší pokrytí velkého webu.
Checklist: je váš web připraven pro Googlebot?
- robots.txt neblokuje CSS, JavaScript ani důležité sekce webu
- sitemap.xml je odeslaná přes Google Search Console a obsahuje jen indexovatelné URL
- Server odpovídá do 200 ms na první byte (TTFB)
- Žádné přesměrovací řetězce delší než 2 přesměrování
- Parametrické URL mají nastavený canonical tag na kanonickou variantu
- Každá indexovatelná stránka má alespoň jeden interní odkaz z jiné stránky
- Žádné soft 404 stránky (HTTP 200, ale prázdný nebo bezcenný obsah)
- Duplicitní obsah ošetřen canonical tagem nebo sloučen do jedné URL
- Stránky s noindex nejsou zbytečně propojené z hlavní navigace
- Nové stránky jsou přidané do sitemap a mají interní odkaz z existujícího obsahu
Přehled
Typy crawlerů: od Googlebotu po SEO nástroje
Googlebot je nejznámější, ale zdaleka ne jediný crawler. Weby pravidelně navštěvují desítky různých botů s různými účely. Jejich rozdělení na tři skupiny pomáhá pochopit, co každý z nich dělá a proč ho ve vašich serverových logách najdete.
Crawleři vyhledávačů
Jde o boty provozované vyhledávači za účelem budování jejich indexu. Identifikují se v HTTP požadavcích pomocí user-agent řetězce. Pravidla pro jejich přístup nastavujete v souboru robots.txt.
| Crawler | Provozovatel | Účel |
|---|---|---|
| Googlebot | Hlavní crawler pro budování indexu Google Vyhledávání | |
| Bingbot | Microsoft | Crawler pro vyhledávač Bing a ChatGPT (využívá Bing index) |
| SeznamBot | Seznam.cz | Crawler největšího českého vyhledávače |
| DuckDuckBot | DuckDuckGo | Crawler pro vyhledávač DuckDuckGo |
| Yandex Bot | Yandex | Crawler pro ruský vyhledávač Yandex |
SEO crawlery pro audit webu
SEO crawlery jsou nástroje, které napodobují chování Googlebotu a umožňují vám odhalit technické problémy webu dříve, než je najde Google. Na rozdíl od Googlebotu je ovládáte sami, nastavujete hloubku crawlování a dostanete strukturovaný report.
Screaming Frog SEO Spider
Nejrozšířenější SEO crawler na trhu. Prochází celý web, identifikuje broken links, duplicitní title tagy a meta popisy, chybějící H1, přesměrovací řetězce, stránky s noindex a desítky dalších technických problémů. Verze zdarma pokryje weby do 500 URL.
Sitebulb
Vizuálně přívětivější alternativa ke Screaming Frog. Silná stránka je přehledná prioritizace nálezů a grafické vizualizace struktury webu. Dobře funguje při auditech pro klienty, kteří potřebují srozumitelný výstup bez hlubokých technických znalostí.
Oba nástroje využívají stejný princip jako Googlebot: začínají s výchozí URL, stahují stránky, extrahují z nich odkazy a postupně procházejí celou dostupnou strukturu webu. Rozdíl je v tom, že výsledky dostanete okamžitě a v tabulkové podobě, ne za týdny jako u Googlebotu.
Specializované crawlery
Třetí skupina crawlerů nesouvisí přímo se SEO. Patří sem boti pro porovnávání cen na e-shopech, agregátory zpravodajského obsahu, archivy jako Wayback Machine nebo nástroje pro monitoring dostupnosti webu. Jejich přístup lze omezit v robots.txt stejně jako u crawlerů vyhledávačů.
Důležitý detail
Mobilní vs. desktopový Googlebot
Googlebot existuje ve dvou variantách: mobilní a desktopové. Od roku 2024 Google přešel výhradně na mobile-first indexing — to znamená, že pro crawling a hodnocení stránek používá primárně mobilní verzi Googlebotu. Pokud vaše stránka vypadá na mobilu jinak než na desktopu (skrytý obsah, chybějící text, blokované obrázky), Google hodnotí a indexuje mobilní verzi, ne tu desktopovou.
Praktický dopad: obsah, který je na mobilní verzi webu skrytý nebo načítaný až po interakci uživatele, Google nemusí vidět vůbec. Stejně tak se do hodnocení promítají Core Web Vitals měřené na mobilních zařízeních. Při technickém auditu vždy testujte, jak Googlebot vidí vaše stránky v mobilním režimu — nástroj pro to najdete přímo v Google Search Console pod funkcí Kontrola URL.
Častá záměna
Web crawling vs. web scraping: jaký je rozdíl
Oba pojmy označují automatizovaný přístup k webovým stránkám, ale slouží k různým účelům. Web crawling prochází web systematicky a buduje index. Web scraping cíleně vytahuje konkrétní data z konkrétních stránek.
| Web crawling | Web scraping | |
|---|---|---|
| Co to dělá | Systematicky prochází web odkaz po odkazu a mapuje jeho strukturu | Cíleně extrahuje konkrétní data (ceny, texty, kontakty) z vybraných stránek |
| Kdo to dělá | Vyhledávače (Googlebot, Bingbot) nebo SEO nástroje (Screaming Frog) | Specializované nástroje nebo vlastní skripty (Python, BeautifulSoup, Scrapy) |
| Rozsah | Celý web nebo jeho velká část | Konkrétní stránky nebo sekce s cílenými daty |
| Účel | Budování indexu, technický audit webu, mapování struktury | Monitoring cen konkurence, sběr kontaktů, agregace obsahu |
| Legalita | Standardně povolená, omezitelná přes robots.txt | Záleží na podmínkách použití webu a způsobu využití dat |
V praxi se oba procesy prolínají. Screaming Frog například crawluje strukturu webu (crawling) a zároveň extrahuje konkrétní data jako title tagy nebo meta popisy (scraping). Z pohledu SEO je klíčový crawling jako základ indexace — scraping je spíš nástrojová disciplína pro sběr dat.
Praktický příklad
Co se stane, když Googlebot váš web nevidí
Technické chyby v crawlování se projeví ve výsledcích vyhledávání se zpožděním dnů až týdnů. Než je zaznamenáte v analytice, web přijde o část organické návštěvnosti a vaše SEO může zbytečně utrpět. Tři nejčastější scénáře z praxe:
Disallow: / z vývojového prostředí. Celý web je zablokovaný pro Googlebot. Existující stránky postupně mizí z indexu, organická návštěvnost klesá na nulu. Obnova trvá týdny až měsíce podle stáří domény a síly indexu.
Časté otázky
Časté otázky o web crawlingu a crawlerech
Nevíte, jak Googlebot
vidí váš web?
Provedeme technický SEO audit a řekneme vám, které stránky Googlebot nenajde, proč a co s tím.
Chci technický auditZdroje
Zdroje a reference
- Google Search Central: Crawling and Indexing Overview — developers.google.com/search/docs/crawling-indexing (přístup duben 2026)
- Google Search Central: What Is Googlebot — developers.google.com/search/docs/crawling-indexing/googlebot (přístup duben 2026)
- Google Search Central: Managing Crawl Budget for Large Sites — developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget (přístup duben 2026)
- Google Search Central: How Google Search Works — developers.google.com/search/docs/fundamentals/how-search-works (přístup duben 2026)
- Semrush Blog: What Is Googlebot — semrush.com/blog/googlebot/ (přístup duben 2026)
- Semrush Blog: Crawl Budget — semrush.com/blog/crawl-budget/ (přístup duben 2026)
- Ahrefs Blog: Website Crawlers — ahrefs.com/blog/website-crawlers/ (přístup duben 2026)