Jan Štráfelda - Průvodce internetovými projekty
celá ČR (přes video)  |  776 678 044  |  jan@strafelda.cz

Crawler (robot)

Crawler (neboli pavouk, robot, spider či zkráceně bot) je speciální webová aplikace nebo počítačový program, který přes jednotlivé odkazy prochází internetové stránky a vykonává na nich určenou činnost.

Touto činností může být například:

Roboti vyhledávačů

V ČR jsou důležití dva roboti vyhledávačů – Googlebot a Seznambot. Oba patří k vychovaným crawlerům , je tedy možné částečně jejich chování na webu řídit.

Procházení webu

Můžeme ovlivnit, jak bude robot vyhledávače webem procházet (tzv. ho crawlovat):

  • Crawlerům můžeme zakázat procházení celého webu nebo některých částí pomocí souboru robots.txt.
  • Chceme-li robotovi zakázat procházení odkazů na nějaké stránce, použijeme meta tag robots.
  • Procházení konkrétního odkazu zakážeme crawlerům pomocí atributem rel s hodnotou nofollow.

Dříve se k omezení procházení používal také JavaScript, ale ten už dnes roboti vyhledávačů zvládají (minimálně Googlebot ho umí výborně a Seznambot se stále zlepšuje).

E-book za mail

Získejte podrobný návod Jak na e-mail marketing (52 stran). Více informací.

Žádný spam, jen užitečný obsah. Newsletter posílám cca 8× ročně. Odhlásíte se kdykoliv.

Indexace stránek

Dále můžeme také ovlivnit, zda si bude robot stránku ukládat do indexu (či zda ji z něj případně vyhodí):

  • Pomocí výše zmíněného meta tagu robots – funguje pro HTML stránky, hodnota index či noindex určuje, jak se má crawler zachovat.
  • Pomocí HTTP hlavičky X-Robots-Tag – ta se používá u obrázků či dokumentů jiného typu, než je HTML (třeba PDF souborů).
  • Pomocí stavových kódů – typicky 404, pokud jsme stránku definitivně smazali či 301, pokud jsme ji přesunuli na jinou adresu.
  • Pomocí kanonizace URL – používá se, pokud máme na webu duplicitní obsah (tj. stejný obsah na dvou různých adresách), takto můžeme crawlerovi oznámit, která adresa je ta hlavní a on jí pak z té druhé přičte link juice.

Jak často chodí na web chodí

Obecně platí, že čím významnější je web, tím častěji na něj vyhledávací crawler přichází. U významných webů chodí roboti na návštěvu denně, u jiných týdně a u málo významných jednou za měsíc. Liší se také jejich ochota stránky procházet (crawl budget).

Škodliví roboti

Někteří crawleři si stahují obrovské množství stránek najednou a tím mohou web přetěžovat. Známý je tím třeba robot SEMrushBot. Řešení je následující:

  1. Zjistíme si user agenta a IP adresu crawlera ze serverových access logů.
  2. Crawlerovi zakážeme procházení webu v souboru robots.txt. Na některé roboty to stačí.
  3. Pokud crawler zákaz procházení nerespektuje, zakážeme mu přístup natvrdo přímo na serveru, v souboru .htaccess.

Pokud si pak škodlivý robot na serveru vyžádá nějakou stránku, server ho jednoduše odmítne obsloužit.

Pořiďte si vlastního crawlera

Pokud si chcete vyzkoušet, jak takový crawler pracuje, můžete si stáhnout program Xenu's Link Sleuth. Je k dispozici zdarma a funguje naprosto stejně jako jiní roboti. Vypustíte ho na úvodní stránku webu, on si na ní najde všechny odkazy, odkázané stránky proleze a najde na nich odkazy, ty proleze… Až dokud neprojde všechny stránky zadaného webu.

Nakonec vám Xenu vyhodí užitečný report o všech odkazech, které našel a které vrací chybu 404, nebo které se někam přesměrovávají. Můžete je tedy na webu opravit a hned budete pro roboty vyhledávačů důvěryhodnější Emotikon: úsměv

Podobně funguje také poněkud novější robot SEO Macroscope, který je k dispozici také zdarma, nebo oblíbený a osvědčený Screaming Frog, který už je ale placený.

O autorovi

Jsem Jan Štráfelda a působím jako průvodce online projekty. Potřebujete předělat web či e-shop? Nebo posunout internetový marketing? Poradím s obojím. 14 let budování vlastní digitální agentury mě skvěle vyškolilo – a rád se o zkušenosti podělím.

S čím také umím pomoci:

Své znalosti sdílím i na LinkedIn. Přidejte se k 2 811 marketérům, kteří z nich již pravidelně těží.