Jan Štráfelda - Průvodce online -projektem
Praha/Mělník  |  776 678 044  |  jan@strafelda.cz  |  Pošlete mi poptávku

Robot (crawler)

Robot (neboli pavouk, crawler, spider či zkráceně bot) je speciální webová aplikace nebo počítačový program, který přes jednotlivé odkazy prochází internetové stránky a vykonává na nich určenou činnost.

Touto činností může být například:

Roboti vyhledávačů

V ČR jsou důležití dva roboti vyhledávačů – Googlebot a Seznambot. Oba patří k vychovaným robotům, je tedy možné částečně jejich chování na webu řídit.

Procházení webu

Můžeme ovlivnit, jak bude robot vyhledávače webem procházet (tzv. ho crawlovat):

Dříve se k omezení procházení používal také JavaScript, ale ten už dnes roboti vyhledávačů zvládají (minimálně Googlebot ho umí výborně a Seznambot se stále zlepšuje).

Indexace stránek

Dále můžeme také ovlivnit, zda si bude robot stránku ukládat do indexu (či zda ji z něj případně vyhodí):

Jak často chodí na web chodí

Obecně platí, že čím významnější je web, tím častěji na něj vyhledávací robot přichází. U významných webů chodí roboti na návštěvu denně, u jiných týdně a u málo významných jednou za měsíc. Liší se také jejich ochota stránky procházet (crawl budget).

Škodliví roboti

Někteří roboti si stahují obrovské množství stránek najednou a tím mohou web přetěžovat. Známý je tím třeba robot SEMrushBot. Řešení je následující:

  1. Zjistíme si user agenta a IP adresu robota ze serverových access logů.
  2. Robotovi zakážeme procházení webu v souboru robots.txt. Na některé roboty to stačí.
  3. Pokud robot zákaz procházení nerespektuje, zakážeme mu přístup natvrdo přímo na serveru, v souboru .htaccess.

Pokud si pak škodlivý robot na serveru vyžádá nějakou stránku, server ho jednoduše odmítne obsloužit.

Pořiďte si vlastního robota

Pokud si chcete vyzkoušet, jak takový robot pracuje, můžete si stáhnout program Xenu's Link Sleuth. Je k dispozici zdarma a funguje naprosto stejně jako jiní roboti. Vypustíte ho na úvodní stránku webu, on si na ní najde všechny odkazy, odkázané stránky proleze a najde na nich odkazy, ty proleze… Až dokud neprojde všechny stránky zadaného webu.

Nakonec vám Xenu vyhodí užitečný report o všech odkazech, které našel a které vrací chybu 404, nebo které se někam přesměrovávají. Můžete je tedy na webu opravit a hned budete pro roboty vyhledávačů důvěryhodnější Emotikon: úsměv

Zaujal jsem vás? Přihlašte se do mailingu a mé další texty už vám neuniknou:

 

Zprávy posílám cca 8 × ročně. Odhlásit se můžete kdykoliv. Více informací.



Nezávazná poptávka

  (volitelné)