Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.
Na webu skupiny Pětník občas vyhlašujeme soutěž o jubilejního návštěvníka. Ovšem poslední velké jubileum, 10 000. návštěvníka, jsme vyhlásit nestihli. Zaplaťpánbů, on by to totiž nejspíš vyhrál robot.
Počitadlo na stránkách jsem si před dvěma lety naprogramoval sám pomocí skriptovacího jazyka PHP a databáze MySQL. Myšlenka je standardní: z jedné IP adresy chci počítat za den nejvýše jeden přístup, takže se v databázi zjistí, zda příslušné IP v příslušném dni už dorazilo, a podle toho se do databáze zapíše, nebo nezapíše. Počet návštěvníků se pak definuje jako počet záznamů v databázi.
Jenomže co s roboty? Ti si klidně přijdou, databáze si je zapíše (takový Googlebot má navíc spoustu IP adres, takže se může zapsat víckrát) a počitadlo roste. Zatímco na Toplistu má Pětník denní průměr pod dvacet, roboti vytočí denně i dvakrát tolik.
Robota umím poznat jen nepřímo, pomocí hlavičky HTTP_USER_AGENT. Tu musím porovnat se seznamem hlaviček známých robotů (např. Googlebot nebo MSNBOT) a pokud ji v něm najdu, nezapisovat přístup do databáze. Tento postup jsem začal zkoušet, uvidím, jestli to někam povede. V tom je mi velmi užitečným pomocníkem seznam hlaviček user-agentů. Nepříjemné je, že robotů existuje hodně a noví stále vznikají, takže seznam hlaviček je potřeba neustále aktualizovat a musím se smířit s tím, že občas nějaký proklouzne.
Jo, s roboty na webu bude tuhá válka.
Další články si můžete vyhledat v jednotlivých přihrádkách, případně podle data.
© Honza Hučín 2004–6
Šuplík běží na PIPNI.CZ. Díky!
8. 8. 16:48 | Pepa
7. 8. 21:26 | Honza Hučín
7. 8. 21:02 | Honza
6. 8. 14:29 | Pepa
3. 8. 18:29 | Honza
*1967, absolvent MFF UK v Praze (1991)
statistik, analytik, programátor, učitel, hudebník