Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.
Tenhle problém znají všichni, kdo provozují web, na jehož titulní stránce se rychle střídají články. A také všichni, koho na takové stránky přivede vyhledávač. Článek se chvilku ohřeje na titulce, vyhledávací robot ho zaindexuje, načež článek propadne do archivu. Při vyhledávání pak vyhledávač poskytne adresu titulky, kde ale článek už dávno není. Uživatel článek nenajde a naštvaně odejde. Buď vůbec neví, že by se článek mohl vyskytovat někde v archivních útrobách, nebo to tuší, ale neumí ho tam najít – v každém případě akce skončí nezdarem.
Je tedy potřeba zakázat indexování titulní stránky a ponechat jen indexování trvalých odkazů (tj. těch, co vedou do nitra webu na archivní stránky). Pokud titulku a archiv obsluhují rozdílné stránky (s rozdílnými názvy či dokonce v různých adresářích), je to snadné: soubor robots.txt umí robotům zakázat indexování určitých částí webu.
Někdo má však archiv i titulku obslouženou jedním souborem a to, zda jde o jednotlivý článek, nebo o hlavní stránku, se odlišuje existencí parametru za adresou. Z hlediska uvedeného problému to není moc šťastné, při programování blogu jsem na to nějak pozapomněl. Snad mě ale robots.txt zachrání i tady. Zkusil jsem do něho zadat
User-Agent: *
Disallow: /index.php
Allow: /index.php?cl=
a uvidím, co se bude dít. Jestli to dobře chápu, měl by tento předpis indexovat stránku index.php jen tehdy, je-li uvedena s parametrem cl. A to jsou v mém případě trvalé odkazy.
Bude to fungovat? Jsem zvědavý. Jestli to ale někdo z vás ví předem, napište mi to.
Další články si můžete vyhledat v jednotlivých přihrádkách, případně podle data.
© Honza Hučín 2004–6
Šuplík běží na PIPNI.CZ. Díky!
8. 8. 16:48 | Pepa
7. 8. 21:26 | Honza Hučín
7. 8. 21:02 | Honza
6. 8. 14:29 | Pepa
3. 8. 18:29 | Honza
*1967, absolvent MFF UK v Praze (1991)
statistik, analytik, programátor, učitel, hudebník