Šuplík Honzy Hučína

Skok na navigaci (menu)

Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.

Komentovaný článek

Internet a vše kolem

28. 11. 2004

Pokus neindexovat titulku

Tenhle problém znají všichni, kdo provozují web, na jehož titulní stránce se rychle střídají články. A také všichni, koho na takové stránky přivede vyhledávač. Článek se chvilku ohřeje na titulce, vyhledávací robot ho zaindexuje, načež článek propadne do archivu. Při vyhledávání pak vyhledávač poskytne adresu titulky, kde ale článek už dávno není. Uživatel článek nenajde a naštvaně odejde. Buď vůbec neví, že by se článek mohl vyskytovat někde v archivních útrobách, nebo to tuší, ale neumí ho tam najít – v každém případě akce skončí nezdarem.

Je tedy potřeba zakázat indexování titulní stránky a ponechat jen indexování trvalých odkazů (tj. těch, co vedou do nitra webu na archivní stránky). Pokud titulku a archiv obsluhují rozdílné stránky (s rozdílnými názvy či dokonce v různých adresářích), je to snadné: soubor robots.txt umí robotům zakázat indexování určitých částí webu.

Někdo má však archiv i titulku obslouženou jedním souborem a to, zda jde o jednotlivý článek, nebo o hlavní stránku, se odlišuje existencí parametru za adresou. Z hlediska uvedeného problému to není moc šťastné, při programování blogu jsem na to nějak pozapomněl. Snad mě ale robots.txt zachrání i tady. Zkusil jsem do něho zadat

User-Agent: *
Disallow: /index.php
Allow: /index.php?cl=

a uvidím, co se bude dít. Jestli to dobře chápu, měl by tento předpis indexovat stránku index.php jen tehdy, je-li uvedena s parametrem cl. A to jsou v mém případě trvalé odkazy.

Bude to fungovat? Jsem zvědavý. Jestli to ale někdo z vás ví předem, napište mi to.

Vložit vlastní komentář – Návrat k článku – RSS komentářů tohoto článku

Komentáře

[1] 28. 11. 2004, 10:50 – Petr Weida (Odkaz)

Rozhodně nedoporučuji používat uvedený postup. Tím se ochudíš o nejsilnější část tvého webu. Jak budou roboti získávat odkazy na nové příspěvky? Někde z podstránek?

Řešení tvého problému je použití meta tagu:

<meta name="robots" content="noindex, follow">

[2] 28. 11. 2004, 12:02 – Milan Kryl (Odkaz)

Přesně jak říká Petr. Do úvodní stránky přihod noindex, follow a do ostatních "archivních" stránek nedávej nic. (použije se default index,follow - případně to explicitně vypiš - pro hloupé boty :-) )

Jinak bych ti taky doporučil oddělit index od obsahové části a archivu. ;)

Jednoduše to mužeš udělat symlinkem, pokud máš přístup k shellu a nebo mít holt dva stejné soubory. Než se blogu dostane nějaké předělávky.

[3] 28. 11. 2004, 13:02 – dgx (Odkaz)

V robots.txt existuje něco jako "Allow" ?

[4] 28. 11. 2004, 13:28 – Milan Kryl (Odkaz)

[3] ne neexistuje je to

A Standard for Robot Exclusion

specifikace na
http://www.robotstxt.org/wc/norobots.html

[5] 28. 11. 2004, 14:04 – Honza Hučín (Odkaz)

Díky všem za rady, zařídím se podle toho. Weblog se předělávky doufám dočká, až budu mít chvilku čas (a pokud mě blogování nepřestane bavit).
[1][2] Uvažoval jsem o tom, odlišit hlavní stránku od trvalých odkazů jiným souborem. Možná to v kombinaci s robots.txt bude nejlepší. Postup s META hlavičkou by vyžadoval dynamicky uvádět omezující hlavičku jen tehdy, když stránka nebude archivní, dva různé soubory (titulka a archiv) jsou asi čistší řešení.
[3][4] Podle http://www.jakpsatweb.cz/roboti.htm v novější specifikaci existuje:
"Konstrukci Allow podporuje Google, Jyxo a možná i další roboti (nevím), nepatří ale do původní specifikace."

[6] 28. 11. 2004, 22:59 – Jan Tichý (Odkaz)

Jenom k tomu ROBOTS.TXT, prikaz Allow neodpovida prislusne specifikaci na http://www.robotstxt.org . Nicmene Google sam o sobe ma rozsireni, ktere umoznuje v ROBOTS.TXT pouzivat i Allow a willcardy. Blize viz treba http://www.google.com/webmasters/faq.html#11 a http://www.google.com/webmasters/faq.html#12 . Jenom je treba jej urcit specialne pro User-agent: Googlebot.

Je to vlastne analogie obecne metahlavicky "robots" a jejiho specifickeho google-only protejsku "googlebot".

K tomuto článku není možné vkládat komentáře.