Šuplík Honzy Hučína

Skok na navigaci (menu)

Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.

Komentovaný článek

Internet a vše kolem
30. 9. 2004

Jak Toplist počítá průměrnou návštěvnost

Asi už znám odpověď na otázku, kterou jsem položil včera v závěru svého článku Referery na Toplistu jsou už zase klikatelné. Je to moje hypotéza, podložená měřením, úplně přesně by nám to asi řekl Pavel Francírek, jenže ten mi zatím na mail neodpověděl.

Základní veličinou je tzv. návštěva. Podrobně je to vysvětlené na stránce Metodika měření; stručně řečeno to je každý přístup na stránku, pokud jste na ní ze stejného počítače aspoň 30 minut předtím nebyli.

Jelikož intenzita návštěv kolísá během dne i týdne, bývá užitečná průměrná denní návštěvnost. Na stránce s často kladenými otázkami se definuje jako počet návštěv za uplynulých 7 dní. To by mělo logiku, je v tom týdenní cyklus. Čerstvé údaje, které by vstupovaly do průměru počítaného za posledních 168 hodin, by přepisovaly údaje pořízené přesně před týdnem. Tedy například ve čtvrtek ráno by se ještě do průměru počítaly návštěvy z minulého čtvrtka odpoledne, ale tentýž čtvrtek večer už tam budou samozřejmě čerstvé údaje z proběhnuvšího odpoledne.

Výpočet takového průměru (říká se mu klouzavý průměr, asi podle toho, že se jeho záběr v čase pořád posunuje) by ale asi byl příliš velký nápor na databázi. Proto Toplist počítá průměrnou návštěvnost jinak. Odhaduji, že podle tohoto vzorce:

Průměrná návštěvnost = (N1 + N2 + ... + N7 + N) / (7 + D),

kde:
N1 = počet návštěv včera
N2 = počet návštěv předevčírem atd.
N7 = počet návštěv za celý stejný den minulého týdne
N = počet dosavadních návštěv za dnešek
D = část dne, která zatím dnes uběhla (jako desetinné číslo, v poledne je to 0,5 a čím blíž k půlnoci, tím blíž je to jedniččce)

Přeložím-li to do běžného jazyka, Toplist průměr počítá z návštěv ne za přesných sedm dní (168 hodin), ale za sedm dní a zatím uplynulý kus dneška. Ve čtvrtek se do průměru zahrnou jak dosavadní návštěvy za ten den, tak všechny návštěvy za minulý čtvrtek. Takže těsně před půlnocí ze čtvrtka na pátek budou v průměru započtené čtvrtky dva (dnešek a ten minulý), bude se vlastně počítat za osm dní. O půlnoci začne pátek a minulý čtvrtek se celý škrtne.

To je tedy vysvětlení, proč jsou průměry o víkendech záhadně nízké. Toplist totiž v neděli večer započítává i minulou neděli – a protože v neděli jsou návštěvy obecně nižší, stáhne započtení dvou nedělí průměr níž, než by měl být. S klouzavým průměrem by se to nestalo, ten vezme z minulé neděle jen takovou část, aby to dohromady dávalo 168 hodin.

Proč to tak Toplist počítá? Myslím, že je to výpočetně mnohem jednodušší. Jednak může držet v databázi pouze údaje za dnešek, u minulých dní stačí denní součet. A jednak pro výpočet aktuálního průměru postačuje údaj za dnešní návštěvu, který se stejně počítá. Odpadne tak jeden dotaz do databáze, což je při počtu stránek na Toplistu pochopitelné opatření.

Vložit vlastní komentářNávrat k článkuRSS komentářů tohoto článku

Komentáře

[1] 1. 10. 2004, 09:28 – MK

Jinými slovy - statistikou lze dokázat všechno. Čísla mohou být i pravdivá, ale různou interpretací těchž čísel lze doložit i pravý opak.

K tomuto článku není možné vkládat komentáře.

© Honza Hučín 2004–6

Šuplík běží na PIPNI.CZ. Díky!

sber.cermat.cz

RSS Šuplíku

RSS komentářů – souhrnně

U každého článku je samostatný RSS kanál pro komentáře.

Výběr článků

Posledních 10 článků

nebo podle data:

nebo hledání fulltextem:

Archiv všech článků

Poslední komentáře

Zabili mě, parchanti [2]

8. 8. 16:48 | Pepa

Cestou kolem blogu [2]

7. 8. 21:26 | Honza Hučín

Cestou kolem blogu [1]

7. 8. 21:02 | Honza

Vrtulník nad hlavou [3]

6. 8. 14:29 | Pepa

Taková hra na volby [1]

3. 8. 18:29 | Honza

Nejčtenější

Školský portál (1)

O mně

*1967, absolvent MFF UK v Praze (1991)

statistik, analytik, programátor, učitel, hudebník

nyní Ústav pro informace ve vzdělávání

Životopis (RTF)

Napište mi