Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.
Asi už znám odpověď na otázku, kterou jsem položil včera v závěru svého článku Referery na Toplistu jsou už zase klikatelné. Je to moje hypotéza, podložená měřením, úplně přesně by nám to asi řekl Pavel Francírek, jenže ten mi zatím na mail neodpověděl.
Základní veličinou je tzv. návštěva. Podrobně je to vysvětlené na stránce Metodika měření; stručně řečeno to je každý přístup na stránku, pokud jste na ní ze stejného počítače aspoň 30 minut předtím nebyli.
Jelikož intenzita návštěv kolísá během dne i týdne, bývá užitečná průměrná denní návštěvnost. Na stránce s často kladenými otázkami se definuje jako počet návštěv za uplynulých 7 dní. To by mělo logiku, je v tom týdenní cyklus. Čerstvé údaje, které by vstupovaly do průměru počítaného za posledních 168 hodin, by přepisovaly údaje pořízené přesně před týdnem. Tedy například ve čtvrtek ráno by se ještě do průměru počítaly návštěvy z minulého čtvrtka odpoledne, ale tentýž čtvrtek večer už tam budou samozřejmě čerstvé údaje z proběhnuvšího odpoledne.
Výpočet takového průměru (říká se mu klouzavý průměr, asi podle toho, že se jeho záběr v čase pořád posunuje) by ale asi byl příliš velký nápor na databázi. Proto Toplist počítá průměrnou návštěvnost jinak. Odhaduji, že podle tohoto vzorce:
Průměrná návštěvnost = (N1 + N2 + ... + N7 + N) / (7 + D),
kde:
N1 = počet návštěv včera
N2 = počet návštěv předevčírem atd.
N7 = počet návštěv za celý stejný den minulého týdne
N = počet dosavadních návštěv za dnešek
D = část dne, která zatím dnes uběhla (jako desetinné číslo, v poledne je to 0,5 a čím blíž k půlnoci, tím blíž je to jedniččce)
Přeložím-li to do běžného jazyka, Toplist průměr počítá z návštěv ne za přesných sedm dní (168 hodin), ale za sedm dní a zatím uplynulý kus dneška. Ve čtvrtek se do průměru zahrnou jak dosavadní návštěvy za ten den, tak všechny návštěvy za minulý čtvrtek. Takže těsně před půlnocí ze čtvrtka na pátek budou v průměru započtené čtvrtky dva (dnešek a ten minulý), bude se vlastně počítat za osm dní. O půlnoci začne pátek a minulý čtvrtek se celý škrtne.
To je tedy vysvětlení, proč jsou průměry o víkendech záhadně nízké. Toplist totiž v neděli večer započítává i minulou neděli – a protože v neděli jsou návštěvy obecně nižší, stáhne započtení dvou nedělí průměr níž, než by měl být. S klouzavým průměrem by se to nestalo, ten vezme z minulé neděle jen takovou část, aby to dohromady dávalo 168 hodin.
Proč to tak Toplist počítá? Myslím, že je to výpočetně mnohem jednodušší. Jednak může držet v databázi pouze údaje za dnešek, u minulých dní stačí denní součet. A jednak pro výpočet aktuálního průměru postačuje údaj za dnešní návštěvu, který se stejně počítá. Odpadne tak jeden dotaz do databáze, což je při počtu stránek na Toplistu pochopitelné opatření.
Vložit vlastní komentář – Návrat k článku – RSS komentářů tohoto článku
K tomuto článku není možné vkládat komentáře.
© Honza Hučín 2004–6
Šuplík běží na PIPNI.CZ. Díky!
8. 8. 16:48 | Pepa
7. 8. 21:26 | Honza Hučín
7. 8. 21:02 | Honza
6. 8. 14:29 | Pepa
3. 8. 18:29 | Honza
*1967, absolvent MFF UK v Praze (1991)
statistik, analytik, programátor, učitel, hudebník