Šuplík Honzy Hučína

Skok na navigaci (menu)

Tento blog je v současné době uzavřen.
Pokračování blogu na bloguje.cz jsem zrušil. Pokud budu někdy pokračovat, bude to spíš tady.

Komentovaný článek

Internet a vše kolem

2. 7. 2004

Massa Bob neuměla česky, ale jde lepší

Možná jste už na webu narazili na stránku, která byla sice česky, ale nějak podivně. Můj poslední zásah byla stránka o Dorothy Sayersové. Jazyk mnoha autorů stránek je příšerný, tohle mi připadalo spíš veselé, například doslovný překlad vlastních jmen (Harriet Vane jako Harriet větrník, Montague Egg jako Montague vejce). Inu, tak pracuje stroj.

Ale nechci ironizovat. Strojový překlad je pro současné stroje pekelně těžká disciplína a sám jí moc nerozumím. Asi si to nechám vysvětlit od své sestry, která na tom postavila své doktorandské studium na MFF UK.

Jak jsem o tom přemýšlel, připadá mi to podobné, jako naučit počítač hrát šachy. Tam není problém vygenerovat možné tahy, ale správně vyhodnotit pozici. Kdo by si před dvaceti lety dokázal představit, že druhdy blbá mašinka dnes umí za sekundu probrat řádově miliony pozic a hrát vyrovnané zápasy s nejlepšími světovými šachisty? Navíc koncovky, někdejší slabina počítačů, se daří stále lépe ošetřit díky databázi pozic s malým počtem figur. To vše díky neuvěřitelnému zrychlení procesorů a zvětšení kapacity disku. Odhaduji, že tudy by se mohla časem ubírat cesta i u strojového překladu – už to nebude jen hledání slov ve slovníku, ale hledání třeba celých vět, heuristická analýza či podobné velmi pokročilé metody. Je to jenom otázka dostatečné rychlosti, dostatečného objemu podpůrných dat a chytře napsané vyhodnocovací aplikace. Za pár let by třeba mohly být běžné výkonné pluginy do prohlížečů pro online překlad.

A že by to bylo užitečné. V tom souhlasím s Wikipedií. Sice umět anglicky by mělo být v příštích letech stále samozřejmější, ale už se vidím, jak louskám nějakou španělskou nebo francouzskou stránku. Nehledě k tomu, že česky čtu pořád ještě o poznání rychleji.

Vložit vlastní komentář – Návrat k článku – RSS komentářů tohoto článku

Komentáře

[1] 2. 7. 2004, 20:23 – Doug

Koukám, Honzo, že jsi tak trochu vizionář - já to tak růžově nevidím (ostatně, pracuji jako překladatel a myslím, že vím, o čem mluvím). Hledání vět nebo jejich částí zní zajímavě, ale pořád se tím neřeší zásadní problém: překlad konkrétního slova v konkrétním kontextu. Tohle mnohdy nezvládne ani člověk - jak to tedy naučit počítač? Dostáváme se totiž do oblasti, kde je algoritmický přístup dost k ničemu a heuristika pomůže jen trochu - je potřeba rozhodovat se na základě jakéhosi jazykového citu či intuice.

Mimochodem, kdysi jsem se podílel na práci na programu, který měl umět překládat nikoli slovo za slovem, ale po celých větách. A pokud mě paměť neklame, nebyl hlavní problém v rozpoznání větné stavby (zejména v angličtině to není až tak těžké, zejména je-li k dispozici několik modelů vět), ale právě v použití kontextově odpovídajícího významu překládaných výrazů.

Mimochodem podruhé, Wikipedia v češtině je opravdu nářez. Schválně jsem si vlezl na stránky s popisy termínů, které důvěrně znám, ale stejně jsem nakonec kapituloval a utekl k anglické verzi...

[2] 23. 7. 2004, 17:42 – mj (Odkaz)

Zdravím. Malé doplnění.

Česká verze svobodné internetové encyklopedie Wikipedia se nachází na adrese http://cs.wikipedia.org .

http://wikipedia.infostar.cz/ je pouze strojový překlad wikipedie firmou Microton, s.r.o. http://www.microton.cz/ .

K tomuto článku není možné vkládat komentáře.