Člověk versus počítač aneb výsledky efektivity skenování textu OCR

Archiv | 01.02.99

Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem100 úhozů za minutu jen proto, že neprošli ekonomickým školstvím, které dříve jako jediné klávesn...





Spousta intelektuálů dnes buší do klávesnice počítače závratnou rychlostí kolem
100 úhozů za minutu jen proto, že neprošli ekonomickým školstvím, které dříve
jako jediné klávesnicové gramotnosti vyučovalo. Na policii jsou lidé zdržováni
zbytečně dlouho jen proto, že naťukání protokolu probíhá mnohonásobně déle, než
by bylo při klávesnicové gramotnosti nezbytné. Možná je to "štěstím" i pro
soudnictví, jehož kapacita je do značné míry limitována kvalitou zapisovatelů.

Moderní pražská Euroškola (jejíž studenti procházejí individuální programovanou
výukou psaní na počítači ZAV v návaznosti na uživatelské aplikace) se 19. ledna
1999 stala dějištěm celostátní soutěže, při níž zpracování textů v oblasti
opisu testovali lidé klávesnicově různě gramotní od mistryně světa až po
typického kancelářského rutinéra systému "všema dvěma" ale také skenery a
počítače s OCR.
Soutěž, kterou organizovala redakce PC WORLDu, společnost Interinfo ČR a již
zmíněná Euroškola, měla objektivně zjistit hranice výhodnosti obou typů
přepisování textů.

Technika
Soutěže se zúčastnily dva počítače s různými skenery a druhy OCR programů.
Skener označovaný číslem 1 byl Hewlett-Packard ScanJet 4S, s nímž spolupracoval
program Recognita 4.0, která je v prodeji za 30 tisíc Kč. Druhou, nižší
kategorii zastoupil levnější skener Microtek Phantom 336cx (2 500 Kč) a s ním
dodávaný programem Recognita 3.2 (v ceně). Obě sestavy obsluhovali studenti MFF
UK Jindřich a Přemysl Kolorenčovi, tedy uživatelé počítačově gramotní, avšak
bez předběžné přípravy na práci s programem a na korekturu textů.

Lidé
Nejvýkonnější lidské písařské kvality představovaly tři reprezentantky
úspěšného družstva České republiky z posledního světového šampionátu (Lausanne
1998): dvojnásobná mistryně světa Helena Matoušková z Kladna (její rychlost
psaní asi 800 úhozů/min.), juniorská mistryně Evropy, studentka pražské VŠE
Zdeňka Kundrátková a juniorská reprezentantka ČR, studentka ISŠ Zlín, Eliška
Klimková. Úlohy "kancelářského rutinéra" se laskavě ujal redaktor PC WORLDu Jan
Lipšanský (bez speciálních kursů). Posledním soutěžícím byl student hostitelské
Euroškoly Petr Žák (jeho rychlost se pohybovala kolem 250 úhozů/min.).
Toto družstvo připravil Jaroslav Zaviačič (sám vicemistr světa ještě v psaní na
stroji v letech 1965 a 67), jenž se podílel i na přípravě soutěže a předloh.

Kategorie
Ve snaze přiblížit se všem myslitelným možnostem a okolnostem, které by se
mohly během přepisování textu přihodit, připravili organizátoři soutěže osm
různých předloh. Prvních sedm textů mělo rozsah jedné normostrany, tj. 1 800
úhozů. Poslední kolo bylo pojato jako jedna z obvyklých kategorií na
mistrovstvích v psaní na klávesnici třicetiminutový přepis textu.
Jednotlivá kola byla pojata jako simulace různých podmínek: od ideálních
(kvalitní papír a tisk), přes kvalitní s různým počtem chyb (poškození papírů,
textu), až po mechanický psací stroj s korekturami a faxový dokument.

Výsledky
Jak vidno z přiloženého grafu, vliv na výsledky skenerů neměla jenom daná
předloha, ale i její kvalita a zejména kvalita softwaru. Podle očekávání u
kvalitních předloh suverénně zvítězily oba dva skenery, i když mistryně světa
Helena Matoušková svým vyrovnaným výkonem nebyla daleko od výsledku druhého
skeneru. Nekvalitní tisk, jaký poskytuje mechanický psací stroj, je podle
dosavadních zkušeností nepřeveditelný kvalita lidského oka je nesrovnatelně
vyšší, takže technika v tomto kole zůstala na posledních místech. Nejen
program, ale i obsluha se v průběhu soutěže vylepšovala.
Text, ve kterém je takřka jedna třetina psána ručně, je pro skenery naprosto
nepoužitelný. Křivka skeneru č. 2 se dokonce dostala mimo rozsah grafu, a to i
z toho důvodu, že obsluha raději rezignovala na komplikovanost oprav a text
ručně přepsala. Návrat na "hrací pole" v další disciplíně jas-ně signalizuje
poměrně menší počet korektur v textu. Naskenování faxu nebylo proti očekávání
příliš vyrovnanou disciplínou texty se tedy musely konvertovat do MS Wordu a
upravovat až do žádané podoby.
Z počtu úhozů za půlhodiny byl vypočítán čas, kterého by bylo potřeba k napsání
jedné normostrany. Ukázalo se, že i přes relativně velký počet chyb, k nimž
došlo u skeneru č. 2, se umístění nezměnilo technika s její neodmyslitelnou
obsluhou podala plně přesvědčivý důkaz o smysluplnosti svého využití.
Vyhodnocen byl i počet chyb v jednotlivých textech. Považuji za důležité
upozornit na vyrovnanou kondici mistryně světa Heleny Matouškové, jejíž průměr
se pohyboval pod jednou chybou na stranu. Průměrnou penalizaci za jednu chybu
jsme určili na dvě sekundy, což je průměrný čas potřebné korektury.

Závěr
O smysluplnosti učení se psaní na klávesnici v dnešní době nemůže být pochyb.
Většina z těch, kdo chvílemi věřili na bezstarostnou budoucnost s hlasovým
ovládáním počítačů a hlasovým záznamem dat, se přesvědčila o tom, že reálné
využívání těchto technologií je dosud daleko (zvláště v češtině).
Dostat se k rychlosti, která odpovídá asi 250 úhozům za minutu (srovnej se
soutěžícím číslo 4), znamená asi dvouměsíční pravidelnou přípravu a
zanedbatelnou investici do výukového programu. Jak vidno z výsledků, tak se
člověk, který obětoval učení minimum ze svého času, ve většině případů
rychlostí a kvalitou přiblíží skeneru s OCR nižší kategorie. Nižším skenerům se
také přiblížil náš redaktor, jeho kapacita však byla vyčerpána; psaním dvěma
prsty nedosáhne vyšší rychlosti (jestli jsem dobře slyšel, tak od tohoto týdne
začal s intenzivní přípravou psaní všemi deseti).
Na druhou stranu jak jednoznačně dokázala naše měření jsou skenery velmi
užitečnou pomůckou tam, kde se převádí velké množství textu, který je kvalitně
vytištěn. Písař se na rozdíl od stroje unaví a dělá pak větší množství chyb.
Skener se naučí a ujasní si nepřesnosti, a ve svém důsledku může být v
převádění textu až dvakrát rychlejší než nejrychlejší žena na světě. Tak
pěkného výsledku však lze dosáhnout pouze za té podmínky, že obětujete cca 30
000 Kč na OCR software schopný učení.

Jaroslav Poláček, Marek Dědič

Nasazení techniky je pro modernizaci celé společnosti nezbytné. Při opisu
tištěných textů (např. při reedicích knih) je asi namístě využít skenerů,
umožňujících text vzápětí editovat jakmile ale (zvláště český) text obsahuje
větší množství úprav, gramatických či stylistických nedostatků nebo je na
nekvalitním papíře, pak se vyplatí současně s těmito úpravami zapojit i
klávesnicovou gramotnost.












Komentáře

K tomuto článku není připojena žádná diskuze, nebo byla zakázána.