[linux] Reviza SK-Ispell

Zdeno Podobný zdpo na mailbox.sk
Středa Červen 5 20:20:43 CEST 2002


Dňa Št, 2002-05-30 at 16:44, Marek Grac napísal:
> Radamsava,
> 
> 	Vzhladom na to, ze som sa o cosi podobne pokusal, tak chapem o co
> ti ide :) snad len par postrehov. A kedze by snad mohli zaujat aj niekoho
> ineho, tak to posielam aj do konfery.
> 
> > Avsak niekolko testov ukazalo, ze bude treba skontorlovat pravidla v
> > affix subore - su tam zadefinove casovania, sklonovania atd...
> > Kedze sa jedna o pomerne rozsiahlu pracu, hladam ludi, ktori by sa na to
> > so mnou podujali.
> 	Zakladny problem bol v pocte moznych affixovych tried, ktore
> ispell ponukal (mozno ich uz zvlada aj viac). ale narvat tam slovencinu
	Podla autora MySpellu ispell aj myspell udajne moze pouzivat skoro 256
flagov (predpokladam teda ze vsetky zobrazitelne znaky okrem
specialnych). MySpell rozlisuje aj velke/male pismena, kym ispell asi
nie. Ale aj tak by bolo mozne vytvorit asi viac flagov, nez je to dnes.

> nebude trivialny problem (bude treba spajat rozlicne triedy, ktore su
> disjunktne napr. sloveso + prid. meno). Verim, ze taketo problemy v nicom
> novsom nie su. 
	Ked som nieco taketo reportoval, tak mi odpovedali, ze sme asi zle
pochopili ucel affixu (pouzivaju vyraz affix kompressia). Jeho ucelom je
iba zmesit velkost datoveho suboru, a nie vhodny na popis pravidiel
pravopisu. 
	Tento pristup je dobre vidiet prave v OO pri MySpell - sucasny pocet
pravidiel z ispellu sposobuje, ze kontrola (hlavne, ked je zapnute
"podciarkovanie" nespravnych slov) je velmi pomala.
	Neviem si pomoct, ale mam dojem, ze anglicky hovoriaci programatori
kaslu na komplikovanost inych jazykov. Aj tie zlepsenia, ktore pre nas
ciastocne boli spravene, urobil madar. Teda, co si nespravis, to
nemas...

> 	Na druhej strane neviem na kolko si sledoval ten datovy subor s
> ispellom a prisiel na chybovost samotnych slov. Pocet nespravnych slov je
> (podla toho co som pozeral) v jednotkach percent, co je prilis vela :(
> (aspon pre mna).

Suhlas. A prave preto prvy krok (na ktory mimochodom treba najviac ludi,
a je ralativne primitivny) je vytvorit databazu spravnych + nespravnych
slov. Momentalne to robim tak, ze expandnem slova s ispellu podla
flagov, rozdelujem ich na spravne/nespravne. Neskor vyhodim/upravim
pravidla, ktore sposobuju chyby atd. Ten zoznam spravnych/nepravnych
slov asi bude dobra pomocka aj pre ine projekty zaoberajuce sa
slovencinou...


> 	Jediny program, ktory by na to siel vyuzit a ma 'vcelku' slusnu
> kvalitu je 'lemma' (bezi aj pod Linuxom) (Sevecek, 1995). Jedna sa sice o
> morfologicky analyzator, ale vyuzit by siel. Priklad:
> : sladkosti
> 1. <s> sladkos-t-i	(209)
>    <l> sladkos	
>    <c> subs   Fem sg #236
>    <c> subs   Fem pl #14
> : linux
> --- not found
> : ut
> 1. <s> ut	(219)
>    <l> ut	
>    <c> subs   Any pl #2
Ako je mozne sa k tomu dostat? (internet/kupit, cena???)

Zd.





Další informace o konferenci linux