DIAKRITIK je nástroj na rekonštrukciu diakritiky. Bol vytvorený v SNK a sprístupnený 18. 8. 2014. Je založený na využití jazykového modelu postaveného na veľkom korpuse textov slovenského jazyka.
Na rekonštrukciu je možné použiť niektorú z nasledujúcich metód s rôznym pomerom chybovosť/rýchlosť:
first | Vyberie prvú možnosť na rekonštrukciu, ktorú nájde v texte. |
random | Každé slovo, ktoré sa dá, nahradí náhodným slovom s diakritikou. |
naïve | Vyberie najčastejšie sa vyskytujúce slová s diakritikou. |
n-gram | Použije jazykový model – slová sú rekonštruované v úsekoch dĺžky n tak, aby bola pravdepodobnosť výskytu výslednej vety v slovenčine čo najvyššia. Čím vyššie n, tým lepšia presnosť, ale tým aj väčšia výpočtová náročnosť. Zlepšenia nad n>4 sú minimálne. |
odstran diakritiku | Opačný postup, nástroj zo zadaného textu diakritiku odstráni. |
Chybovosť rekonštruovaného textu, teda pomer slov s nesprávne určenou diakritikou, sa pohybuje okolo 0.2 %, t. j. zhruba jedno slovo z päťsto bude zrekonštruované nesprávne. Čím je text podobnejší štandardnej slovenčine, tým je jeho rekonštrukcia úspešnejšia.
Ďalšie odkazy
- CZACCENT – dopĺňanie diakritiky v češtine
- alternatívne doplnenie diakritiky na brm.sk
- korekcia textu na KEMT Natural Language Processing, TUKE Košice
- diakritikovač by KInIT.
Nástroj je aktuálne vyvíjaný v Jazykovednom ústave Ľ. Štúra SAV mimo projektu Tvorba a rozvoj Slovenského národného projektu (V. etapa).