FER-ova provjera pravopisa: ovo su najčešće pogreške u protekloj godini

Hašek je već gotovo trideset godina izbor mnogih kojima treba online provjera pravopisa. Sada su njegovi autori izdvojili najčešće pogreške koje je ovaj sustav ispravio tijekom prošle godine

Sandro Vrbanus petak, 14. siječnja 2022. u 06:00

Hrvatski akademski spelling checker Hascheck, ili za prijatelje Hašek, dostupan na adresi ispravi.me, jedna je od najstarijih domaćih internetskih usluga koja već gotovo punih 30 godina svakodnevno pomaže akademskoj zajednici, brojnim novinskim redakcijama, ali i privatnim korisnicima u uređivanju njihovih tekstova.

Protekle godine, objavili su s FER-a, gdje je Hašek i nastao, usluzi je pristupilo 450 tisuća korisnika iz preko 130 zemalja svijeta. Oni su obradili 8 milijuna tekstova koji su tvorili korpus od blizu 2 milijarde pojavnica. Najviše korisnika usluzi je pristupilo iz Hrvatske (83%), zatim iz Bosne i Hercegovine (7%) te Njemačke (1%). Više od 40% korisnika bilo je mlađe od 34 godine, a usluzi su u 75% slučajeva pristupali sa stolnog računala, najčešće radnim danima između 9 i 15 sati.

Skrb o usluzi od samih početaka primarno počiva na idejnom začetniku, umirovljenom profesoru FER-a Šandoru Dembitzu, a u sklopu diplomskih i završnih radova na projektu povremeno u radu sudjeluju i studenti FER-a.

Sustav koji kontinuirano uči

Zahvaljujući bogatom osnovnom fondu riječi, ali i brojnim frazama specifičnima za hrvatski jezik, sustav Hašek učestale gramatičke i stilske greške kontekstno prepoznaje te po potrebi ispravlja, što ga svrstava u nekonvencionalne sustave za provjeru pravopisa. Njegova posebnost je kontinuirana nadogradnja koje se postiže putem sustava samoučenja. Iz pristiglih tekstova sustav prikuplja nove riječi i njihove oblike te sam izdvaja zanimljive elemente za nadogradnju jezičnog fonda, koji prolaze rigoroznu kontrolu radi očuvanja preciznosti rječnika.

Od početnih 100 tisuća različnica hrvatskog općejezičnog fonda, u gotovo 30 godina strogo nadziranog učenja sustav je narastao na 1,1 milijun različnica hrvatskog općejezičnog fonda te nešto više od milijun različnica hrvatskog posebnojezičnog, dominantno imenskog fonda.

Posebnu vrijednost izvedenu iz obrada predstavlja hrvatski n-gramski sustav (n = 1, ..., 7) u kojemu su pohranjeni sljedovi od n sukcesivnih riječi iz obrađivanih tekstova s potvrdom svake riječi u Hašekovu rječniku, upotpunjeno učestalošću pojedinog n-grama u ukupno obrađenome korpusu. Hašekov n-gramski sustav, mjereno pojavnicama, višestruko nadmašuje opseg svih knjiga tiskanih na hrvatskom jeziku od Gutenberga do danas, poručuju s FER-a.