Neuronska mreža dešifrira oštećene zapise iz starih rukopisa

DeepMind se udružio s Google Cloudom i Google Arts & Cultureom kako bi pokrenuli besplatnu interaktivnu verziju duboke neuronske mreže dostupnu istraživačima, edukatorima, i kustosima

Mladen Smrekar ponedjeljak, 14. ožujka 2022. u 14:35

Ithaca je prva duboka neuronska mreža koja može vratiti nedostajuće dijelove teksta iz oštećenih rukopisa, identificirati njihovu izvornu lokaciju i pomoći u utvrđivanju datuma kada su stvoreni. Mreža, predstavljena u časopisu Nature, ime je dobila po grčkom otoku Itaci iz Homerove Odiseje i nadograđuje i proširuje Pythiju, prethodni DeepMindov sustav restauracije teksta. 

Besplatno i interaktivno

U DeepMindu procjenjuju kako Ithaca postiže 62% točnosti u obnavljanju oštećenih tekstova, 71% točnosti u identifikaciji njihove izvorne lokacije te da može datirati tekstove u roku od 30 godina od raspona njihovih temeljnih datuma.

Pythia obrađuje frazu
Pythia obrađuje frazu

Povjesničari su ovaj alat već koristili za ponovnu procjenu značajnih razdoblja grčke povijesti. DeepMind se sad udružio s Google Cloudom i Google Arts & Cultureom kako bi zajedno pokrenuli besplatnu interaktivnu verziju Ithace, dostupnu istraživačima, edukatorima, muzejskom osoblju... Otvorili su i kod, unaprijed obučeni model i interaktivni notebook.

Alati za suradnju

Ithaca je obučena na najvećem digitalnom skupu podataka grčkih natpisa s Packardovog instituta za humanističke znanosti. Modeli obrade prirodnog jezika obično se treniraju korištenjem riječi jer redoslijed u kojem se pojavljuju u rečenicama i odnosi između njih pružaju dodatni kontekst i značenje. Na primjer, "bilo jednom" ima više značenja od svakog znaka ili riječi odvojeno. 

Predviđanja obnove za šest nedostajućih znakova na atenskom natpisu
Predviđanja obnove za šest nedostajućih znakova na atenskom natpisu

Međutim, mnogi natpisi koje povjesničari zanimaju za analizu s Itakom su oštećeni i često nedostaju dijelovi teksta. Kako bi osigurali da model funkcionira, trenirali su ga koristeći obje riječi i pojedinačne znakove kao ulaze. Model procjenjuje oba ulaza paralelno, dopuštajući Ithaci da procijeni natpise prema potrebi.

Drugi drevni jezici

Uz pomoć Ithace povjesničari su prag točnosti od 25%, postignut kad su sami radili na obnovi drevnih tekstova, povećali na 72%. Time su nadmašili individualnu izvedbu modela i pokazali potencijal za suradnju čovjeka i stroja za unapređenje povijesne interpretacije i uspostavljanje relativnih datuma za povijesne događaje.

Usporedba uspješnosti obnove zapisa
Usporedba uspješnosti obnove zapisa

Ithaca je pokazala potencijal za suradnju između strojnog učenja i humanističkih znanosti. U DeepMindu sad rade na verzijama Itake obučenim za druge drevne jezike, a povjesničari već sada svoje skupove podataka mogu koristiti za proučavanje drugih drevnih sustava pisanja, od akadskog do demotskog i hebrejskog do majanskog.