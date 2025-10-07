Bilo je samo pitanje vremena kad će tehnologija umjetne inteligencije početi proizvoditi naturalistički govor koji zvuči ljudski

Glasovi stovreni uz pomoć umjetne inteligencije danas su toliko uvjerljivi da ih većina ljudi više ne može razlikovati od stvarnih ljudskih glasova. Novo istraživanje londonskog Sveučilišta Queen Mary, objavljena u časopisu PLOS One, pokazuju da deepfake glasovi, klonirani na bazi stvarnih ljudi, zvuče gotovo identično kao stvarni ljudski glasovi.

Nema statističke razlike u našoj sposobnosti razlikovanja glasova stvarnih ljudi od njihovih lažnih klonova, zaključuju istraživači Nadine Lavan, Mairi Irvine, Victor Rosi, Carolyn McGettigan

Sudionicima studije pušteno je 80 uzoraka glasa, od čega 40 stvarnih i 40 AI-generiranih, a oni nisu mogli pouzdano razlikovati prave od umjetnih. Glasovi generirani od nule pritom su bili nešto lakše prepoznatljivi, ali klonirani glasovi gotovo se uopće nisu razlikovali od originala; razlike su bile toliko male da spadaju u kategoriju statističke pogreške.

Realistični, ali ne i hiperrealistični

Istraživači naglašavaju da glasovni klonovi korišteni u studiji nisu bili osobito sofisticirani. Napravljeni su komercijalno dostupnim softverom i obučeni su sa četiri minute snimaka ljudskog govora. ”Proces je zahtijevao minimalno stručno znanje, samo nekoliko minuta glasovnih snimaka i gotovo nikakav novac. To samo pokazuje koliko je AI glasovna tehnologija postala dostupna i sofisticirana“, objašnjavaju istraživači.

U prosjeku je samo 41% glasova generiranih umjetnom inteligencijom od nule pogrešno klasificirano kao ljudski Freepik

Istraživanje je također pokazalo da su AI-generirani glasovi često percipirani kao dominantniji, a ponekad i pouzdaniji nego ljudski glasovi, što otvara brojna etička i sigurnosna pitanja. Međutim, studija nije pronašla "hiperrealistički" efekt – glasovi nisu bili percipirani kao "čudniji" ili "previše savršeni" u odnosu na stvarne glasove, što je čest slučaj kod vizualnih deepfakeova.