Ljudski glas ili 'deepfake'? Većina više ne čuje razliku
Bilo je samo pitanje vremena kad će tehnologija umjetne inteligencije početi proizvoditi naturalistički govor koji zvuči ljudski
Glasovi stovreni uz pomoć umjetne inteligencije danas su toliko uvjerljivi da ih većina ljudi više ne može razlikovati od stvarnih ljudskih glasova. Novo istraživanje londonskog Sveučilišta Queen Mary, objavljena u časopisu PLOS One, pokazuju da deepfake glasovi, klonirani na bazi stvarnih ljudi, zvuče gotovo identično kao stvarni ljudski glasovi.

Sudionicima studije pušteno je 80 uzoraka glasa, od čega 40 stvarnih i 40 AI-generiranih, a oni nisu mogli pouzdano razlikovati prave od umjetnih. Glasovi generirani od nule pritom su bili nešto lakše prepoznatljivi, ali klonirani glasovi gotovo se uopće nisu razlikovali od originala; razlike su bile toliko male da spadaju u kategoriju statističke pogreške.
Realistični, ali ne i hiperrealistični
Istraživači naglašavaju da glasovni klonovi korišteni u studiji nisu bili osobito sofisticirani. Napravljeni su komercijalno dostupnim softverom i obučeni su sa četiri minute snimaka ljudskog govora. ”Proces je zahtijevao minimalno stručno znanje, samo nekoliko minuta glasovnih snimaka i gotovo nikakav novac. To samo pokazuje koliko je AI glasovna tehnologija postala dostupna i sofisticirana“, objašnjavaju istraživači.

Istraživanje je također pokazalo da su AI-generirani glasovi često percipirani kao dominantniji, a ponekad i pouzdaniji nego ljudski glasovi, što otvara brojna etička i sigurnosna pitanja. Međutim, studija nije pronašla "hiperrealistički" efekt – glasovi nisu bili percipirani kao "čudniji" ili "previše savršeni" u odnosu na stvarne glasove, što je čest slučaj kod vizualnih deepfakeova.