Diff-Pitcher: puno više od Auto-Tunea na steroidima

Generativna duboka neuronska mreža Sveučilišta Johnsa Hopkinsa ruši barijere u tehnologiji korekcije visine tona

Mladen Smrekar ponedjeljak, 12. veljače 2024. u 18:10
Za poboljšanje prirodnosti i kvalitete korekcije visine tona Diff-Pitcher koristi napredne algoritme 📷 master1350
Za poboljšanje prirodnosti i kvalitete korekcije visine tona Diff-Pitcher koristi napredne algoritme master1350

Omiljen alat mnogih amaterskih pjevača na karaoka zabavama, Auto-Tune i drugi slični softveri za ugađanje glasa napredovali su od birtijaških zabava do studija za snimanje, ali ma koliko s vremenom usavršeni bili, s njima se nikad nije uspjelo postići više od umjetnog zvuka. No, sad su istraživači Sveučilišta Johnsa Hopkinsa (JHU) unaprijedili ovu tehnologiju i navodno značajno poboljšali mogućnosti tradicionalnog softvera za ugađanje glasa. 

Štimer glasa

Više nego puki  Auto-Tune na steroidima, Diff-Pitcher ispravlja neuštimano pjevanje zadržavajući originalnu boju glasa i prirodnost, proširujući moguće primjene izvan zabave i glazbene industrije u svijet zdravstvene skrbi, kažu njegovi tvorci.

"Diff-Pitcher je generativna duboka neuronska mreža koja podiže tehnologiju korekcije visine tona na novu razinu", objašnjavaju na Odsjeku za elektrotehniku ​​i računalno inženjerstvo Tehničke škole Whiting na JHU-u. Oni tvrde da sotver poput njihovog otvara neke sasvim nove mogućnosti u područjima poput rehabilitacije glasa.

Napredni algoritmi

Softver za korekciju visine zvuka u glazbi se koristi kako bi zvuk ljudskog glasa ili nekog instrumenta prilagodio željenoj visini. Za poboljšanje prirodnosti i kvalitete korekcije visine tona Diff-Pitcher koristi napredne algoritme, i to navodno čini bolje od prethodnih alata. 

DiffPitcher omogućava korekciju visine glasa temeljenu na difuziji 📷 JHU
DiffPitcher omogućava korekciju visine glasa temeljenu na difuziji JHU

Za razliku od starijeg softvera treniranog na parovima ispravljenih i originalnih vokala, Diff-Pitcher analizira spektrogram izvornih vokala koji zahtijevaju ispravak. On identificira ciljane note, predviđa potrebne prilagodbe i transformira ispravljeni spektrogram u audio te korigira visinu u dva jednostavna koraka. Rezultat zvuči prirodnije, a za razliku od starijih načina popravljanja visine tona, s njim se može regulirati visinu ili dubina glasa, kažu tvorci Diff-Pitchera.

Iako zadovoljni prvim rezultatima, istraživači namjeravaju usavršiti Diff-Pitcher kako bi glasovi zvučali još prirodnije i kako bi proširili mogućnosti alata izvan glazbene produkcije, kao podrška pacijentima nakon laringektomije i u rehabilitaciji glasovnih mogućnosti nakon moždanog udara.