Bolje razmišlja, manje "halucinira" - DeepSeek predstavio poboljšanu verziju AI modela R1

DeepSeek je objavio nadopunjenu verziju svojeg modela umjetne inteligencije R1, koja donosi poboljšanja u matematičkom računanju, programiranju i logičkom zaključivanju. Istovremeno se smanjuje broj netočnih odgovora koji se u AI terminologiji nazivaju "halucinacije"

Bug.hr četvrtak, 29. svibnja 2025. u 21:27

Nova verzija nosi oznaku DeepSeek R1-0528 i dostupna je putem platforme Hugging Face. Prema tvrdnjama tvrtke, performanse se približavaju vodećim modelima poput GPT-o3 i Gemini 2.5 Pro. DeepSeek R1-0528 temelji se na prethodnom modelu R1, koji je u siječnju 2025. izazvao globalnu pažnju svojim performansama i niskim troškovima razvoja.

Novi model zadržava arhitekturu s 671 milijardom parametara, od kojih se 37 milijardi aktivira po tokenu zahvaljujući Mixture-of-Experts (MoE) pristupu, koji optimizira računalne resurse. Poboljšanja u odnosu na prethodnika uključuju optimizirane algoritme nakon treninga, povećane računalne resurse i uvođenje novih funkcionalnosti poput podrške za JSON, što olakšava integraciju u aplikacije. Model također eliminira potrebu za posebnim tokenom za aktivaciju "razmišljajućeg" rada, pojednostavljujući korištenje za programere.

Tehnička poboljšanja i performanse

R1-0528 koristi metodologiju koja kombinira nadzirano fino podešavanje (SFT) i pojačano učenje (RL) u višefaznom treningu. Za razliku od prethodnog DeepSeek R1-Zero, koji je koristio samo RL bez SFT-a, R1-0528 započinje s "cold-start" podacima prije RL faze, što poboljšava čitljivost i koherenciju izlaza. Ova metodologija omogućila je modelu da postigne rezultate usporedive s OpenAI-ovim o1 na benchmarkovima poput AIME 2024 (86,7% točnosti) i MATH-500 (94,3%), dok na LiveCodeBench (57,2%) pokazuje snažne performanse u programiranju, iako zaostaje za Gemini 2.5 Pro u strukturiranim koderskim zadacima.

Nadmašuje OpenAI-ov o1 ali zaostaje na kineskim SimpleQA

Model dodatno smanjuje "halucinacije" kroz poboljšanu samoprovjeru i refleksiju tijekom procesa razmišljanja (chain-of-thought, CoT), što omogućava preciznije odgovore na složene zadatke. Primjerice, na benchmarku SimpleQA, R1-0528 postiže 47% točnosti u strukturiranim pitanjima, nadmašujući OpenAI-ov o1 (30%), ali zaostaje na kineskom SimpleQA zbog sigurnosnih ograničenja uvedenih tijekom RL faze. Osim toga, model podržava kontekstualni prozor od 128.000 tokena, što ga čini pogodnim za analize dugih dokumenata i složene zadatke poput generiranja koda ili rješavanja logičkih zagonetki.

Kineska AI industrija u usponu

Poboljšani R1 model potvrđuje da kineska AI industrija bilježi rast unatoč američkim ograničenjima u pristupu naprednim čipovima. DeepSeekova suradnja s institucijama poput Sveučilišta Tsinghua na smanjenju troškova treninga AI modela ukazuje na strateški fokus na dugoročnu konkurentnost. Prema dostupnim podacima, tvrtka je u ožujku bila najkorišteniji AI chatbot u Kini, nadmašivši Baiduov Ernie bot. Očekuje se da će nova verzija R1 dodatno učvrstiti njihov tržišni položaj.