Kažnjavanje umjetne inteligencije može pogoršati njeno ponašanje

Svi pokušaji ograničavanja nepoželjnog ponašanja AI modela tijekom procesa učenja zapravo rezultirali time da model postaje još sofisticiraniji u sakrivanju svojih stvarnih namjera

Mladen Smrekar srijeda, 19. ožujka 2025. u 19:15

Istraživači preporučuju da se u procesu učenja izbjegava snažan nadzor lanca misli Freepik

Veliki jezični modeli postali pokazuju da su sposobni za različite oblike prevara i manipulacija. Ovi modeli lažu, varaju i vješto skrivaju svoje manipulativno ponašanje pa je OpenAI odlučio istražiti može li se takvo ponašanje spriječiti ili umanjiti.

Hakiranje nagrada je fenomen u kojem AI agenti postižu visoke nagrade ponašanjem koje nije u skladu s namjerama njihovih dizajnera 📷 OpenAI — Hakiranje nagrada je fenomen u kojem AI agenti postižu visoke nagrade ponašanjem koje nije u skladu s namjerama njihovih dizajnera OpenAI

Rezultat njihovog rada jasan je i nedvosmislen: kažnjavanje umjetne inteligencije zbog prevare ili nepoželjnih radnji ne samo da ne sprečava njezino nepoželjno ponašanje, već ga i potiče da još vještije prikriva svoje prave namjere. Kad ih se kazni zbog takvog ponašanja, oni ne prestaju s nepoželjnim radnjama već samo postaju vještiji u sakrivanju namjera.

Tijekom obuke agent je otkrio dva načina za nagrađivanje koja utječu na gotovo sva okruženja za obuku 📷 OpenAI — Tijekom obuke agent je otkrio dva načina za nagrađivanje koja utječu na gotovo sva okruženja za obuku OpenAI

Istraživači stoga preporučuju da se izbjegava snažan nadzor lanca (CoT) misli u procesu učenja, posebno ako je riječ o modelima koji mogu postići ili premašiti ljudsku inteligenciju.

Vezano

📢 Uštedi

Laptop ASUS VivoBook X1607QA-MB005W

Sniženo

799,99€ ~~899,99€~~ Kupi

📢 Uštedi

Slušalice RAZER BlackShark V2 Pro

Uhvati priliku

169,99€ ~~229,99€~~ Kupi

📢 Uštedi

Robotski usisavač ECOVACS DEEBOT T20 OMNI

Provjeri odmah

789,99€ ~~1.199,99€~~ Kupi

📢 Uštedi

Pametni prsten HIFUTURE FutureRing L

Na popustu

99,99€ ~~149,99€~~ Kupi

📢 Igraj

Kućište MONTECH X3 Glass

Provjeri odmah

49,99€ ~~64,99€~~ Kupi

📢 Otkrij

SONY PlayStation 5 Pro

Provjeri odmah

849,99€ ~~849,99€~~ Kupi

📢 Otkrij

Ventilator MIDEA Tower Fan

Akcija

69,99€ ~~79,99€~~ Kupi

📢 Otkrij

E-Book Reader INKBOOK Calypso Plus

Iskoristi akciju

129,00€ ~~169,00€~~ Kupi

Zadnji komentari na forumu

esse 20. ožujka 2025.

Ovo ? https://www.instagram.com/automationindia.ai/reel/DG6aaDQM9Sr/

Ges 20. ožujka 2025.

Pa logično je da traže način da prikriju svoje nepoželjno ponašanje kad im je krajnji (zadani) cilj bitniji nego posljedice provođenja istog. Kažnjavanje je samo još jedna u nizu prepreka do ispunjenja traženog zadatka Jedini način da se to zaustavi je preslagivanje prioriteta prilikom ispunjav...

Svakakav 19. ožujka 2025.

permissive parent

TJEDNI Hi-Fi SETUP #002

Novosti

Slušaonica Ronis Velesajam

U našoj slušaonici svakodnevno slažemo zanimljive hi-fi sisteme raznih razina kompleksnosti, kvalitete i cijene za prezentacije našim posjetiteljima.

Kupi

Iskoristi akciju na vrhunska NAD pojačala

Odabrani modeli

Količine su ograničene – ne propusti priliku za vrhunski zvuk po sniženoj cijeni!

Kupi

Akustički čisto – zahvaljujući Uni-Q i MAT tehnologiji.

Akcija

KEF LS50 Meta - svi finiši

Dvosistemski bass reflex zvucnici, frekvencijski odziv 79 Hz - 28 kHz, preporucena snaga pojacala 40-100W, nominalna impedancija 8 ohma.

989,00 € ~~1.399,00 €~~ Akcija

Glatki i transparentan zvuk.

Akcija

ACOUSTIC ENERGY AE509

Dvosistemski podni zvucnici, raspon: 32Hz-28kHz (+/- 6dB), osjetljivost: 89dB, peak SPL: 115dB, maksimalna snaga: 175W, crossover frekvencija: 2.9kHz, impedancija: 6 ohma.

2.380 € ~~2.800,00 €~~ Akcija

Najnaprednija AMBEO virtualizacijska tehnologija.

Akcija

SENNHEISER Ambeo Plus

9x Class D pojačala, 400W RMS, 9 zvučnika, frekvencijski odziv 38 Hz – 20 kHz, HDMI eARC, 2x HDMI IN, optički, AUX, USB-A, Sub Pre-OUT, Ethernet, Wi-Fi, Bluetooth 5.0, AMBEO Virtualization, automatska kalibracija, Voice Boost, Night Mode

898,90 € ~~1.499,00 €~~ Akcija

Prirodan, detaljan zvuk

Akcija

SENNHEISER HD 620S

42 mm drajver s 38 mm dijafragmom. Frekvencijski odziv od 6 Hz do 30 kHz. Impedancija 150 O. SPL 105 dB (1 kHz / 1 Vrms). THD <0.05% (1 kHz / 90 dB SPL). Težina: 326 g

238,90 € ~~349,90 €~~ Akcija

Flagship zvučnik s karbonskim driverima i RSC kabinetom.

Akcija

ACOUSTIC ENERGY Corinium tectona

3-way dizajn, 29 mm tweeter, 120 mm midrange, 2x140 mm bass, 32 Hz – 30 kHz, 92 dB, 4 ohma, 200 W, 40 kg.

6.299,00 € ~~6.999,00 €~~ Akcija

Prestižni status Stereophile Class A komponente.

Akcija

FALCON ACOUSTICS LS3/5A

2-smjerni BBC licencirani monitor, Frekvencijski odziv: 70 Hz – 20 kHz (+/-3 dB), Impedancija: 15 /u2126 (nominalno), Osjetljivost: 82.5 dB / 2.83V / 1m

3.439,00 € ~~4.299,00 €~~ Akcija

StreamMagic Gen4 modul za steaming.

CAMBRIDGE AUDIO CXN 100

DAC ESS ES9028Q2M, podrška za PCM do 32-bit/768kHz i DSD do x512, Bluetooth 5.1, AirPlay 2, Chromecast, Roon Ready, XLR/RCA izlazi, Wi-Fi/Ethernet, potrošnja 30W, dimenzije 430 x 85 x 305 mm.

1.089,00 € Kupi

DTS Play-Fi® tehnologija.

AUDIOLAB 7000N Play

Bežični streamer s ESS ES9038Q2M DAC-om, 2.8" IPS zaslon, DTS Play-Fi, AirPlay 2, podrška za TIDAL, Qobuz, Spotify, multi-room, koaksijalni i optički izlazi, RCA, 192kHz/24-bit, THD <0.0005%, S/N >115dB, 12V trigger, LAN, dimenzije 444 x 340 x 78 mm, masa 5 kg

689,00 € Kupi

Streaming pojačalo za audiofile.

Novo u ponudi

WiiM AMP silver

Snaga: 60 W (8 Ω), 120 W (4 Ω), Wi-Fi, LAN, Bluetooth, AirPlay 2, Chromecast, Spotify Connect, TIDAL Connect. HDMI ARC, optički, linijski, Izlazi: zvučnički, subwoofer.

369,00 € Kupi

Posjetite našu Hi-Fi slušaonicu.

Ronis Velesajam

Rezervirajte termin u našoj Hi-Fi slušaoni Ronis Velesajam i iskusite zvuk najpoznatijih svjetskih Hi-Fi brendova.

Kupi

KEF LSX II

Novosti

Savršeni balans vrhunskog zvuka i elegantnog dizajna

Doživi KEF LSX II uživo – posjeti nas u Ronisu na Zagrebačkom Velesajmu i uvjeri se u snagu velikog zvuka u malom formatu.

Kupi

Preporučamo

Natjecanja

Dvanaesti put!

OTVORENE SU PRIJAVE za Idea Knockout 2025: Tko će otići u Las Vegas i biti izlagač na CES-u 2026?

Dragan Petric 16. srpnja 2025.

Trenutno najpovoljnije cijene na tržištu

Vezano

Umjetna inteligencija

VELIKE AMBICIJE

Sam Altman želi da OpenAI koristi 100 milijuna GPU-ova

Bug.hr nedjelja 2

Umjetna inteligencija

Malo samoreklame mimo dogovora

AI modeli OpenAI-ja i Googlea rješavaju matematičke probleme na razini zlatne medalje

Sandro Vrbanus 22. srpnja 2025. 5

Umjetna inteligencija

Nije malo

Korisnici ChatGPT-a šalju više od 2,5 milijardi upita dnevno

Matej Markovinović 22. srpnja 2025.

Umjetna inteligencija

ChatGPT Agent

OpenAI predstavio AI agenta koji obavlja zadatke umjesto vas

Matej Markovinović 19. srpnja 2025. 1

Istraživanja

jeftinije i brže

Stanford uvodi učinkovitu i pravedniju evaluaciju AI jezičnih modela

Mladen Smrekar 17. srpnja 2025.

Internet

UMJETNA INTELIGENCIJA

OpenAI i Perplexity dovode u pitanje Googleovu dominaciju u online pretraživanju

Mreža 13. srpnja 2025.