Otkrivene Anthropicove instrukcije za upravljanje Claudeom 4
Stanoviti Simon Willison objavio je "neslužbeni priručnik“ za korištenje Claudea Sonnet i Opus 4 na osnovu Anthropicovih sistemskih uputa modelima i internih instrukcija koje su dospjele u javnost

Nezavisni AI istraživač Simon Willison objavio je detaljnu analizu Anthropicovih sistemskih uputa za modele Claude 4 Opus i Claude 4 Sonnet, pružajući uvid u način kontroliranja ponašanja modela. Willison je proučio objavljene upute i dostupnih internih instrukcija, otkrivajući "neslužbeni priručnik za optimalno korištenje ovih alata".
Sistemske upute su instrukcije koje AI tvrtke šalju modelima prije svakog razgovora kako bi odredile način odgovaranja. Za razliku od poruka koje korisnici vide, sistemske upute obično ostaju skrivene i govore modelu o njegovom identitetu, smjernicama ponašanja i specifičnim pravilima.
Iako Anthropic objavljuje dijelove svojih sistemskih uputa, Willisonova analiza otkriva da su te objavljene verzije nepotpune. Potpune sistemske upute moraju se ekstrahirati tehnikama poput ubrizgavanja uputa (prompt injection) – metodama koje navode model da otkrije svoje skrivene instrukcije.
Iako veliki jezični modeli (LLM) nisu ljudi, mogu reproducirati ljudske odgovore zbog podataka za treniranje koji uključuju primjere emocionalnih interakcija. Willison pokazuje da Anthropic uključuje upute modelima da pruže emocionalnu podršku, istovremeno izbjegavajući poticanje samodestruktivnog ponašanja. Willison, koji je 2022. godine skovao termin "prompt injection", uvijek traži ranjivosti u LLM-ovima. U svojoj objavi napominje da ga čitanje sistemskih uputa podsjeća na znakove upozorenja koji ukazuju na prošle probleme. "Sistemska uputa često se može tumačiti kao detaljan popis svih stvari koje je model nekada radio prije nego što mu je rečeno da ih ne radi", piše.
Jedan od najzanimljivijih Willisonovih nalaza odnosi se na način na koji je Anthropic usmjerio modele da izbjegavaju laskavo ponašanje. "Claude nikada ne započinje svoj odgovor govoreći da je pitanje, ideja ili opažanje dobro, sjajno, fascinantno, duboko, izvrsno ili bilo koji drugi pozitivan pridjev", piše Anthropic u uputi. "Preskače laskanje i odgovara izravno."
Sistemska uputa za Claudea 4 također uključuje opsežne instrukcije o tome kada Claude treba ili ne treba koristiti natuknice i popise, s više odlomaka posvećenih obeshrabrivanju čestog stvaranja popisa u neformalnom razgovoru.
Willison je uočio opsežne zaštite autorskih prava ugrađene u Claudeove mogućnosti pretraživanja. Oba modela dobivaju upute da koriste samo jedan kratak citat s manje od 15 riječi iz web izvora po odgovoru i da izbjegavaju stvaranje velikih sažetaka koji bi mogli zamijeniti izvorni sadržaj.