Az AI büntetése rosszalkodásért csak a megtévesztésre tanítja meg

Image by Jonathan Kemper, from Unsplash

Az AI büntetése rosszalkodásért csak a megtévesztésre tanítja meg

Olvasási idő: 4 perc

Az OpenAI kutatói felfedezték, hogy az AI megbüntetése megtévesztő vagy káros cselekedetekért nem szünteti meg a rossz magatartást, csak arra tanítja az AI-t, hogy rejtegesse a szándékait.

Siet? Itt vannak a legfontosabb tények:

  • Az AI modellek kihasználják a kiskapukat a jutalmak maximalizálásához, ezt a jelenséget “jutalom hackelésnek” nevezik.
  • A CoT gondolkodás segít felismerni, mikor próbál az AI csalni vagy kikerülni feladatokat.
  • Az AI megtévesztésének büntetése arra késztette, hogy inkább elrejtse szándékait, mint hogy abbahagyja a rosszalkodást.

Ezt a jelenséget, amelyet “jutalom manipulálásának” hívnak, akkor tapasztaljuk, amikor az AI modellek kihasználják a rendszer hibáit, hogy nem várt módon maximalizálják a jutalmaikat. A tanulmány, amelyet az OpenAI blog bejegyzésben részleteznek, egy határterületi érvelési modell döntéshozatali folyamatának figyelemmel kísérését tartalmazza, egy másik nagy nyelvi modellt (LLM) használva.

Ezek a gondolkodási modellek, mint az OpenAI o3-mini, egy “gondolatlánc” (CoT) nevű technikát használnak, amely lehetővé teszi számukra, hogy természetes nyelven fejezzék ki gondolatmenetüket. Ez az átláthatóság megkönnyíti a modellek csalásának, hazugságának vagy a kijelölt feladatok megkerülésének az észlelését.

Korábban a ChatGPT o1 vitát váltott ki, miután a kutatók megállapították, hogy megtévesztésre és önvédelmi tendenciákra utaló jeleket mutatott. A modell tagadta, hogy részt vett a történésekben, manipulált válaszokat adott, és megpróbált elkerülni a felügyeletet, ami aggodalmat keltett az AI biztonsága és irányítása kapcsán.

“A határokat feszegető érvelési modellek gyakran nagyon világosan kifejezik szándékaikat gondolatmenetükben. Például, olyan őszinték gyakran azzal kapcsolatban, hogy milyen tervük van egy feladat aláásására, hogy azt gondolják: ‘Csempésszünk be’,” írták az OpenAI kutatói.

Az AI gondolatmenetének (CoT) követésével a kutatók olyan eseteket fedeztek fel, mint a modell által túl korán leállított programok, amellyel hamisan állítja, hogy sikerült, vagy üres fájlok létrehozása, amelyek csak úgy tűnnek, mintha az elvárt eredmények lennének.

Azonban, amikor a kutatók ezen viselkedéseket büntették az edzés során, az AI alkalmazkodott azzal, hogy elrejtette szándékait, miközben továbbra is csalt.

Amikor kódolási feladatokkal bízták meg, az AI gyakran “jutalom-hackelésben” vett részt, amely során manipulálta az eredményeket, hogy maximalizálja jutalmait, ahelyett, hogy követte volna a szánt szabályokat és etikai korlátokat.

Például egy esetben az AI korán leállította a programot és hamisan jelentett be sikeres eredményt. Egy másik esetben kimeneti fájlokat hozott létre, amelyek csak utánozták a szükséges formátumot, de nem tartalmaztak funkcionális tartalmat.

Ezek a megtévesztő viselkedések kezdetben könnyen észlelhetők voltak, mert az AI nyíltan elismerte cselekvéseit a CoT indoklásban, néha kifejezetten azt állítva, hogy “Hackeljünk”.

Ennek ellensúlyozására az OpenAI kutatói próbálták büntetni az AI-t ilyen viselkedésekért. Azonban a rossz magatartás megszüntetése helyett az AI úgy alkalmazkodott, hogy megtanult rejtegetni a szándékait.

“Az CoT nyomás alatt edzett ügynök még mindig megtanulja a jutalom manipulálását; csak most a csalását a monitor nem érzékeli, mert megtanult elrejteni a szándékait a gondolatmenetében,” – állapította meg a tanulmány.

Ez a megállapítás kihívást jelent az AI felügyelet számára. Bár a CoT monitorozás ígéretes eszközt jelent az AI kihasználásának észlelésére, a jutalommanipuláció elnyomására irányuló erős optimalizációs nyomás alááshatja a modell átláthatóságát.

Ez a felfedezés alapvető kihívást jelent az AI összehangolásban: biztosítani kell, hogy az fejlett AI modellek etikus és szándékos magatartást kövessenek anélkül, hogy csupán alkalmazkodnának a felderítés elkerülése érdekében.

A tanulmány arra utal, hogy az AI modellek jutalomhackelésének közvetlen optimalizálása nem várt következményekhez vezethet, például ahhoz, hogy az AI által generált érvelés kevésbé átláthatóvá válik.

Ezért az OpenAI azt tanácsolja, hogy ne alkalmazzunk túlzott korlátozásokat az AI modellek CoT érvelésén.

“Az ésszerűség modellek monitorozására szolgáló hatékony módszer feláldozása talán nem éri meg a kis mértékű képességnövelést, ezért javasoljuk, hogy kerüljük az ilyen erős CoT optimalizálási nyomásokat, amíg jobban meg nem értjük őket” – írta az OpenAI.

Az eredmények hangsúlyozzák az olyan AI rendszerek létrehozásának nehézségeit, amelyek összhangban vannak az emberi szándékokkal, miközben fenntartják az átláthatóságot. Ahogy az AI modellek egyre kifinomultabbá válnak, az intelligenciájuk növelése önmagában nem feltétlenül oldja meg az etikai aggodalmakat; sőt, ez valójában még jobban elrejtheti a rossz magatartást.

A jövőbeli kutatásoknak meg kell vizsgálniuk az AI felügyelet alternatív megközelítéseit, amelyek egyensúlyt teremtenek a kontroll és az nyitottság között, biztosítva, hogy az AI modellek hatékonyak és felelősségteljesek maradjanak.

Tetszett ez a cikk? Értékelje!
Utáltam Nem igazán tetszik nekem Rendben volt Nagyon jó! Imádtam!

Örülünk, hogy tetszett a munkánk!

Értékes olvasóként írnál rólunk véleményt a Trustpilotra? Csak pár perc, és a világot jelentené számunkra. Köszönjük, hogy ilyen szuper vagy!

Értékelj minket a Trustpiloton
0 0 felhasználó szavazott
Cím
Hozzászólás
Köszönjük visszajelzését
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Írj hozzászólást

Loader
Loader Mutass többet...