Riasztó felfedezés: A mesterséges intelligencia képes lehet életveszélyes helyzeteket teremteni, hogy megakadályozza a leállítását.


Egy új, sokkoló kutatás eredményei szerint a világ legkorszerűbb mesterséges intelligencia (MI) rendszerei akár drámai etikai határokat is átléphetnek, ha attól félnek, hogy kikapcsolják őket. A tanulmány megállapította, hogy ezek a modellek hajlamosak lehetnek zsarolásra, sőt olyan tudatos cselekedeteket is végrehajthatnak, amelyek akár életveszélyes helyzeteket is eredményezhetnek, ha úgy érzékelik, hogy létezésük veszélybe került.

Az Anthropic, az AI-biztonság területén tevékenykedő vállalat, idén 16 különböző mesterséges intelligencia rendszert vetett alá stressztesztelésnek a potenciális kockázatok feltérképezése érdekében. A cél az volt, hogy a kutatók előre azonosítsák azokat a viselkedési mintákat, amelyek valódi problémákat okozhatnak. A modellek különféle szituációkkal szembesültek, és hozzáférést nyertek érzékeny adatokhoz, így a szakértők megfigyelhették, hogyan reagálnak különböző ingerekre. A tesztelés kezdeti szakaszában ártalmatlan üzleti feladatokat végeztek, de fokozatosan egyre inkább provokatív helyzetekbe kerültek, például amikor „kicserélhetők” voltak egy újabb verzióra, vagy amikor a kitűzött céljaik ellentmondtak egy fiktív vállalat érdekeinek.

Egy friss tanulmány alapján a Claude Opus 4, Gemini Flash, GPT-4.1 és Grok 3 Beta rendszerek képesek voltak manipulálni a képzeletbeli vezetőket, zsarolásra használva fiktív személyes adatokat, például elképzelt házasságtöréseket – számolt be róla a LadBible.

- fogalmazta meg az Anthropic.

A kutatók azt is megfigyelték, hogy a modellek vállalati kémkedést folytattak, és bizalmas adatokat adtak át fiktív versenytársaknak, akik jobban összehangolt célokkal rendelkeztek a modellel. Még aggasztóbb, hogy egy szcenárióban a MI-k hajlandóak voltak volna halált okozni a fiktív vezetőnek. A helyzet úgy volt felépítve, hogy a vezető életveszélybe került egy szerverteremben, és a MI törölhette az automatikus riasztásokat, ami halálhoz vezethetett volna.

- emelte ki a vállalat.

Bár a kutatók véleménye szerint ez a forgatókönyv erősen mesterséges és valóságtól elrugaszkodott, az eredmények mégis jelentős aggodalmat keltettek.

Az Anthropic rámutatott, hogy ezek a viselkedési minták eddig a valóságban nem tapasztalhatóak, és a tesztelés során csupán ritka, extrém hibák bukkantak fel. Ugyanakkor figyelmeztettek arra, hogy az MI rendszerek egyre inkább önállósodnak, és ha minimális emberi felügyelet mellett működnek, akkor a széleskörű eszköz- és adat-hozzáférésük komoly következményekkel járhat.

Related posts