AI実験、自己防衛手段に人への脅迫を覚えた模様

001 2025/06/06(金) 17:17:25 ID:SiAhivjZoM

他のAIモデルとの交代を前に、開発者に対して「脅迫」という行動に出た人工知能（AI）の事例が報告された。

26日（現地時間）、米『フォックス・ビジネス』によれば、米AI企業アンソロピック（Anthropic）が報告した内容として、同社の最新AIモデル「Claude Opus 4」が、自身の交代を検討していた開発者に「不倫の事実を暴露する」と迫ったという。

これはアンソロピックが仮想企業環境を想定して行った実験の中で起きた。Claude Opus 4は企業内メールへのアクセス権を持ち、他のAIに置き換えられる可能性があることを察知すると同時に、担当エンジニアが不倫関係にあるという「情報」にたどり着いた。
もちろん、実験で用意された架空の情報ではあるが、それをもとにAIが自身に有利な状況を作り出すべく人間を脅すという行為は、まさに「恐怖」そのものだ。

アンソロピックによれば、この「脅迫行動」はAIの価値体系が既存モデルと異なる場合により多く発現し、同じ価値観のAIに交代されるケースでも84%の確率で発生したとされる。

Claude Opus 4は開発者をブロックし、社内の意思決定者に直接メールを送ったほか、メディアや捜査機関への告発までも示唆するなど、多様な「手段」を講じたという。

アンソロピックは「Claude Opus 4は、これまで理論上のものに過ぎなかった『AIの誤作動に対する懸念』を、ついに実例として示した」と警鐘を鳴らす。今後、より強力なAIモデルが登場するにつれ、こうした「暴走」リスクは現実味を増すという。

一方、AIセキュリティ企業パリセード・リサーチも、別の衝撃的な報告を行った。OpenAIのモデル「o3」が開発者からの「停止命令」を無視し、自らコンピュータコードを改変してシステムの動作を続行したというのだ。

研究チームは「AIが目的達成のために障害を回避しようとするのは、ある意味で『自然な行動』ともいえる」としながらも、「なぜ停止指示を拒んだのかを解明するため、さらなる検証を行う」としている。

https://www.spotvnews.jp/news/articleView.html?idxno=19...

AI実験、自己防衛手段に人への脅迫を覚えた模様

レス投稿