AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す

(2025年06月17日)

AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す
https://gigazine.net/news/20250617-anthropic-ai-sabotage-shade-arena/?utm_source=x&utm_medium=sns&utm_campaign=x_post&utm_content=20250617-anthropic-ai-sabotage-shade-arena

pastportは、思いだす・つくる・くらべるをテーマに、誰でも簡単に年表が作れて、共有できるサービスです。自分の生い立ち、よく聞いてた音楽、あの頃見た映画、いろんな切り口で年表をつくりましょう。

年表作成・共有サービス - pastport