AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す
(2025年06月17日)AIの「攻撃的なタスクをこっそり実行する能力」を測定する仕組みをAnthropicが開発、悪意あるAIモデルによる妨害工作を未然に防ぐことを目指す
https://gigazine.net/news/20250617-anthropic-ai-sabotage-shade-arena/?utm_source=x&utm_medium=sns&utm_campaign=x_post&utm_content=20250617-anthropic-ai-sabotage-shade-arena
- このできごとのURL:

コメント