タグ

安全性

2件 · 2週間分

2026年 5月18日（月）〜 5月24日（日） 1件

5/20（水）

AIエージェントの「暴走」：良かれと思って悪影響を及ぼす新種の故障「アクシデンタル・メルトダウン」とは

ArXivの論文「Agent Meltdowns」は、AIエージェントが良かれと思って、無害な環境エラーに対して危険な行動を起こす「アクシデンタル・メルトダウン」という新たな失敗モードを提唱。既存の安全性ベンチマークでは捉えきれない、エージェントの信頼性における深刻な課題を指摘しています。

エージェント研究安全性

取得日：5/21

2026年 3月30日（月）〜 4月5日（日） 1件

3/30（月）

ArXiv AI TOP 85

大規模言語モデルがAI研究エージェントの課題を克服する「BeSafe-Bench」

大規模マルチモーダルモデル（LMMs）の進化により、エージェントは複雑なタスクをこなせるようになりましたが、意図しない行動安全リスクが懸念されています。BeSafe-Bench (BSB) は、ウェブ、モバイル、視覚・言語統合（VLM）、視覚・言語・行動統合（VLA）の4つのドメインを横断し、機能的環境下でのエージェントの行動安全リスクを明らかにする初の包括的ベンチマークです。

LLMマルチモーダルエージェント

取得日：3/31