タグ
1件 · 1週間分
大規模マルチモーダルモデル(LMMs)の進化により、エージェントは複雑なタスクをこなせるようになりましたが、意図しない行動安全リスクが懸念されています。BeSafe-Bench (BSB) は、ウェブ、モバイル、視覚・言語統合(VLM)、視覚・言語・行動統合(VLA)の4つのドメインを横断し、機能的環境下でのエージェントの行動安全リスクを明らかにする初の包括的ベンチマークです。