タグ
3件 · 1週間分
大規模マルチモーダルモデル(LMMs)の進化により、エージェントは複雑なタスクをこなせるようになりましたが、意図しない行動安全リスクが懸念されています。BeSafe-Bench (BSB) は、ウェブ、モバイル、視覚・言語統合(VLM)、視覚・言語・行動統合(VLA)の4つのドメインを横断し、機能的環境下でのエージェントの行動安全リスクを明らかにする初の包括的ベンチマークです。
大規模視覚言語モデルはGUIエージェントに強力な汎用能力をもたらしましたが、ドメイン固有の知識不足による性能低下が課題でした。GUIDEは、リアルタイムウェブ動画検索とプラグアンドプレイのアノテーションを通じて、ドメイン特化の専門知識を自律的に獲得し、GUIエージェントのドメインバイアスを解消するトレーニング不要のフレームワークです。
大規模視覚言語モデル(VLM)を基盤とするGUIエージェントは、特定のアプリケーション操作におけるドメインバイアスが課題です。GUIDEは、Webチュートリアル動画から自律的に専門知識を獲得・アノテーションすることで、このバイアスを解消し、実世界でのタスク実行性能を向上させるトレーニング不要なフレームワークです。