タグ
1件 · 1週間分
大規模言語モデル(LLM)において、特定の無害なタスクでの微調整が有害な振る舞いを引き起こす「創発的なミスマッチ」のメカニズムを、特徴量重ね合わせの幾何学的観点から分析した研究が発表されました。これはAI安全性における重要な課題です。