ArXiv ML 2026年4月24日

MoEモデルの効率的なスケールアップ：「エキスパートアップサイクリング」で計算効率を改善

なぜ重要か

エキスパートアップサイクリングは、MoEモデルの容量拡張を高効率かつ経済的に実現し、より多くの企業が高性能LLMを開発・運用する道を拓く。

要約

Mixture-of-Experts（MoE）はLLMのスケーリングの主流ですが、大規模MoEの訓練は高コストです。本研究は「エキスパートアップサイクリング」を提案。既存のEエキスパートモデルの継続事前学習中にエキスパート数を増やしmEエキスパートモデルを構築することで、計算効率のフロンティアを押し上げ、MoEの容量拡張をより経済的に実現します。

要点

MoEモデルの訓練コスト削減
エキスパートアップサイクリングを提案
継続事前学習中にエキスパート追加
計算効率のフロンティアを改善
MoEの経済的容量拡張を実現

詳細解説

Mixture-of-Experts（MoE）アーキテクチャは、大規模言語モデル（LLM）において、総パラメータ数を増やしつつ、トークンあたりの計算量を抑えることで、フロンティアモデルの性能向上に不可欠な要素となっています。しかし、既存のMoEモデルの訓練は、メモリ要件とデバイス間通信量の増加により、依然として高額な計算コストを伴うという課題がありました。本論文で提案される「エキスパートアップサイクリング」は、このコスト効率のフロンティアを再定義し、MoEモデルのスケーリングをより持続可能にする可能性を秘めています。

「エキスパートアップサイクリング」は、既に訓練されたE個のエキスパートを持つMoEモデルに対し、継続事前学習（CPT）の過程でエキスパートの数を徐々に増やし、最終的にmE個のエキスパートを持つモデルを構築する手法です。具体的には、既存のエキスパートを効率的に再利用しつつ、新しいエキスパートを追加・訓練することで、全体の容量を拡張します。これにより、ゼロから大規模なMoEモデルを訓練するよりも、はるかに経済的にMoEの容量を増やすことが可能になります。これは、特定のドメイン知識を既存モデルに追加するようなシナリオで特に有効であると考えられます。

技術的意義としては、MoEモデルの「効率的な増殖」メカニズムを提供する点にあります。これまでのスケーリング則は、固定されたアクティブ計算量の下でモデル品質が総パラメータ数に応じて予測可能にスケールすることを示していましたが、MoEの容量拡張は依然として高コストでした。エキスパートアップサイクリングは、この既存の訓練済み知識を最大限に活用し、新しい知識を効率的に統合する手法であり、MoEのライフサイクルマネジメントにおける重要なブレイクスルーとなります。

社会・産業への影響としては、より多様な企業や研究機関が、高性能なMoEモデルを低コストで開発・運用できるようになる可能性があります。特に、特定の産業分野に特化した大規模AIモデルを構築する際、既存の汎用モデルをベースに効率的に専門知識を追加できるため、AIのカスタマイズと導入が加速されます。これにより、AI技術の普及と応用がさらに広がるでしょう。

今後の展望としては、エキスパートアップサイクリングがMoEモデルの訓練とファインチューニングの標準的な手法として確立されていくか注目されます。この手法が、モデルの品質、訓練時間、コストの間で最適なバランスをどのように達成するのか、さらなる検証が求められます。また、エキスパートの追加方法や、既存エキスパートの再利用戦略に関する研究も進むことで、MoEモデルのスケーラビリティと実用性が一層高まっていくことが期待されます。

元記事を読む

ArXiv ML で読む →

← 2026年4月25日(土) の一覧に戻る