ZAYA1-8B:低アクティブパラメータで高性能を実現するMoE言語モデル
MoEアーキテクチャにより、少ないアクティブパラメータで大規模モデルに匹敵する推論性能を実現し、効率的なAI活用の道を拓きます。
要約
ZAYA1-8Bは、わずか7億のアクティブパラメータと80億の総パラメータを持つMoE(Mixture-of-Experts)モデルです。AMDのフルスタック環境でトレーニングされ、同規模のモデルを凌駕し、より大規模なオープンモデルにも匹敵する推論性能を、特に数学とコーディングベンチマークで示しました。
要点
- ZAYA1-8B MoEモデル
- 7億アクティブパラメータ
- AMDでフルスタック学習
- 数学・コーディングで高精度
- リソース効率の高いLLM
詳細解説
大規模言語モデル(LLM)の高性能化に伴い、モデルサイズの増大とそれに伴う計算コストの課題が浮上しています。このような背景の中、Zyphra社は「ZAYA1-8B」という革新的なMixture-of-Experts(MoE)モデルを発表しました。このモデルは、効率性と性能を両立させる新たなアプローチを示すものです。
ZAYA1-8Bの最大の特徴は、総パラメータ数80億であるにもかかわらず、特定のタスクで実際に活性化される「アクティブパラメータ」がわずか7億である点です。これは、Zyphra独自のMoE++アーキテクチャに基づいています。モデルのコアとなる事前学習、中間学習、および教師ありファインチューニング(SFT)は、AMDのコンピューティング、ネットワーキング、ソフトウェアプラットフォームで完全に実行されました。
その性能は顕著で、ZAYA1-8Bは10億未満のアクティブパラメータであるにもかかわらず、いくつかの難易度の高い数学およびコーディングベンチマークでDeepSeek-R1-0528と同等かそれ以上の結果を達成しました。さらに、実質的に大規模なオープンウェイト推論モデルとも競争力を維持しています。この高効率は、推論データを含む事前学習から、推論に特化した4段階のRLカスケード学習プロセスによって実現されています。
技術的意義としては、MoEアーキテクチャが、限られた計算リソースで高性能なLLMを実現する有効な手段であることを実証した点です。特に、アクティブパラメータを最適化することで、推論時の計算負荷を抑えつつ、多様な専門知識を持つエキスパート群が連携することで、高度な推論能力を発揮します。AMDプラットフォームでのフルスタックトレーニングは、特定のハードウェアに最適化されたモデル開発の可能性も示しています。
社会・産業への影響としては、より省リソースで高品質なLLMが利用可能になることで、特にエッジデバイスやコスト制約の厳しい環境でのAI導入が加速するでしょう。開発者は、高性能なAIモデルをより手軽に、より高速に利用できるようになり、新しいアプリケーションやサービスの創出が促進されます。これは、AIの民主化を一層推進するものです。
今後の展望として、MoEアーキテクチャのさらなる洗練と、特定のタスクに最適化された小規模ながら高性能なモデルの開発が進むと予想されます。これにより、LLMの利用シーンはさらに広がり、クラウドからエッジまで、あらゆる場所でAIの恩恵を受けられるようになるでしょう。ZAYA1-8Bは、この効率的なAIの未来に向けた重要なマイルストーンとなる可能性があります。
元記事を読む
ArXiv AI で読む →