タグ
4件 · 1週間分
MicrosoftのMAI(Microsoft AI)グループは、音声からテキストへの転写、音声生成、画像生成が可能な3つの新しい基盤モデルを発表しました。これは、GoogleやOpenAIなどの主要なAI競合他社に対抗し、マイクロソフトのAI能力を大幅に強化するものです。
Dynin-Omniは、テキスト、画像、音声の理解と生成に加え、動画理解も単一アーキテクチャで統合した初のマスク拡散型オムニモーダル基盤モデルです。これにより、異種モダリティを統一されたトークン空間で反復的に洗練することが可能になります。
OpenAIが発表したテキストから動画を生成するSoraの公開が中止されたとの報道は、AI動画分野における企業の戦略、技術的課題、そして市場の期待に対する現実的な見直しを促す可能性があります。この動きは、広範なAI生成動画の展開に影響を与える可能性を秘めています。
映像生成AIの基盤技術を開発するEmbodyMeが、AIアバター映像生成サービス「DigiSelf」の提供を開始しました。このサービスは、1枚の写真からリアルなAIアバター動画を生成することを可能にし、企業や個人の多様な映像コンテンツ制作ニーズに応えます。