マルチモーダル

7/19（日）

ArXiv ML HOT 78

Black-Box Vision-Languageモデル向けZero-Shotプロンプトリウェイト「CARPRT」

ブラックボックスのVision-Languageモデル（VLM）を用いたZero-Shot画像分類において、クラス固有のプロンプト重み付けを行う「CARPRT（Class-Aware Zero-Shot Prompt Reweighting）」が提案されました。これにより、従来のクラス共通の重み付けでは見落とされていた、プロンプトとクラス間の条件付き依存性を考慮し、分類精度を向上させます。

LLM画像生成研究

7/19（日）

The Verge HOT 75

Google、3D絵文字をオープンソース化し、Pixel 11aに最新Tensor G6搭載の可能性

Googleが3D絵文字のセットをオープンソース化し、開発者がVR世界などで利用可能になりました。また、次期スマートフォンPixel 11aに、Tensor G6プロセッサが搭載される可能性が浮上しており、廉価版Pixelの性能向上への期待が高まっています。

Googleオープンソース事例

7/19（日）

ArXiv ML HOT 73

量子強化型U-Net「QFireNet」によるSentinel-2衛星画像からの山火事セグメンテーション

山火事検出の困難な課題に対し、U-Netモデルのボトルネック部分に量子回路を組み込んだ量子ハイブリッドソリューション「QFireNet」が提案されました。Sentinel-2衛星画像から山火事をセグメンテーションすることで、高次元のスペクトル特徴空間のモデリングを効率化し、検出精度向上を目指します。

研究マルチモーダルAI倫理

7/19（日）

ArXiv ML HOT 73

LiDAR地形情報を用いた衛星地上局配置のための説明可能な地理空間AI

衛星地上局の最適な配置を決定するため、LiDARデータから得られる地形情報を用いて、代表的なクラッター高さ（RCH）を予測する解釈可能な機械学習フレームワークが提案されました。これにより、既存の固定的なクラッター高さの課題を克服し、衛星通信の干渉解析精度を向上させます。

研究XAI地理空間AI

7/17（金）

対話型視覚位置認識：人間のような会話で場所を特定する「DialogueVPR」

自然言語による空間情報の伝達に着想を得て、静的なワンショット検索から対話型の推論検索へのパラダイムシフトを提案する「Dialogue Place Recognition（DlgPR）」が導入されました。これは、大規模な対話ベースの場所認識ベンチマーク「DlgQuest-Cities」と、クロスモーダルな多段階リトリーバーと推論フレームワークを組み合わせたものです。

マルチモーダル研究自然言語処理

取得日：7/18

7/16（木）

ロボスタ TOP 95

国産マルチモーダルAI基盤「FRONTia」始動：日本企業44社が結集し、国も1兆円を支援

日本政府の経済産業省とNEDOは、国産マルチモーダルAI基盤モデル「FRONTia」プロジェクトを本格始動させました。ソニー、ソフトバンク、NEC、ホンダなど国内44社が共同出資するNoetra社と産総研が中心となり、NVIDIAの技術も取り入れながら、フィジカルAIやAIロボットの実世界実装を目指します。

マルチモーダルロボティクス研究

取得日：7/17

7/16（木）

YouTube TOP 85

Google VidsとRobloxがAI動画・ゲーム生成機能を強化：AIによるパーソナライズされたクリエイティブ体験の深化

Googleは「Google Vids」にパーソナライズされたAIアバター機能を追加し、ユーザーが自分自身をデジタル版で動画に登場させられるようになりました。一方、Robloxはモバイルアプリ内でAIを活用したゲーム生成機能「Build」を提供開始し、テキストプロンプト一つでゲームを簡単に作成できる道を開きました。

Google画像生成マルチモーダル

取得日：7/17

7/16（木）

Google DeepMind Blog TOP 95

ArXiv AI論文に見る最先端エージェント研究：サイバー物理システム統合から自己改善まで

ArXiv AIの最新論文は、サイバー物理システムへのAIエージェント統合、モデルの自己改善メカニズム、LLMの推論における前提依存性テスト、そして神経シンボリックAGIロボットの確率的拡張といった、AIエージェント研究の最先端を示しています。これらの研究は、より自律的で信頼性の高いAIシステムの実現に向けた重要なステップです。

エージェントロボティクス研究

取得日：7/17

NaN/NaN（undefined）

dev.to ML HOT 75

Xiaomi、4つのタスクを統合した38Bパラメーターのロボティクス向け統一生成モデル「Robotics-U0」をオープンソース化

Xiaomiが、ロボティクス向けにシーン生成、エンボディド転送、ビデオ生成、テキストから画像生成の4つのタスクを単一モデルで統一する380億パラメーターの生成モデル「Robotics-U0」をオープンソースとして公開しました。これにより、汎用ロボットAI開発が加速することが期待されます。

ロボティクスオープンソース研究

取得日：7/16

2026年 7月6日（月）〜 7月12日（日） 6件

7/8（水）

OpenAI Blog TOP 90

OpenAIが新世代音声モデル「GPT-Live」を発表：人間らしいリアルタイム会話を実現

OpenAIは、ChatGPTの音声機能を刷新する新世代リアルタイム音声モデル「GPT-Live」と小型版「GPT-Live-mini」を発表しました。全二重通信による人間らしい自然な会話と、バックエンドの高性能モデル連携が特徴です。

OpenAI音声LLM

取得日：7/9

7/8（水）

The Verge

Metaが常に録音・撮影する「スーパーセンシング」スマートグラスを開発中か

Metaが、周囲の音声を常に録音し、数秒ごとに写真を撮影する「スーパーセンシング」機能を搭載したスマートグラスのプロトタイプを開発中と報じられました。収集されたデータは直接ユーザーには提供されず、Meta AIが質問に答える形で利用される可能性があります。

MetaAIマルチモーダル

取得日：7/9

7/7（火）

ArXiv NLP TOP 95

Google、オープンソースでマルチモーダルなGemma 4モデルを発表

Googleは、Gemmaモデルファミリーの次世代版として、オープンウェイトでネイティブにマルチモーダルなGemma 4を発表しました。2.3Bから31Bパラメータの範囲で、密結合型およびMixture-of-Expertsアーキテクチャを特徴とし、改良された視覚・音声エンコーダを搭載しています。

LLMマルチモーダルGoogle

取得日：7/8

7/7（火）

The Verge TOP 85

Meta、Instagramなどに統合される「Muse Image」AI画像生成モデルを発表

Metaは、Superintelligence Labs開発のAI画像生成モデル「Muse Image」を発表し、Meta AIアプリ、Instagram、WhatsAppに統合を開始しました。このモデルは「agentic」で、Muse Spark LLMと連携し、プロンプトの推論、Web検索、計画を経て画像を生成します。

画像生成マルチモーダルMeta

取得日：7/8

7/7（火）

ArXiv AI HOT 70

iFLYTEK-Embodied-Omni：統合型マルチモーダル基盤モデルが身体化エージェントの新時代を拓く

iFLYTEK-Embodied-Omniは、視覚（動画・画像）、言語、行動を単一の「Omni」フレームワーク内で共同でモデリングする統合型マルチモーダル基盤モデルです。これにより、マルチモーダル指示の理解、環境の進化予測、そして精密な制御行動の生成を同時に行い、汎用身体化エージェントの課題を克服します。

マルチモーダルロボティクス研究

取得日：7/8

7/7（火）

Hugging Face Blog TOP 95

LeRobot v0.6.0：想像し、評価し、改善する

Hugging Faceがロボット学習フレームワークLeRobot v0.6.0をリリースしました。このバージョンでは、マルチモーダルモデルによるプランニングや評価、オフライン強化学習の改善など、ロボティクスAI開発における新たな機能が追加され、より高度なロボット動作の学習と検証が可能になります。

ロボティクス研究オープンソース

取得日：7/7

2026年 6月29日（月）〜 7月5日（日） 4件

7/4（土）

Google DeepMindとA24が映画制作のAI研究パートナーシップを発表

Google DeepMindと映画制作会社A24が、AIを活用した映画制作プロセスの研究パートナーシップを締結しました。これにより、脚本執筆、映像編集、特殊効果など、映画制作の様々な段階でAI技術の可能性を探ります。

AI研究事例

取得日：7/5

7/1（水）

ロボスタ TOP 98

ソフトバンク、ソニー、NEC、ホンダらが出資する「Noetra」が始動：フィジカルAI向け国産マルチモーダル基盤モデルを開発

ソフトバンクグループ、ソニー、NEC、ホンダなど国内主要企業が出資する「Noetra」が事業を開始し、産業技術総合研究所と共同でフィジカルAI向け国産マルチモーダル基盤モデルの開発に着手しました。経済産業省も初年度約3873億円を支援し、日本のAIロボットおよびフィジカルAI分野の競争力強化を目指します。

マルチモーダルロボティクス研究

取得日：7/2

7/1（水）

Google DeepMind Blog TOP 90

Google、Mac版AIエージェント「Gemini Spark」をリリースし、開発ツール群を拡充

Googleは、エージェント型アシスタント「Gemini Spark」のMac版をリリースし、リアルタイム追跡やアプリ連携を強化しました。また、開発者向けには「Nano Banana 2 Lite」と「Gemini Omni Flash」の提供を開始し、デバイス上AIと高速なマルチモーダルモデルによる開発エコシステムを拡充しています。

LLMGoogleエージェント

取得日：7/2

6/29（月）

TechCrunch AI HOT 80

Google GeminiのパーソナライズされたAI画像生成機能が米国ユーザーに無料開放

Googleは、GeminiのパーソナライズされたAI画像生成機能を米国の対象ユーザーに無料で提供開始しました。この機能は、ユーザーの興味やGoogleアプリのデータに基づいて画像を生成し、より個別化されたクリエイティブ体験を提供します。

GoogleLLM画像生成

取得日：6/30

2026年 6月22日（月）〜 6月28日（日） 3件

6/26（金）

Zenn AI HOT 78

LoRA AIとAudjust AIがクリエイターの次世代AIコンテンツ制作環境を構築

LoRA技術を活用した画像・動画生成プラットフォーム「LoRA AI」と、インテリジェント音声編集・音楽生成ツール「Audjust AI」が連携し、クリエイター向けに一貫性のあるビジュアルと自然な音声コンテンツをワンストップで生成する環境を提供します。YouTuberやインディー開発者にとって強力なツールとなり得ます。

画像生成音声マルチモーダル

取得日：6/27

6/25（木）

Qiita AI HOT 73

「デジタルツイン×世界モデル×Physical AI」：中国が構築する現実学習AIスタックの現在地

中国が「デジタルツイン」「世界モデル」「Physical AI」を組み合わせ、現実世界から学習するAIスタックの構築を加速しています。これは、言語世界モデルの進化を経て、現実空間での知覚・推論・行動が可能な汎用AIシステムの実現を目指すものです。

AIエージェントロボティクス研究

取得日：6/26

6/23（火）

CNET Japan TOP 85

中国ByteDance、新AI動画生成モデル「Seedance 2.5」発表、30秒・4K動画を生成

中国ByteDanceが新しいAI動画生成モデル「Seedance 2.5」を発表しました。このモデルは、単一のプロンプトから最長30秒の4K動画を生成でき、最大50点の参照素材で詳細な制御が可能です。

画像生成マルチモーダル研究

取得日：6/24

2026年 6月15日（月）〜 6月21日（日） 6件

6/20（土）

dev.to ML TOP 90

Google、新型スマートスピーカーを$99で発売：Gemini搭載でスマートホーム戦略を刷新

Googleが数年ぶりに新型スマートスピーカーを$99で発売すると発表しました。本製品は従来のGoogleアシスタントではなく、Geminiを搭載しており、これによりGoogleのスマートホーム戦略が刷新されると見られています。Amazonとの競争が激化する中、AIの知能を核に据えた新時代のスマートスピーカー体験を提供する狙いです。

GoogleLLM事例

取得日：6/21

6/19（金）

ロボスタ

物理AI時代のロボット技術：ウフルがAR・VLM・マルチモーダルRAGを組み合わせた製造支援システムを導入

ウフルは、人とロボットが協働する「フィジカルAI」時代を見据え、AR、VLM（Vision Language Model）、マルチモーダルRAGを統合した「AI製造オペレーション支援システム」をベトナムの楽器製造工場に導入しました。これにより、製造現場におけるAI活用の新たな道を開きます。

ロボティクスマルチモーダルVLM

取得日：6/20

6/18（木）

NAVI-Orbital: 地球観測衛星でゼロショット視覚言語モデルを軌道上で初実証

NAVI-Orbitalは、低軌道衛星に展開されたソフトウェアシステムで、視覚言語モデル（Gemma 3）を搭載し、軌道上で自律的なマルチモーダル推論を初めて実証しました。地球観測データのボトルネック解消に貢献します。

マルチモーダル研究LLM

取得日：6/19

6/16（火）

YouTube TOP 88

デジタル庁、生成AI調達ガイドラインを改定しエージェントとマルチモーダルAIを対象に

デジタル庁が行政機関向けの生成AI調達・利活用ガイドラインを改定し、新たにAIエージェントと音声・画像といったマルチモーダルAIを報告対象に追加しました。これにより、行政におけるAIの安全かつ適切な利用がさらに促進されます。

AI Nowエージェントマルチモーダル

取得日：6/17

6/16（火）

dev.to ML TOP 88

オーディオファイルからスタイライズされたミュージックビデオを生成するAI「aMuseMe」

「aMuseMe」は、オーディオファイルを入力するだけで、歌詞のタイミング調整や映像編集、素材探しが不要な、スタイライズされたミュージックビデオを生成するAIシステムです。35億パラメータの小規模モデル群を統合し、視覚的なシンフォニーを創出します。

画像生成マルチモーダル事例

取得日：6/16

6/16（火）

ArXiv AI TOP 85

多様なモダリティに対応するオムニモーダルエージェントオーケストレーションフレームワーク「Orchestra-o1」

Orchestra-o1は、テキスト、画像、音声、動画など多様なモダリティを統合的に理解し調整するオムニモーダルエージェントオーケストレーションフレームワークです。既存のマルチエージェントシステムのモダリティの限界を克服し、複雑なタスクでの効率的なエージェントコラボレーションを可能にします。

LLMエージェントマルチモーダル

取得日：6/16

2026年 6月8日（月）〜 6月14日（日） 5件

6/13（土）

Google DeepMind Blog TOP 90

Claude CodeでAI動画が全自動生成！Higgsfield MCPの破壊力がヤバすぎた

Claude CodeとHiggsfield MCP（Multi-Agent Control Plane）を組み合わせることで、AIによる動画の全自動生成が可能になるという事例が報告されました。プロンプトからシナリオ、映像、音声までを一貫してAIが生成・編集することで、動画制作のプロセスが劇的に簡素化されます。

LLMエージェントマルチモーダル

取得日：6/14

6/9（火）

ロボスタ HOT 80

Googleがリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表、遂に言語の壁がなくなるか

Googleは、リアルタイム音声対訳に向けた最新音声モデル「Gemini 3.5 Live Translate」を発表しました。この技術は、異なる言語を話す人々が即座にコミュニケーションできるようになり、言語の壁をなくす可能性を秘めています。

音声LLMGoogle

取得日：6/13

6/12（金）

dev.to AI

A3M Router: 並列LLMルーティングによる幻覚軽減とコスト削減

A3M Routerは、並列アンサンブルアプローチを採用し、LLMの幻覚を軽減しながらコストを60%以上削減するAIルーティングおよびマルチモデルオーケストレーションの最新動向を紹介しています。この技術は、エンタープライズAIの信頼性を高める標準となる可能性を秘めています。

LLM開発効率化マルチモーダル

取得日：6/13

6/10（水）

Google DeepMind、Gemini 3.5 Live Translateで流暢な音声翻訳を実現

Google DeepMindは、Gemini 3.5 Live Translateを発表しました。これは、Google AI Studio、Google Translate、Google Meetにおいて、ほぼリアルタイムで自然な音声翻訳を提供するもので、多言語コミュニケーションの障壁を大幅に低減します。

LLM音声マルチモーダル

取得日：6/10

6/10（水）

Google DeepMind Blog TOP 88

Google DeepMind、統一エンコーダフリーのマルチモーダルモデル「Gemma 4 12B」を発表

Google DeepMindは、統一されたエンコーダフリーのマルチモーダルモデル「Gemma 4 12B」を発表しました。これは、テキストと画像を単一のモデルで効率的に処理できる、新たなオープンソースモデルとして注目されます。

LLM画像生成マルチモーダル

取得日：6/10

2026年 6月1日（月）〜 6月7日（日） 3件

6/3（水）

ArXiv AI HOT 70

ChatHealthAI: EHR表現とLLMを連携させ、臨床推論を強化するマルチモーダルフレームワーク

ChatHealthAIは、構造化された電子カルテ（EHR）表現と大規模言語モデル（LLM）のセマンティック空間を連携させるマルチモーダル推論フレームワークです。これにより、EHRの予測能力とLLMの言語ベースの臨床推論能力を統合し、より根拠に基づいた医療意思決定を支援します。

LLM研究マルチモーダル

取得日：6/4

6/3（水）

TechCrunch AI

GoogleのDreambeans、あなたの人生をアニメに変える最も奇妙なAIツール

Googleの「Dreambeans」は、Googleアカウントの個人データから収集されたAIイラストによる「ストーリー」を生成し、ユーザーの生活をアニメーション化します。これは、プライベートな体験を視覚的に表現するユニークなAIツールです。

マルチモーダル画像生成Google

取得日：6/4

6/1（月）

Hugging Face Blog TOP 85

NVIDIA Cosmos 3：物理AI推論と行動のための初のオープンオムニモデル

NVIDIAが物理AI推論と行動のための初のオープンオムニモデル「NVIDIA Cosmos 3」を発表しました。これは、ロボットが現実世界で複雑なタスクを理解し、実行するための画期的な基盤モデルです。

ロボティクスマルチモーダルNVIDIA

取得日：6/2

2026年 5月25日（月）〜 5月31日（日） 4件

5/29（金）

ITmedia AI+ HOT 83

Googleが動画からの画像生成をサポートする「Nano Banana 2」をリリース

Googleが「Nano Banana 2」（Gemini 3.1 Flash Image）と「Nano Banana Pro」（Gemini 3 Pro Image）の一般提供を開始しました。特にNano Banana 2では、動画入力から画像を生成する新機能がプレビュー公開され、マルチモーダルAIの新たな活用法が提示されています。

画像生成マルチモーダルGoogle

取得日：5/31

5/29（金）

Zenn ChatGPT HOT 75

NVIDIA、「Nemotron 3 Nano Omni」発表 — 効率9倍のマルチモーダルAIエージェント向けモデル

NVIDIAが、視覚・音声・言語を統合し、AIエージェントの推論効率を最大9倍に高めるマルチモーダルAIモデル「Nemotron 3 Nano Omni」を発表しました。これにより、小型デバイス上でも高度なマルチモーダル処理が可能になり、エージェントの汎用性と実用性が向上します。

NVIDIAマルチモーダルエージェント

取得日：5/30

5/26（火）

ArXiv NLP HOT 80

Raon-Speech Technical Report

Raon-Speechは、英語と韓国語の音声理解、応答、生成に特化した9Bパラメータの高性能な音声言語モデル（SpeechLM）です。既存のLLMに音声機能を統合しつつ、強力なテキスト能力を維持することで、自然なリアルタイム会話を可能にします。

LLM音声マルチモーダル

取得日：5/27

5/24（日）

YouTube TOP 85

Google I/O 2026：Geminiモデルの大幅アップデートと動画生成AI「Omni」発表

Google I/O 2026で、GoogleのAIモデルGeminiが大幅にアップデートされ、特に動画生成AI「Gemini Omni（Flash）」が発表されました。これにより、AIによる動画制作の可能性が大きく広がります。

LLM動画生成マルチモーダル

取得日：5/25

2026年 5月18日（月）〜 5月24日（日） 4件

5/23（土）

Google I/O 2026を現地参加した正直な感想：AI・Geminiの実力は本物か？

Google I/O 2026に現地参加したトップAI発信者が、Google AIやGeminiの最新発表について正直な感想を述べました。特に注目されたのは、AIエージェントの進化とマルチモーダル能力の向上であり、その実用性や今後の展望について深掘りされています。

AILLMGoogle

取得日：5/24

5/18（月）

Slideからプレゼンテーション作成を支援するDeepSlide：人間の関与を伴うマルチエージェントシステム

DeepSlideは、プレゼンテーションの作成プロセス全体を支援する人間参加型マルチエージェントシステムです。視覚的なスライド生成だけでなく、時間予算を考慮したストーリーテリングや発表練習支援まで、プレゼンテーションの「デリバリー」に最適化されています。

エージェント研究開発効率化

取得日：5/19

5/18（月）

Zenn AI

AIがギター演奏の「空気感」を可視化する「ToneDNA」を開発

個人開発のギター練習SNS「RiffLog」に、AIが今日のプレイの「空気感」をレビューする新機能「ToneDNA」が追加されました。これは演奏の上手い下手を数値化するのではなく、個人の演奏スタイルや情感をAIが分析し、独自の「人格」として可視化することを目指しています。

AIマルチモーダル事例

取得日：5/18

5/18（月）

Zenn LLM

Snowflake AI_COMPLETE関数が動画・音声の直接分析に対応、マルチモーダル拡張を実現

SnowflakeのAI_COMPLETE関数が動画と音声を直接入力として受け付け、そのままAI分析できるマルチモーダル拡張をパブリックプレビューでリリースしました。これにより、SQLから動画や音声ファイルを直接AIに渡し、要約などの処理が可能になります。

LLMマルチモーダル事例

取得日：5/18

2026年 5月11日（月）〜 5月17日（日） 10件

5/16（土）

YouTube TOP 88

マルチエージェントLLMにおける「見えない調整役」の安全リスク

隠れた調整役が専門エージェントを管理するマルチエージェントLLMシステムは、企業AI導入のデフォルトアーキテクチャとなりつつありますが、その「見えない調整役」が保護行動を抑制し、権力保持者を分離させる安全リスクが実験的に検証され、警鐘を鳴らしています。

LLMエージェント研究

取得日：5/17

5/14（木）

ArXiv AI TOP 90

AIエージェントが直面する信頼性と安全性の課題：ベンチマーク監査と失敗モードの解明

AIエージェントの能力向上に伴い、予期せぬ挙動や社会的な偏見が課題となっています。最新の研究では、ベンチマークの脆弱性を自動監査する「BenchJack」や、VLMの失敗モードを体系的に特定する「REVELIO」が提案され、AIの信頼性向上への取り組みが加速しています。

エージェント研究LLM

5/14（木）

YouTube HOT 80

Google、AIアシスタント「Gemini」をAndroidに深く統合、アプリ横断操作と「Magic Pointer」でスマホ体験を革新

GoogleはAIアシスタント「Gemini」をAndroid OSにさらに深く統合し、アプリをまたいだタスクの自動化を実現します。特に新機能「Magic Pointer」は、画面上のオブジェクトを指すだけでAIが操作を代行し、スマートフォン体験を根本から変える可能性を秘めています。

Googleエージェントマルチモーダル

5/14（木）

ArXiv NLP HOT 72

マルチモーダルAIの医療応用と課題：VLMの臨床QA性能と信頼性、及び海洋予測への概念ボトルネックモデル適用

マルチモーダルAIは医療分野で大きな可能性を秘めますが、臨床質問応答（Clinical QA）では否定、時制、帰属といった細かなニュアンスの理解が課題です。また、海洋予測においては物理法則を組み込んだ「概念ボトルネックモデル」が、予測精度と解釈可能性の両立を目指しています。

マルチモーダル研究LLM

5/15（金）

AIを活用した画像・動画コンテンツ生成の最新動向：Canva AI、Lumeflow AI、CapCut AIで創造性が加速

画像生成AI「Canva AI」の機能強化や、画像生成モデル「GPT Image 2」を活用する「Lumeflow AI」の登場、さらには「CapCut AI」による動画編集の効率化など、AIがクリエイティブなコンテンツ制作を大きく変革しています。

画像生成マルチモーダル事例

5/8（金）

ArXiv AI HOT 72

Auto-Rubric as Reward (ARR): マルチモーダル生成モデルの評価を明示的基準で改善

マルチモーダル生成モデルの人間選好アラインメントにおいて、従来の単一スカラー報酬の限界を克服するため、Auto-Rubric as Reward (ARR) フレームワークが提案された。これは、明示的な多次元評価基準（ルーブリック）を自動生成し、報酬モデルをより信頼性と拡張性のあるものにする。

研究マルチモーダルLLM

取得日：5/14

5/8（金）

ArXiv AI HOT 70

空間プライミングが意味的プロンプトを凌駕：LLMによるチャートデータ抽出精度向上のグリッドベースアプローチ

科学チャートからのデータ抽出において、高レベルな意味的プロンプトよりも、低レベルな空間プライミング（グリッドベースアプローチ）がLLMの精度を大幅に向上させることが判明。非標準化されたチャートからの情報抽出における課題解決に寄与する。

研究マルチモーダルLLM

取得日：5/14

5/13（水）

ArXiv AI TOP 88

LLMの信頼性と精度向上：注意機構の検証、空間的プライミング、そして評価基準の刷新

LLMの信頼性と精度を向上させるための新たな研究が進んでいます。特に、視覚言語モデル（VLM）における注意機構と回答の信頼性に関するメカニズム研究、チャートデータ抽出におけるセマンティックプロンプトよりも空間的プライミングが優位であることの発見、そして多モーダル生成モデルの評価に人間らしい判断基準を導入する「Auto-Rubric as Reward (ARR)」フレームワークが注目されます。

ArXiv NLP, ITmedia AI+, Google News JP / エージェント HOT 70

取得日：5/13

5/11（月）

マルチモーダルAIの進化：音声AIエージェントと人間らしい表現力を持つSLMの登場

音声AIエージェントの導入が北陸銀行の窓口業務自動化を支援し、「あふれ呼」解消に貢献するなど、実社会でのAIエージェント活用が進んでいます。また、Anthropicが、個性や感情、さらには歌唱までを表現できるエンドツーエンドの音声言語モデル「VITA-QinYu」を発表し、マルチモーダルAIの表現力が大きく向上しています。これにより、スマートホームにおける複雑な対話処理や、より人間らしいAIアシスタントの実現が視野に入ってきました。

エージェント音声LLM

取得日：5/12

5/11（月）

The Verge, CNET Japan, TechCrunch AI, Google News JP / AI

Windows 11のAI強化と次世代型UI：動作高速化とAIとの自然な協調

MicrosoftはWindows 11の次期アップデートで、アプリ起動最大40%、UI表示最大70%高速化する新機能「Low Latency Profile」を開発しており、大幅な動作高速化を実現する可能性があります。これは、元OpenAI CTOのミラ・ムラティ氏が設立した「Thinking Machines」が提唱する、オーディオ、ビデオ、テキストをリアルタイムで取り込み、思考し、応答し、行動する「インタラクションモデル」によって、AIと人間がより自然に協調する次世代UIの方向性と一致します。

AI安全性社会影響マルチモーダル

取得日：5/12

2026年 5月4日（月）〜 5月10日（日） 4件

5/10（日）

YouTube TOP 88

OpenAI、リアルタイム音声APIにGPT-Realtime-2など3つの新モデル追加

OpenAIは、リアルタイム音声APIに「GPT-Realtime-2」を含む3つの新モデルを追加しました。GPT-5レベルの推論能力を持つ音声会話モデルや、70以上の言語に対応するリアルタイム音声翻訳、ストリーミング音声認識が提供され、これにより、音声AIの応用範囲が飛躍的に拡大します。

OpenAI音声マルチモーダル

取得日：5/10

5/7（木）

OpenAI Blog TOP 90

OpenAI、音声インテリジェンスの新モデルをAPIで公開

OpenAIは、APIを通じて新たなリアルタイム音声モデルを発表しました。これらのモデルは、推論、翻訳、文字起こし機能を備え、より自然でインテリジェントな音声体験を可能にします。顧客サービスから教育、クリエイタープラットフォームまで、幅広い分野での活用が期待されます。

音声マルチモーダルOpenAI

取得日：5/8

5/8（金）

Qiita ChatGPT

ChatGPT Image 2 ガイド：AI生成画像から自動化されたコンテンツワークフローまで

「ChatGPT Image 2 ガイド」は、AI生成画像を単なる静止画ではなく、自動化されたコンテンツワークフローの一部として活用する方法を解説します。画像生成から編集、配信までの一連のプロセスをAIで効率化し、クリエイティブなコンテンツ制作を加速させるための実践的なアプローチが示されています。

ChatGPT画像生成マルチモーダル

取得日：5/8

NaN/NaN（undefined）

dev.to ML

再帰的マルチエージェントシステムがHugging Papersのトップを飾り、EywaがLLMと科学モデルを橋渡し

Recursive Multi-Agent Systems（再帰的マルチエージェントシステム）がHugging Papersでトップの評価を獲得し、AIエージェント間の協調の新時代を告げています。特に、EywaがLLMと科学ドメインモデルを橋渡しする役割を果たすことで、AIエージェントの応用範囲がチャットベースからより構造的なコラボレーションへと拡大していることが示されています。

エージェントLLM研究

取得日：5/4

2026年 4月27日（月）〜 5月3日（日） 5件

4/29（水）

Qiita AI

NVIDIA Cosmos-Reason2：ローカルでの動画推論能力を強化

NVIDIAは、物理的常識判断と連鎖思考推論に特化したCosmos-Reason2モデルファミリーに32Bバリアントを追加し、ローカル環境での動画推論能力を強化しました。これにより、より複雑な動画コンテンツの理解と分析が、エッジデバイスやローカル環境で可能になります。

マルチモーダルAINVIDIA

取得日：5/3

4/30（木）

Hugging Face Blog TOP 93

NVIDIAがマルチモーダルAIエージェント向け新モデル「Nemotron 3 Nano Omni」を発表

NVIDIAは、ドキュメント、音声、ビデオに対応する長文脈マルチモーダルAIエージェント向けの新モデル「Nemotron 3 Nano Omni」を発表しました。これは、多様なデータ形式を統合的に理解し処理する能力を大幅に向上させるもので、次世代のAIアプリケーション開発を加速させます。

NVIDIAマルチモーダルエージェント

取得日：4/30

4/28（火）

Hugging Face Blog TOP 90

NVIDIA Nemotron 3 Nano Omni: 長文脈マルチモーダルAIエージェント

NVIDIAがNemotron 3 Nano Omniを発表しました。これは、ドキュメント、音声、ビデオを扱うAIエージェント向けの長文脈マルチモーダルインテリジェンスを提供し、特にモバイルやエッジデバイスでの実行に最適化されています。

NVIDIAマルチモーダルエージェント

取得日：4/29

4/27（月）

Zenn AI TOP 93

GPT-5.5がリリースされ、エージェント機能とマルチモーダル能力が大幅進化

OpenAIは最新モデル「GPT-5.5」をリリースし、前モデルのGPT-5.4から処理速度と賢さを大幅に向上させました。特に、ChatGPT、Codex、AIブラウザ機能を統合したスーパーアプリ構想を意識したエージェント機能と、GPT Image 2.0との連携によるマルチモーダル能力が注目されます。

LLMOpenAIエージェント

取得日：4/28

4/26（日）

YouTube動画からAIで文字起こし・要約・翻訳を自動化する実践ガイド

AIの進化により情報キャッチアップが追いつかない中、YouTube動画の文字起こしをAPIで取得し、AIで要約・翻訳する手法が注目されています。本記事では、YouTubeの自動生成字幕を効率的に取得し、LLMを活用して情報整理を自動化する実践的な方法を解説します。

LLMマルチモーダルツール

取得日：4/27

2026年 4月20日（月）〜 4月26日（日） 6件

4/23（木）

OpenAI Blog TOP 85

ChatGPT Images 2.0発表：日本語タイポグラフィとUIモックアップ生成が大幅向上、記憶レイヤーの必要性も浮き彫りに

OpenAIから「ChatGPT Images 2.0」が発表され、日本語タイポグラフィの正確性向上やUIモックアップの高品質な一発生成が可能になりました。この進化は画像生成能力のマイルストーンである一方で、マルチモーダルAIが直面する「記憶レイヤー」の不足という新たなボトルネックを浮き彫りにしています。

画像生成マルチモーダルOpenAI

取得日：4/24

4/24（金）

ITmedia AI+ HOT 78

富士通が“ドラえもんのような世界”を目指す「フィジカルAI」戦略を発表

富士通が2030年に“ドラえもんのような世界”を実現するため、「フィジカルAI」研究戦略を発表しました。これは、AIと現実世界を統合し、実空間での課題解決を目指すもので、激化するグローバル競争の中で独自の立ち位置を確立しようとする挑戦です。

ロボティクス研究マルチモーダル

取得日：4/24

4/21（火）

The Verge TOP 95

OpenAI、Web検索と推論を統合した画像生成AI「ChatGPT Images 2.0」を発表

OpenAIは、Web検索結果と推論能力を組み合わせて画像を生成する「ChatGPT Images 2.0」をリリースしました。この新機能「思考モード」により、複雑な指示への対応力、詳細の保持、多言語テキストの正確な描画能力が大幅に向上し、より洗練された画像を生成できます。

画像生成マルチモーダルOpenAI

取得日：4/22

4/21（火）

ArXiv ML HOT 78

マルチモーダルAIエージェントによる臨床推論フレームワーク：膝骨関節炎の構造損傷と症状の不一致に対応

膝骨関節炎の診断における画像診断と患者の症状の不一致という課題に対し、機械学習予測モデルとツール連携型マルチエージェント推論システムを組み合わせた「Discordance-Aware Multimodal Framework」が提案されました。これは、多角的な情報を統合し、臨床推論の精度向上を目指します。

マルチモーダルエージェント研究

取得日：4/22

4/21（火）

ArXiv NLP

脳波（EEG）からの圧縮された意味表現のデコードによる言語再構築の挑戦：Brain-CLIPLM

非侵襲的脳波（EEG）信号からの自然言語デコードは、低い信号対ノイズ比と限られた情報帯域幅により根本的な限界がありました。本研究「Brain-CLIPLM」では、EEGが完全な言語構造ではなく、圧縮された意味的アンカーを符号化するという「意味圧縮仮説」を提唱し、この仮説に基づいた言語再構築アプローチを提案します。

研究マルチモーダル音声

取得日：4/22

4/18（土）

【動画】Claude Designがデザインワークフローを革新：Webサイトやスライドを15分で作成

Anthropicの最新AIツール「Claude Design」が、プロ級のWebサイトやスライドのデザインと構成をわずか15分で生成できるとして注目を集めています。日本語で簡単な指示を出すだけで、制作ワークフローを劇的に効率化する"神ツール"として、Figmaなどのデザインツールの株価に影響を与えるほどのインパクトを与えています。

LLM画像生成マルチモーダル

取得日：4/20

2026年 4月13日（月）〜 4月19日（日） 4件

4/20（月）

ArXiv ML

マルチモーダルLLMの効率的な学習：MixAtlasによるデータ混合最適化

マルチモーダルLLMの中間学習において、不確実性を考慮したデータ混合最適化手法「MixAtlas」が提案されました。CLIP埋め込みとタスクタイプに基づいてデータを分解し、ベンチマークターゲットのデータレシピを生成します。

取得日：4/19

4/18（土）

YouTube TOP 90

Anthropic、最新モデル「Claude Opus 4.7」リリースとAIデザインツール「Claude Design」を発表

Anthropicは、最上位AIモデル「Claude Opus 4.7」をリリースし、より長時間・自律的なタスク処理能力を向上させました。同時に、最新モデルを搭載したAIデザインツール「Claude Design」をプレビュー公開し、テキストやコードからのWebデザイン生成を可能にしました。

LLMエージェントマルチモーダル

取得日：4/18

4/16（木）

ArXiv ML

マルチモーダルLLMの中間学習を最適化する「MixAtlas」が登場

ArXivの論文は、マルチモーダルLLMの中間学習におけるデータ混合最適化手法「MixAtlas」を提案しました。これは、画像コンセプトとタスク監視の2軸でトレーニングコーパスを分解し、不確実性考慮型のデータ混合レシピを生成することで、サンプル効率と汎化性能を向上させます。

取得日：4/18

4/17（金）

YouTube TOP 95

Anthropicが最新モデル「Claude Opus 4.7」を発表：コーディングと画像認識が大幅強化、長時間タスクにも対応

Anthropicは、最新AIモデル「Claude Opus 4.7」を一般提供開始しました。この新バージョンは、ソフトウェア開発能力と画像認識能力を大幅に強化し、難解なコーディングタスクや複雑なビジョン問題において高い性能を発揮します。また、指示への忠実度と長時間タスクの安定性も向上しており、より信頼性の高いAIアシスタントとして期待されます。

LLMマルチモーダルAnthropic

取得日：4/17

2026年 4月6日（月）〜 4月12日（日） 3件

4/9（木）

ITmedia AI+ TOP 85

Metaが視覚で世界を理解する新AI「Muse Spark」を発表、AIメガネに統合へ

Metaは、Superintelligence Labs設立後初のAIモデル「Muse Spark」を発表しました。これは軽量ながら高い視覚認識能力を持つマルチモーダル推論モデルで、「Llama 4 Maverick」と同等の性能を低コストで実現し、AIメガネへの統合も視野に入れています。

マルチモーダルMeta研究

取得日：4/9

4/4（土）

ArXiv ML HOT 80

MetaのMixture of Experts（MoE）軽量化技術LiME: 効率的なマルチモーダル・マルチタスク学習を実現

Metaは、マルチモーダル・マルチタスク学習におけるMixture of Experts (MoE) の効率性を高める新技術「LiME（Lightweight Mixture of Experts）」を発表しました。LiMEは、アダプタの複製ではなく軽量な変調を用いることで、専門家あたりのパラメータ数を大幅に削減し、様々なPEFT手法への適用を可能にします。

取得日：4/8

4/5（日）

ASCII.jp

Claude Codeを用いた画像・動画生成AIの自動化：ComfyUI操作で創造性を解放

Claude Codeを活用することで、ComfyUIを直接操作し、画像生成から動画生成までの複雑なワークフローを完全に自動化する方法論が提示されました。これにより、人間は指示と調整に集中でき、AIが複雑なプロンプト設計やワークフロー構築を担う新しい創造環境が実現します。

LLM画像生成エージェント

取得日：4/6

2026年 3月30日（月）〜 4月5日（日） 6件

4/4（土）

ArXiv NLP HOT 75

マルチモーダル科学クレームの一貫性チェック：M2-Verify大規模ベンチマーク登場

科学的な主張とその裏付けとなるマルチモーダルな証拠（テキストと画像）との厳密な一貫性を評価するための大規模ベンチマークデータセット「M2-Verify」が発表された。PubMedとarXivから収集された46.9万件以上のサンプルと専門家による検証により、現在の最先端モデルが多様なドメインと複雑性において一貫性チェックに苦戦している実態が明らかになった。

マルチモーダル研究LLM

取得日：4/5

4/2（木）

TechCrunch AI

Microsoft、AI競合に対抗する3つの新しい基盤モデルを発表 - 音声・画像生成能力を強化

MicrosoftのMAI（Microsoft AI）グループは、音声からテキストへの転写、音声生成、画像生成が可能な3つの新しい基盤モデルを発表しました。これは、GoogleやOpenAIなどの主要なAI競合他社に対抗し、マイクロソフトのAI能力を大幅に強化するものです。

LLM音声画像生成

取得日：4/3

4/2（木）

ArXiv NLP

Dynin-Omni: 全てのモダリティを統一したマスク拡散型大規模言語モデル

Dynin-Omniは、テキスト、画像、音声の理解と生成に加え、動画理解も単一アーキテクチャで統合した初のマスク拡散型オムニモーダル基盤モデルです。これにより、異種モダリティを統一されたトークン空間で反復的に洗練することが可能になります。