#マルチモーダルllm のAIニュース

14件の記事

【AIニュース】OpenAI、GPT-Image-2を正式リリース

OpenAIは長年推測されてきた画像生成モデル「GPT-Image-2」をAPIおよびChatGPTで正式公開した。思考機能付き・なしの両バリアントを提供し、競合モデルを凌駕する性能を示している。

研究チームが、マルチモーダル事前学習のための計算効率的なデータ混合最適化フレームワーク「MixAtlas」を提案した。従来の単一視点の手法を超え、不確実性を考慮した混合最適化により、サンプル効率と下流タスクの汎化性能を向上させる。

NVIDIAが最新のマルチモーダル・多言語モデル「Gemma 4」を発表し、クラウドからエッジデバイスまで幅広い展開に対応するモデルを提供した。

通義実験室がQwen3.6-Plusを発表し、AIモデルのコーディングエージェント能力を強化した。100万トークンのコンテキストウィンドウを標準サポートし、フロントエンド生成やコード修正などのタスク実行を改善した。

智譜がGLM-5V-Turboをリリースした。同モデルはマルチモーダルコーディング基盤モデルである。

通義実験室がQwen3.5-Omniを発表した。同モデルは215項目でSOTAを達成し、自然発生的なVibe Codingを実現した。視覚・聴覚を含む全モダリティに対応し、AIが物理世界と自然に相互作用することを目指している。

メルセデス・ベンツ中国は、清華大学と智譜と共同開発したマルチモーダル大規模モデル技術を、次世代Sクラスに搭載することを発表した。

金融リーダーたちは、強力な新しいマルチモーダルAIフレームワークを積極的に採用することで、複雑なワークフローを自動化している。従来のOCRシステムでは正確にデジタル化できなかった非構造化文書からのテキスト抽出が、大規模言語モデルの多様な入力処理能力により改善されている。

音声対応LLMは、言語理解タスクでテキスト専用モデルや従来手法より性能が低く、このギャップを解消する研究が進められている。

規制強化下で企業がインフラを見直す中、切断されたクラウドはAIデータガバナンスの改善を目指し、隔離環境での事業継続性確保が重要になっている。

Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。

バイトダンスがSeed2.0を正式にリリースし、現実世界の複雑なタスクへの対応能力を向上させた。

LayerXがデータ検索基盤チームを新設。生成AI時代に差別化を図るため、非構造化データを活用し、汎用AIエージェントプラットフォームの構築を目指す。

特許出願済みのアルゴリズムにより、非定型見積書の明細抽出タスクの精度を約80%から約95%に大幅に改善し、顧客価値を高めた事例。