#マルチモーダルllm のAIニュース
14件の記事
【AIニュース】OpenAI、GPT-Image-2を正式リリース
OpenAIは長年推測されてきた画像生成モデル「GPT-Image-2」をAPIおよびChatGPTで正式公開した。思考機能付き・なしの両バリアントを提供し、競合モデルを凌駕する性能を示している。
MixAtlas: マルチモーダルLLM事前学習のための不確実性を考慮したデータ混合最適化
研究チームが、マルチモーダル事前学習のための計算効率的なデータ混合最適化フレームワーク「MixAtlas」を提案した。従来の単一視点の手法を超え、不確実性を考慮した混合最適化により、サンプル効率と下流タスクの汎化性能を向上させる。
Gemma 4でAIをエッジおよびオンデバイスに近づける
NVIDIAが最新のマルチモーダル・多言語モデル「Gemma 4」を発表し、クラウドからエッジデバイスまで幅広い展開に対応するモデルを提供した。
Qwen3.6-Plus:コーディングエージェント能力の全面的な向上
通義実験室がQwen3.6-Plusを発表し、AIモデルのコーディングエージェント能力を強化した。100万トークンのコンテキストウィンドウを標準サポートし、フロントエンド生成やコード修正などのタスク実行を改善した。
GLM-5V-Turbo発表:マルチモーダルコーディング基盤モデル
智譜がGLM-5V-Turboをリリースした。同モデルはマルチモーダルコーディング基盤モデルである。
215項目でSOTA達成+自然発生的なVibe Coding!Qwen3.5-Omniをリリース
通義実験室がQwen3.5-Omniを発表した。同モデルは215項目でSOTAを達成し、自然発生的なVibe Codingを実現した。視覚・聴覚を含む全モダリティに対応し、AIが物理世界と自然に相互作用することを目指している。
智譜がメルセデス・ベンツと提携、マルチモーダル大規模モデルを車載化
メルセデス・ベンツ中国は、清華大学と智譜と共同開発したマルチモーダル大規模モデル技術を、次世代Sクラスに搭載することを発表した。
マルチモーダルAIによる複雑な金融ワークフローの自動化
金融リーダーたちは、強力な新しいマルチモーダルAIフレームワークを積極的に採用することで、複雑なワークフローを自動化している。従来のOCRシステムでは正確にデジタル化できなかった非構造化文書からのテキスト抽出が、大規模言語モデルの多様な入力処理能力により改善されている。
LLMにおけるテキストと音声理解のギャップを埋める
音声対応LLMは、言語理解タスクでテキスト専用モデルや従来手法より性能が低く、このギャップを解消する研究が進められている。
切断されたクラウドがAIデータガバナンスを向上させる方法
規制強化下で企業がインフラを見直す中、切断されたクラウドはAIデータガバナンスの改善を目指し、隔離環境での事業継続性確保が重要になっている。
Ferret-UI Lite:小型オンデバイスGUIエージェント構築からの教訓
Ferret-UI Liteは、モバイルなど多様なプラットフォームで動作する小型のGUIエージェントで、オンデバイスモデルにおけるGUI操作の課題に取り組む。
Seed2.0 正式リリース
バイトダンスがSeed2.0を正式にリリースし、現実世界の複雑なタスクへの対応能力を向上させた。
データ検索基盤チームの立ち上げ
LayerXがデータ検索基盤チームを新設。生成AI時代に差別化を図るため、非構造化データを活用し、汎用AIエージェントプラットフォームの構築を目指す。
LLMを用いた非定型見積書の明細抽出精度を約80%から約95%に向上させた事例
特許出願済みのアルゴリズムにより、非定型見積書の明細抽出タスクの精度を約80%から約95%に大幅に改善し、顧客価値を高めた事例。