#マルチモーダル のAIニュース
171件の記事
llm 0.31 リリース
llm開発者のsimonwはバージョン0.31を公開し、OpenAIのGPT-5.5モデルと冗長性設定オプションを追加した。
研究者が米政策当局に「ChatGPTの過ち」をワールドモデルで繰り返すよう警告
研究者は、AIがテキストから物理世界へ移行する中、米政策当局者がその規模を把握できていないと警告し、中国がロボット分野で先行していると指摘する。
公式発表!阶跃と千里科技、全面戦略的パートナーシップを締結
阶跃と千里科技は、自動運転用基盤モデルの共同開発で戦略的パートナーシップを締結した。両社はAIが物理世界を直接理解する技術の実現を目指す。
Qwen3.6-27B:MoEルータ不要、フラッグシップ級のプログラミング能力
通義实验室は270億パラメータの稠密モデル「Qwen3.6-27B」を公開した。MoE不要でデプロイが容易な一方、プログラミングや多模態性能は前代フラッグシップモデルを凌駕する。
ChatGPT画像生成ツールが「思考」機能を搭載して強化
ChatGPT開発元のOpenAIは、主力画像生成モデルを「思考」機能を追加して強化し、品質向上を進めている。
ChatGPTの新画像生成モデル「Images 2.0」、テキスト生成能力が驚くほど高い
OpenAIは新画像生成モデル「ChatGPT Images 2.0」を公開し、テキスト生成能力にも優れていることを示した。
OpenAI、完全にリアルなAI生成スクリーンショットで「GPT-Image 2」を予告
OpenAIは新画像生成モデル「GPT-Image 2」を公開し、実写と見分けがつかない高精度なテスト画像を示した。
GPT-Image-2 の発表と AI ニュースのまとめ
AI ニュース配信「AINews」が、2026 年 4 月 20 日から 21 日にかけての動向を報告し、Reddit や Twitter などの情報を収集した結果、GPT-Image-2 という新しい画像生成モデルに関する発表があったと伝えている。
合成データを用いた高速多言語OCRモデルの構築
研究者が合成データを活用して、高速で多言語対応の光学文字認識(OCR)モデルを開発した。この手法は、従来のデータ収集の課題を克服し、複数言語でのテキスト認識の効率化を実現している。
AnthropicがClaude Designを発表、素早いビジュアル作成の新製品
Anthropicは、デザイン経験のない創業者やプロダクトマネージャーがアイデアを共有しやすくするため、Claude Designを発表した。
Anthropic Claude Opus 4.7:全次元で前モデルより一歩進んだ
Anthropicは木曜日にClaude Opus 4.7をリリースした。この新モデルは、既存の期待を上回り、あらゆる評価次元においてClaude 4.6より優れているとされる。
Grok音声テキスト変換およびテキスト音声変換API
Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。
AWS生成AIサービスで小売を変革
AWSが生成AIサービスを提供し、オンライン小売業者が仮想試着技術を導入することで、購入意欲向上と返品率低減を実現する。
Google、マルチモーダルとエージェント機能を備えたGemma 4をApache 2.0で公開
GoogleがApache 2.0ライセンスでオープンウェイトAIモデル「Gemma 4」を発表。動画・画像処理の強化、小型モデルでの音声入力、最大256Kトークンの拡張コンテキストウィンドウが特徴。
アドビが新Firefly AIアシスタントでクリエイティブスイートをチャットボット化
アドビはFirefly AIアシスタントを発表し、PhotoshopやPremiereなどのアプリ間でクリエイティブワークフローを単一チャットインターフェースから管理するAIエージェントを提供する。
Google の Gemini 3.1 Flash TTS モデルによる自然な音声合成ツール
Google は、単一話者および複数話者の会話モードに対応し、発声指示タグの適用も可能な「Gemini 3.1 Flash TTS」モデルを公開した。このツールにより、テキストから自然な音声を生成してダウンロードできるようになった。
Adobeの新Firefly AIアシスタントがCreative Cloudアプリでタスクを完了可能に
Adobeが、Firefly、Photoshop、Premiere、Lightroom、Express、Illustratorなどのアプリを横断してユーザーのタスクを実行できるAIアシスタントを発表した。
より優れたAIエージェントを構築する:エージェント・ベイクオフからの5つの開発者向けヒント
Google Cloud AIエージェント・ベイクオフは、単純なプロンプトエンジニアリングから厳密なエージェント工学への移行を強調し、本番環境対応のAIにはモジュラー型のマルチエージェントアーキテクチャが必要だと指摘している。複雑なタスクを専門サブエージェントに分解するなど5つの開発者向けヒントを提示した。
新AIモデル、1枚の写真から45分間のリップシンク動画をリアルタイム生成
LPM 1.0が、1枚の静止画からリアルタイムでリップシンク・表情・感情反応を含む動画を生成する技術を開発した。現在は研究段階である。
研究者が世界モデルの定義を明確化、テキスト動画生成AIは除外
国際研究チームがOpenWorldLibで世界モデル研究の統一を図り、Soraなどのテキスト動画生成モデルを定義から除外した。
GoogleのGemma 4がスマホに無料の自律型AIを搭載、データは一切端末外に出ない
Googleがオープンソースモデル「Gemma 4」を発表した。このAIはテキスト・画像・音声を完全に端末内で処理し、自律的にWikipediaや地図などのツールを利用できる。クラウド不要でデータは端末から流出しない。
ChatGPT音声モードは弱いモデルで動作している
OpenAIのChatGPT音声モードは、古くて性能の低いモデル(GPT-4o時代のモデル)で動作しており、知識カットオフは2024年4月である。
ChatGPTでのファイル操作
OpenAIはChatGPTでPDFやスプレッドシートなどのファイルをアップロードし、データ分析、文書要約、コンテンツ生成を行う方法を公開した。
Google Geminiがチャット内で調整・探索可能なインタラクティブな視覚化を生成
GoogleはGeminiがチャット内で直接インタラクティブな視覚化を生成する機能を追加した。ユーザーは生成されたグラフや図をその場で調整・探索できるようになった。
階層的エージェントRAGシステムの構築:自律的エラー回復を備えたマルチモーダル推論
著者が、階層的エージェントRAGシステムが専門ワーカーを構造化されたオーケストレーションで調整し、複雑な企業分析ワークフローの精度・信頼性・説明可能性を向上させる方法を探る。
Metaが新モデル「Muse Spark」を発表、meta.aiチャットに注目ツールを追加
Metaが約1年ぶりに新モデル「Muse Spark」を発表した。APIは限定ユーザー向けのプレビュー版だが、meta.aiでログイン後に試用可能。
GLM-5.1:長期的タスクへの取り組み
中国AI研究所Z.aiが、7540億パラメータの大規模言語モデル「GLM-5.1」を発表した。同モデルはMITライセンスで公開され、長期的タスク処理への対応を目指している。
Deep Agents v0.5のリリース
Deep Agentsチームは、非同期サブエージェントやマルチモーダルファイルシステム対応などを搭載した「deepagents」と「deepagentsjs」の新版を公開した。これにより、メインエージェントがブロックされずにバックグラウンドで遠隔エージェントに作業を委譲できるようになった。
【AIニュース】グッドフライデー
Gemmaの好意的な評価が継続しており、Marc Andreesenのポッドキャストで高い評価を得ている。来週ロンドンで開催されるAIE Europeでは、OpenClawやPiなどの欧州発AIツールのクリエイターが登壇し、ライブ配信される。
Wan2.7-Videoが創作の自由をもたらす
通義実験室は、AI動画創作モデル「Wan2.7-Video」を発表した。同モデルは、生成だけでなく編集・復刻・再構築・駆動・継続など創作全工程をカバーし、より制御性の高い動画制作を可能にする。
Nvidiaが288GPUでMLPerf新記録を樹立、AMDとIntelは異なる戦いに注力
Nvidiaは288基のGPUでMLPerfベンチマークの新記録を達成した。一方、AMDとIntelは異なる評価指標を重視しており、直接比較は困難である。最新のMLPerfでは初めてマルチモーダルモデルと動画モデルが導入された。
Google DeepMind、Gemma 4シリーズをApache 2.0ライセンスで公開
Google DeepMindは、最大256Kトークンのコンテキスト長に対応するオープンウェイトのマルチモーダルモデル「Gemma 4」シリーズを公開した。31B、26B MoE、エッジ向けモデルなど複数のサイズを備え、ローカルやエッジでのデプロイに最適化されている。
PDFの図表はRAGで扱えるのか?6つの方法で検証して分かった“現実的な最適解”
本記事は、PDF内の図表をRAGで扱うための6つの手法(テキスト抽出・LLMによるOCR・マルチモーダルEmbedding等)を精度・コスト・処理時間の観点から比較検証し、実務で使える現実的な最適解を整理した。
Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース
Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。
Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル
GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。
ByteDanceの新AI動画生成モデル「Dreamina Seedance 2.0」がCapCutに搭載
ByteDanceがAI動画生成モデル「Dreamina Seedance 2.0」をCapCutに搭載した。同モデルは実在人物の顔や無許可知的財産からの動画生成に対する保護機能を内蔵している。
Cohereが文字起こし専用のオープンソース音声モデルを発表
Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。
Google、権利を有するデータで学習したAI音楽生成モデル「Lyria 3 Pro」を発表
GoogleがAI音楽生成モデル「Lyria 3 Pro」を発表した。同モデルは最大3分間の楽曲を生成でき、権利を有するデータで学習している点が特徴で、著作権問題を抱える競合他社と差別化している。
OpenAI、AI動画アプリ「Sora」のサービス終了を発表
OpenAIは、自社製AI動画アプリ「Sora」のサービスを終了すると発表した。筆者とカイ・フーは2026年の予測で意見が分かれており、筆者はディズニーとの提携によりSoraが主導権を握ると考えていたが、カイはユーザー基盤の拡大に長けたMetaの「Vibes」プラットフォームが勝つと予測していた。
OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆
OpenAIはSoraアプリとAPIを終了し、ディズニーは昨年12月締結の10億ドル契約から撤退した。同社はビデオモデルがChatGPT内で存続する可能性を示唆している。
Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供
GoogleがGoogle TVにGemini搭載の3つの新機能(視覚的応答、詳細分析、スポーツ要約)を追加し、ユーザーがスポーツチームなどの情報を最新状態に保てるようにした。
Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成
GoogleがGemini 3.1 Flash-Liteのデモで、完全なウェブサイトをリアルタイムで生成する機能を示した。高速で低コストだが、有用性については議論がある。
ジャンプして遊ぶ:GeminiとMediaPipeでの構築
Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。
ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし
OpenAIはChatGPTに商品画像・価格表示・比較機能を追加し、視覚的ショッピング機能を導入する一方、自社決済システムを廃止して決済を小売業者に委ねる。
NVIDIA Nemotron 3エージェントの構築:推論、マルチモーダルRAG、音声、安全性
NVIDIAが、計画・推論・検索・安全制御を専門モデルが連携して処理するエージェントAIシステム「Nemotron 3」を開発した。
ChatGPTにおける製品発見機能の強化
ChatGPTは、Agentic Commerce Protocolを活用して、視覚的に没入感のあるショッピング体験を提供し、製品発見、並列比較、販売業者統合を可能にした。
音声エージェント評価の新フレームワーク(EVA)
研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。
SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離
ICLR 2026ワークショップで採択された論文では、侮辱的なジェスチャーなどの微妙な変化が画像の安全性を大きく変える問題に対し、既存のデータセットの曖昧さを克服するため、反事実的画像生成を用いて安全性クリティカルな特徴を分離する手法を提案している。
AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表
サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。
Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始
階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。