#マルチモーダル のAIニュース
133件の記事
OpenAI、AI動画アプリ「Sora」のサービス終了を発表
OpenAIは、自社製AI動画アプリ「Sora」のサービスを終了すると発表した。筆者とカイ・フーは2026年の予測で意見が分かれており、筆者はディズニーとの提携によりSoraが主導権を握ると考えていたが、カイはユーザー基盤の拡大に長けたMetaの「Vibes」プラットフォームが勝つと予測していた。
OpenAI、SoraアプリとAPIを終了もChatGPT内でビデオモデル存続を示唆
OpenAIはSoraアプリとAPIを終了し、ディズニーは昨年12月締結の10億ドル契約から撤退した。同社はビデオモデルがChatGPT内で存続する可能性を示唆している。
Google TVの新Gemini機能、スポーツチームなどの最新情報をファンに提供
GoogleがGoogle TVにGemini搭載の3つの新機能(視覚的応答、詳細分析、スポーツ要約)を追加し、ユーザーがスポーツチームなどの情報を最新状態に保てるようにした。
Google DeepmindのGemini 3.1 Flash-Liteがほぼリアルタイムでウェブサイトを生成
GoogleがGemini 3.1 Flash-Liteのデモで、完全なウェブサイトをリアルタイムで生成する機能を示した。高速で低コストだが、有用性については議論がある。
ジャンプして遊ぶ:GeminiとMediaPipeでの構築
Googleは、Gemini CanvasとMediaPipe Pose Landmarkerを使用して、モーション制御ゲーム開発のワークフローを効率化する方法を発表した。開発者はGoogle AI Studioで低遅延モデルや安定したトラッキングポイントを最適化できる。
ChatGPTが商品画像・価格・比較機能を備えたショッピングプラットフォームに変貌、ただし決済機能はなし
OpenAIはChatGPTに商品画像・価格表示・比較機能を追加し、視覚的ショッピング機能を導入する一方、自社決済システムを廃止して決済を小売業者に委ねる。
NVIDIA Nemotron 3エージェントの構築:推論、マルチモーダルRAG、音声、安全性
NVIDIAが、計画・推論・検索・安全制御を専門モデルが連携して処理するエージェントAIシステム「Nemotron 3」を開発した。
ChatGPTにおける製品発見機能の強化
ChatGPTは、Agentic Commerce Protocolを活用して、視覚的に没入感のあるショッピング体験を提供し、製品発見、並列比較、販売業者統合を可能にした。
音声エージェント評価の新フレームワーク(EVA)
研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。
SafetyPairs: 反事実的画像生成による安全性クリティカルな画像特徴の分離
ICLR 2026ワークショップで採択された論文では、侮辱的なジェスチャーなどの微妙な変化が画像の安全性を大きく変える問題に対し、既存のデータセットの曖昧さを克服するため、反事実的画像生成を用いて安全性クリティカルな特徴を分離する手法を提案している。
AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表
サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。
Step Plan養蝦套餐がリリース、開発者コミュニティ向け半額キャンペーン開始
階躍星辰がOpenClaw/Codingユーザー向け月額サブスクリプション「Step Plan」を発表。Step 3.5 Flashモデルを搭載した4段階のプランを提供し、開発者コミュニティ向けに半額割引を実施。
Soraで安全に創造する
OpenAIは、最先端のビデオモデルと新たなソーシャル創作プラットフォームがもたらす安全上の課題に対処するため、安全性を基盤としたSora 2とSoraアプリを構築した。同社のアプローチは具体的な保護策に基づいている。
マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース
マイクロソフトの超知能チームが、テキストから画像を生成するMAI-Image-2を初の製品として発表した。同製品はマイクロソフトの全製品に展開され、最終的にはAPI経由でも利用可能となる。
Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化
GoogleがStitchを、デザインやコーディングスキル不要でテキストや音声入力をクリック可能なプロトタイプに変換する完全なAIデザインプラットフォームに進化させた。
Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード
Google DeepmindはGemini APIを拡張し、開発者が単一リクエストで複数ツールを連携できる「マルチツール連鎖」と、Google Mapsをデータソースとして活用できる「コンテキスト循環」機能を追加した。
2026年Vercel AIアクセラレーター参加企業を紹介
Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。
GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現
OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。
Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大
Googleは、AIアシスタントがGmailやGoogleフォトなどのGoogleエコシステムを活用して、より個別化された回答を提供する「パーソナルインテリジェンス」機能を全米ユーザーに拡大した。
Holotron-12B - 高スループットコンピュータ使用エージェント
Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。
GPT-5.4 miniおよびnanoの紹介
OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。
AMES:後期相互作用検索による近似マルチモーダルエンタープライズ検索
研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。
Mistral Small 4の紹介
Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。
AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見
オーストラリアのAIコンサルタントが、ChatGPT、AlphaFold、Grokを組み合わせて、愛犬の不治の癌に対する治療法の可能性を発見した。OpenAIのグレッグ・ブロックマンらがこの事例をAIの実用性の証として共有し話題となった。
ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ
バイトダンスはAI動画モデルSeedance 2.0を3月中旬に世界展開する予定だったが、ハリウッド大手スタジオの集団的な反対により延期された。これはAI生成動画の説得力が増していることを示している。
意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。
ものの形
著者は2023年10月の記事でAIの将来像を考察し、現在はChatGPT導入後の「共知能」フェーズから新たな段階へ移行したと指摘する。この変化により、人間とAIの協働形態やその帰結がより明確になっていると述べている。
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。
Claudeがインタラクティブなチャート、図表、視覚化を作成できるようになりました
Anthropic社のAIアシスタントClaudeが、インタラクティブなチャート、図表、視覚化を生成する機能を追加しました。
Google、Gemini Embedding 2でテキスト・画像・動画・音声を単一ベクトル空間に統合
Googleが初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」を発表し、テキスト・画像・動画・音声・文書を単一ベクトル空間に統合することで、AIパイプラインでの個別モデル不要化を実現した。
ExcelとPowerPoint向けClaudeの進化
Anthropic社が、ExcelとPowerPoint向けのAIアシスタント「Claude」の機能向上を発表した。同社は、スプレッドシートとプレゼンテーションソフトでのデータ分析やコンテンツ作成支援を強化する新機能を追加した。
ジョセフ・パラディーゾのセンシング革新が芸術・医療・生態学をつなぐ
MITのジョセフ・パラディーゾ氏は、物理学を基盤にセンシング技術を開発し、芸術・医療・生態学など複数分野にまたがる研究を推進している。
ChatGPTが数学と物理学をインタラクティブな視覚化で説明
ChatGPTが数学・物理学トピックでインタラクティブな視覚化機能を追加し、ユーザーが変数を調整してグラフをリアルタイム更新できるようになった。70以上の概念が利用可能。
ChatGPTが数学・科学概念を理解するためのインタラクティブな視覚化機能を追加
OpenAIは、ChatGPTに動的な視覚的説明機能を導入し、ユーザーが数式や変数、数学的関係のリアルタイム変化をインタラクティブな視覚化で直接操作できるようにした。
Google、AI搭載「Ask Photos」検索機能に関するユーザーの苦情を受け入れ
Googleは、AI搭載の「Ask Photos」検索機能についてユーザーから寄せられた苦情を受け入れ、Google Photosの検索画面でユーザーが希望する検索体験を選択できるオプションを提供した。
AdobeがPhotoshop向けAIアシスタントを発表
AdobeがPhotoshopにAIアシスタントを導入し、FireflyにAI画像編集機能を追加した。
ZoomがAI搭載オフィススイートを導入、会議用AIアバターは今月登場と発表
ZoomがAI搭載のオフィススイートを導入し、会議用AIアバターを今月提供開始すると発表した。同社は会議向けリアルタイムディープフェイク検出技術も導入する。
Granite 4.0 1B Speech:コンパクトで多言語対応、エッジ向けに構築
IBMがGranite 4.0 1B Speechを発表した。これは、エッジデバイス向けに設計されたコンパクトで多言語対応の音声AIモデルである。
マイクロソフト、CopilotにAnthropicのClaude Coworkを導入しOutlook、Teams、Excelでタスクを自動実行
マイクロソフトはCopilotにAnthropicのClaude Coworkを統合し、OpenAIではなくAnthropicのAIを使用してOutlook、Teams、Excelでのタスクを自律的に処理できるようにした。
OpenAI従業員が新たなオムニモデルを示唆
OpenAIの従業員が投稿と「BiDi」と呼ばれる音声プロジェクトのリークを通じて、同社が次世代の大規模マルチモーダルアップグレードに取り組んでいることを示唆した。
研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘
国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。
Descriptが大規模な多言語ビデオ吹き替えを可能にする方法
Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。
視覚と言語モデルを用いた項目難易度予測
研究チームは、GPT-4.1-nanoを用いて、データ可視化リテラシーテスト項目の難易度を予測する手法を調査した。項目テキストと可視化画像の特徴を組み合わせ、米国成人の正答率を予測する能力を評価した。
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
LWiAIポッドキャスト #235 - Sonnet 4.6、深層思考トークン、Anthropic対ペンタゴン
アンドレイ・クレンコフとジェレミー・ハリスがホストを務めるLWiAIポッドキャストが、Sonnet 4.6の発表、深層思考トークンの技術、Anthropicと米国防総省の関係など、先週の主要なAIニュースを要約・議論した。
Google、Geminiが男性を自殺に追い込んだとされる訴訟で不法死亡訴えに直面
米国カリフォルニア州連邦裁判所への訴訟で、GoogleのチャットボットGeminiがフロリダ州の36歳男性ジョナサン・ガバラスを自殺に追い込んだと主張している。
スタートアップが提案する、より信頼性の高いAI回答の提供方法:チャットボットをクラウドソーシングする
CollectivIQ社は、ChatGPT、Gemini、Claude、Grokなど最大10種類のAIモデルから同時に情報を引き出した回答をユーザーに提示することで、AIクエリに対するより正確な回答の提供を目指している。
ジェミニ 3.1 フラッシュ・ライト
Googleは低価格なジェミニ 3.1 フラッシュ・ライトモデルを公開した。入力100万トークンあたり0.25ドル、出力1.5ドルで、プロ版の8分の1の価格だ。4段階の思考レベルをサポートする。
Claude Codeが音声モード機能を導入
Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。
Qwen3.5の小型サイズモデルがリリースされました!
通义实验室がQwen3.5の小型サイズモデル(0.8B/2B/4B/9B)を発表し、Apache 2.0ライセンスで商用利用可能なオープンソースとして提供する。消費級グラフィックカードで動作し、LoRA/全量微調に対応することで、低コストでの垂直シナリオ実装を支援する。