#マルチモーダル のAIニュース
171件の記事
Soraで安全に創造する
OpenAIは、最先端のビデオモデルと新たなソーシャル創作プラットフォームがもたらす安全上の課題に対処するため、安全性を基盤としたSora 2とSoraアプリを構築した。同社のアプローチは具体的な保護策に基づいている。
マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース
マイクロソフトの超知能チームが、テキストから画像を生成するMAI-Image-2を初の製品として発表した。同製品はマイクロソフトの全製品に展開され、最終的にはAPI経由でも利用可能となる。
Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化
GoogleがStitchを、デザインやコーディングスキル不要でテキストや音声入力をクリック可能なプロトタイプに変換する完全なAIデザインプラットフォームに進化させた。
Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード
Google DeepmindはGemini APIを拡張し、開発者が単一リクエストで複数ツールを連携できる「マルチツール連鎖」と、Google Mapsをデータソースとして活用できる「コンテキスト循環」機能を追加した。
2026年Vercel AIアクセラレーター参加企業を紹介
Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。
GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現
OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。
Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大
Googleは、AIアシスタントがGmailやGoogleフォトなどのGoogleエコシステムを活用して、より個別化された回答を提供する「パーソナルインテリジェンス」機能を全米ユーザーに拡大した。
Holotron-12B - 高スループットコンピュータ使用エージェント
Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。
GPT-5.4 miniおよびnanoの紹介
OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。
AMES:後期相互作用検索による近似マルチモーダルエンタープライズ検索
研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。
Mistral Small 4の紹介
Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。
AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見
オーストラリアのAIコンサルタントが、ChatGPT、AlphaFold、Grokを組み合わせて、愛犬の不治の癌に対する治療法の可能性を発見した。OpenAIのグレッグ・ブロックマンらがこの事例をAIの実用性の証として共有し話題となった。
ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ
バイトダンスはAI動画モデルSeedance 2.0を3月中旬に世界展開する予定だったが、ハリウッド大手スタジオの集団的な反対により延期された。これはAI生成動画の説得力が増していることを示している。
意味的類似性を超えて:NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介
NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。
ものの形
著者は2023年10月の記事でAIの将来像を考察し、現在はChatGPT導入後の「共知能」フェーズから新たな段階へ移行したと指摘する。この変化により、人間とAIの協働形態やその帰結がより明確になっていると述べている。
LiTo: 表面ライトフィールドのトークン化
研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。
Claudeがインタラクティブなチャート、図表、視覚化を作成できるようになりました
Anthropic社のAIアシスタントClaudeが、インタラクティブなチャート、図表、視覚化を生成する機能を追加しました。
Google、Gemini Embedding 2でテキスト・画像・動画・音声を単一ベクトル空間に統合
Googleが初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」を発表し、テキスト・画像・動画・音声・文書を単一ベクトル空間に統合することで、AIパイプラインでの個別モデル不要化を実現した。
ExcelとPowerPoint向けClaudeの進化
Anthropic社が、ExcelとPowerPoint向けのAIアシスタント「Claude」の機能向上を発表した。同社は、スプレッドシートとプレゼンテーションソフトでのデータ分析やコンテンツ作成支援を強化する新機能を追加した。
ジョセフ・パラディーゾのセンシング革新が芸術・医療・生態学をつなぐ
MITのジョセフ・パラディーゾ氏は、物理学を基盤にセンシング技術を開発し、芸術・医療・生態学など複数分野にまたがる研究を推進している。
ChatGPTが数学と物理学をインタラクティブな視覚化で説明
ChatGPTが数学・物理学トピックでインタラクティブな視覚化機能を追加し、ユーザーが変数を調整してグラフをリアルタイム更新できるようになった。70以上の概念が利用可能。
ChatGPTが数学・科学概念を理解するためのインタラクティブな視覚化機能を追加
OpenAIは、ChatGPTに動的な視覚的説明機能を導入し、ユーザーが数式や変数、数学的関係のリアルタイム変化をインタラクティブな視覚化で直接操作できるようにした。
Google、AI搭載「Ask Photos」検索機能に関するユーザーの苦情を受け入れ
Googleは、AI搭載の「Ask Photos」検索機能についてユーザーから寄せられた苦情を受け入れ、Google Photosの検索画面でユーザーが希望する検索体験を選択できるオプションを提供した。
AdobeがPhotoshop向けAIアシスタントを発表
AdobeがPhotoshopにAIアシスタントを導入し、FireflyにAI画像編集機能を追加した。
ZoomがAI搭載オフィススイートを導入、会議用AIアバターは今月登場と発表
ZoomがAI搭載のオフィススイートを導入し、会議用AIアバターを今月提供開始すると発表した。同社は会議向けリアルタイムディープフェイク検出技術も導入する。
Granite 4.0 1B Speech:コンパクトで多言語対応、エッジ向けに構築
IBMがGranite 4.0 1B Speechを発表した。これは、エッジデバイス向けに設計されたコンパクトで多言語対応の音声AIモデルである。
マイクロソフト、CopilotにAnthropicのClaude Coworkを導入しOutlook、Teams、Excelでタスクを自動実行
マイクロソフトはCopilotにAnthropicのClaude Coworkを統合し、OpenAIではなくAnthropicのAIを使用してOutlook、Teams、Excelでのタスクを自律的に処理できるようにした。
OpenAI従業員が新たなオムニモデルを示唆
OpenAIの従業員が投稿と「BiDi」と呼ばれる音声プロジェクトのリークを通じて、同社が次世代の大規模マルチモーダルアップグレードに取り組んでいることを示唆した。
研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘
国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。
Descriptが大規模な多言語ビデオ吹き替えを可能にする方法
Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。
視覚と言語モデルを用いた項目難易度予測
研究チームは、GPT-4.1-nanoを用いて、データ可視化リテラシーテスト項目の難易度を予測する手法を調査した。項目テキストと可視化画像の特徴を組み合わせ、米国成人の正答率を予測する能力を評価した。
OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合
OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。
LWiAIポッドキャスト #235 - Sonnet 4.6、深層思考トークン、Anthropic対ペンタゴン
アンドレイ・クレンコフとジェレミー・ハリスがホストを務めるLWiAIポッドキャストが、Sonnet 4.6の発表、深層思考トークンの技術、Anthropicと米国防総省の関係など、先週の主要なAIニュースを要約・議論した。
Google、Geminiが男性を自殺に追い込んだとされる訴訟で不法死亡訴えに直面
米国カリフォルニア州連邦裁判所への訴訟で、GoogleのチャットボットGeminiがフロリダ州の36歳男性ジョナサン・ガバラスを自殺に追い込んだと主張している。
スタートアップが提案する、より信頼性の高いAI回答の提供方法:チャットボットをクラウドソーシングする
CollectivIQ社は、ChatGPT、Gemini、Claude、Grokなど最大10種類のAIモデルから同時に情報を引き出した回答をユーザーに提示することで、AIクエリに対するより正確な回答の提供を目指している。
ジェミニ 3.1 フラッシュ・ライト
Googleは低価格なジェミニ 3.1 フラッシュ・ライトモデルを公開した。入力100万トークンあたり0.25ドル、出力1.5ドルで、プロ版の8分の1の価格だ。4段階の思考レベルをサポートする。
Claude Codeが音声モード機能を導入
Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。
Qwen3.5の小型サイズモデルがリリースされました!
通义实验室がQwen3.5の小型サイズモデル(0.8B/2B/4B/9B)を発表し、Apache 2.0ライセンスで商用利用可能なオープンソースとして提供する。消費級グラフィックカードで動作し、LoRA/全量微調に対応することで、低コストでの垂直シナリオ実装を支援する。
GammaがVercelでデザイン重視のエージェントを構築
Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。
Kimi Code Plan正式アップグレード:3倍の利用枠を継続して享受
月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。
Nano Banana 2:プロ仕様の機能と超高速処理を融合
Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。
アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現
アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。
ClaudeがExcelとPowerPointを自律的に切り替え可能に
AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。
Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル
Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。
AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク
GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。
Apple 推論と計画ワークショップ 2025
AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。
LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5
AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。
Google I/O 2026の準備を始めよう
Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。
Windsurf エディタ 1.9552.24 リリース:新モデル追加と不具合修正
Windsurf はエディタのバージョン 1.9552.24 をリリースし、GitHub プルリクエスト拡張機能との互換性を修正しました。また、Gemini 3.1 Pro や Claude Sonnet 4.6 など新モデルを追加し、自己サービスユーザー向けに期間限定価格で提供を開始しました。
AAAI-2026 参加報告:サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表
サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。