#マルチモーダルのAIニュース

171件の記事

Soraで安全に創造する

OpenAIは、最先端のビデオモデルと新たなソーシャル創作プラットフォームがもたらす安全上の課題に対処するため、安全性を基盤としたSora 2とSoraアプリを構築した。同社のアプローチは具体的な保護策に基づいている。

OpenAI News·3月23日

マイクロソフトの超知能チームがテキストから画像を生成するMAI-Image-2をリリース

マイクロソフトの超知能チームが、テキストから画像を生成するMAI-Image-2を初の製品として発表した。同製品はマイクロソフトの全製品に展開され、最終的にはAPI経由でも利用可能となる。

The Decoder·3月20日

Google Labs、Stitchをテキストからユーザーインターフェースを生成する完全なAIデザインプラットフォームに進化

GoogleがStitchを、デザインやコーディングスキル不要でテキストや音声入力をクリック可能なプロトタイプに変換する完全なAIデザインプラットフォームに進化させた。

The Decoder·3月19日·★★★★

Google Deepmind、Gemini APIをマルチツール連携とコンテキスト循環でアップグレード

Google DeepmindはGemini APIを拡張し、開発者が単一リクエストで複数ツールを連携できる「マルチツール連鎖」と、Google Mapsをデータソースとして活用できる「コンテキスト循環」機能を追加した。

The Decoder·3月19日·★★★★

2026年Vercel AIアクセラレーター参加企業を紹介

Vercel社は、AIスタートアップ向けアクセラレータープログラムの2026年参加企業39社を発表した。同社はAIインフラ基盤を構築し、起業家が製品開発に集中できる環境を提供している。

Vercel Blog·3月18日

GPT-5.4 miniおよびnano、7万6000枚の写真記述を52ドルで実現

OpenAIがGPT-5.4 miniとnanoを発表。新モデルは従来モデルより高性能で高速。価格はGPT-5.4-miniが入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル。

Simon Willison Blog·3月18日·★★★★

Googleのパーソナルインテリジェンス機能が全米ユーザーに拡大

Googleは、AIアシスタントがGmailやGoogleフォトなどのGoogleエコシステムを活用して、より個別化された回答を提供する「パーソナルインテリジェンス」機能を全米ユーザーに拡大した。

TechCrunch AI·3月18日

Holotron-12B - 高スループットコンピュータ使用エージェント

Holotron-12Bは高スループットのコンピュータ使用エージェントであり、ユーザーの代わりに効率的にコンピュータ操作を実行するAIシステムです。

Hugging Face Blog·3月17日·★★★★

GPT-5.4 miniおよびnanoの紹介

OpenAIがGPT-5.4の小型高速版「mini」と「nano」を発表。コーディング、ツール使用、マルチモーダル推論、大量API処理向けに最適化されている。

OpenAI News·3月17日·★★★★

AMES：後期相互作用検索による近似マルチモーダルエンタープライズ検索

研究者らがAMESを発表。テキスト・画像・動画を共有表現空間に埋め込み、アーキテクチャ再設計なしで生産環境のエンタープライズ検索エンジンにマルチモーダル後期相互作用検索を導入可能と実証した。

Apple Machine Learning·3月17日·★★★★

Mistral Small 4の紹介

Mistralが、推論モデルMagistral、マルチモーダルモデルPixtral、エージェントコーディングモデルDevstralの機能を統合した119Bパラメータの新モデル「Mistral Small 4」をApache 2ライセンスでリリースした。

Simon Willison Blog·3月17日·★★★★

AIコンサルタントがChatGPT、AlphaFold、Grokを活用して愛犬の癌治療法を発見

オーストラリアのAIコンサルタントが、ChatGPT、AlphaFold、Grokを組み合わせて、愛犬の不治の癌に対する治療法の可能性を発見した。OpenAIのグレッグ・ブロックマンらがこの事例をAIの実用性の証として共有し話題となった。

The Decoder·3月16日

ハリウッド著作権苦情により、バイトダンスがAI動画生成ツールSeedance 2.0の世界展開を棚上げ

バイトダンスはAI動画モデルSeedance 2.0を3月中旬に世界展開する予定だったが、ハリウッド大手スタジオの集団的な反対により延期された。これはAI生成動画の説得力が増していることを示している。

The Decoder·3月15日·★★★★

意味的類似性を超えて：NVIDIA NeMo Retrieverの汎用化可能なエージェント型検索パイプラインの紹介

NVIDIAが、従来の意味的類似性検索を超える汎用化可能なエージェント型検索パイプライン「NeMo Retriever」を発表した。

Hugging Face Blog·3月14日·★★★★

ものの形

著者は2023年10月の記事でAIの将来像を考察し、現在はChatGPT導入後の「共知能」フェーズから新たな段階へ移行したと指摘する。この変化により、人間とAIの協働形態やその帰結がより明確になっていると述べている。

One Useful Thing·3月12日·★★★★

LiTo: 表面ライトフィールドのトークン化

研究者らが、物体の3D形状と視点依存の外観を同時にモデル化する3D潜在表現を提案した。従来手法は3D形状再構成か視点非依存の外観予測に焦点を当てていたため、現実的な視点依存効果の再現が困難だった。本手法はRGB-D画像が表面ライトフィールドのサンプルを提供する点を活用し、そのランダムサブサンプルをコンパクトな潜在ベクトルセットに符号化することで、両方を表現することを学習する。

Apple Machine Learning·3月12日·★★★★

Claudeがインタラクティブなチャート、図表、視覚化を作成できるようになりました

Anthropic社のAIアシスタントClaudeが、インタラクティブなチャート、図表、視覚化を生成する機能を追加しました。

Claude Blog·3月12日·★★★★

Google、Gemini Embedding 2でテキスト・画像・動画・音声を単一ベクトル空間に統合

Googleが初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」を発表し、テキスト・画像・動画・音声・文書を単一ベクトル空間に統合することで、AIパイプラインでの個別モデル不要化を実現した。

The Decoder·3月12日·★★★★

ExcelとPowerPoint向けClaudeの進化

Anthropic社が、ExcelとPowerPoint向けのAIアシスタント「Claude」の機能向上を発表した。同社は、スプレッドシートとプレゼンテーションソフトでのデータ分析やコンテンツ作成支援を強化する新機能を追加した。

Claude Blog·3月11日·★★★★

ジョセフ・パラディーゾのセンシング革新が芸術・医療・生態学をつなぐ

MITのジョセフ・パラディーゾ氏は、物理学を基盤にセンシング技術を開発し、芸術・医療・生態学など複数分野にまたがる研究を推進している。

MIT ML News·3月11日

ChatGPTが数学と物理学をインタラクティブな視覚化で説明

ChatGPTが数学・物理学トピックでインタラクティブな視覚化機能を追加し、ユーザーが変数を調整してグラフをリアルタイム更新できるようになった。70以上の概念が利用可能。

The Decoder·3月11日·★★★★

ChatGPTが数学・科学概念を理解するためのインタラクティブな視覚化機能を追加

OpenAIは、ChatGPTに動的な視覚的説明機能を導入し、ユーザーが数式や変数、数学的関係のリアルタイム変化をインタラクティブな視覚化で直接操作できるようにした。

TechCrunch AI·3月11日·★★★★

Google、AI搭載「Ask Photos」検索機能に関するユーザーの苦情を受け入れ

Googleは、AI搭載の「Ask Photos」検索機能についてユーザーから寄せられた苦情を受け入れ、Google Photosの検索画面でユーザーが希望する検索体験を選択できるオプションを提供した。

TechCrunch AI·3月10日

AdobeがPhotoshop向けAIアシスタントを発表

AdobeがPhotoshopにAIアシスタントを導入し、FireflyにAI画像編集機能を追加した。

TechCrunch AI·3月10日·★★★★

ZoomがAI搭載オフィススイートを導入、会議用AIアバターは今月登場と発表

ZoomがAI搭載のオフィススイートを導入し、会議用AIアバターを今月提供開始すると発表した。同社は会議向けリアルタイムディープフェイク検出技術も導入する。

TechCrunch AI·3月10日·★★★★

Granite 4.0 1B Speech：コンパクトで多言語対応、エッジ向けに構築

IBMがGranite 4.0 1B Speechを発表した。これは、エッジデバイス向けに設計されたコンパクトで多言語対応の音声AIモデルである。

Hugging Face Blog·3月10日·★★★★

マイクロソフト、CopilotにAnthropicのClaude Coworkを導入しOutlook、Teams、Excelでタスクを自動実行

マイクロソフトはCopilotにAnthropicのClaude Coworkを統合し、OpenAIではなくAnthropicのAIを使用してOutlook、Teams、Excelでのタスクを自律的に処理できるようにした。

The Decoder·3月10日·★★★★

OpenAI従業員が新たなオムニモデルを示唆

OpenAIの従業員が投稿と「BiDi」と呼ばれる音声プロジェクトのリークを通じて、同社が次世代の大規模マルチモーダルアップグレードに取り組んでいることを示唆した。

The Decoder·3月9日·★★★★

研究者ら、動画AIモデルが単なる学習データ増加では解決できない推論の限界に直面と指摘

国際研究チームが最大規模の動画推論データセットを公開し、Sora 2やVeo 3.1などの最新AIモデルでも推論タスクでは人間に大きく劣ることを示した。

The Decoder·3月7日·★★★★

Descriptが大規模な多言語ビデオ吹き替えを可能にする方法

Descript社はOpenAIのモデルを活用し、意味とタイミングの両方を最適化した翻訳で、大規模な多言語ビデオ吹き替えを実現している。

OpenAI News·3月6日·★★★★

視覚と言語モデルを用いた項目難易度予測

研究チームは、GPT-4.1-nanoを用いて、データ可視化リテラシーテスト項目の難易度を予測する手法を調査した。項目テキストと可視化画像の特徴を組み合わせ、米国成人の正答率を予測する能力を評価した。

ArXiv cs.AI·3月6日

OpenAIがGPT-5.4 ThinkingとProを発表、コーディング・推論・コンピューター操作を統合

OpenAIがGPT-5.4を発表した。同モデルは初めてコーディング、コンピューター操作、推論を単一パッケージで統合したOpenAIの最高性能モデルである。

The Decoder·3月6日·★★★★

LWiAIポッドキャスト #235 - Sonnet 4.6、深層思考トークン、Anthropic対ペンタゴン

アンドレイ・クレンコフとジェレミー・ハリスがホストを務めるLWiAIポッドキャストが、Sonnet 4.6の発表、深層思考トークンの技術、Anthropicと米国防総省の関係など、先週の主要なAIニュースを要約・議論した。

Last Week in AI·3月5日·★★★★

Google、Geminiが男性を自殺に追い込んだとされる訴訟で不法死亡訴えに直面

米国カリフォルニア州連邦裁判所への訴訟で、GoogleのチャットボットGeminiがフロリダ州の36歳男性ジョナサン・ガバラスを自殺に追い込んだと主張している。

The Decoder·3月5日·★★★★

スタートアップが提案する、より信頼性の高いAI回答の提供方法：チャットボットをクラウドソーシングする

CollectivIQ社は、ChatGPT、Gemini、Claude、Grokなど最大10種類のAIモデルから同時に情報を引き出した回答をユーザーに提示することで、AIクエリに対するより正確な回答の提供を目指している。

TechCrunch AI·3月4日

ジェミニ 3.1 フラッシュ・ライト

Googleは低価格なジェミニ 3.1 フラッシュ・ライトモデルを公開した。入力100万トークンあたり0.25ドル、出力1.5ドルで、プロ版の8分の1の価格だ。4段階の思考レベルをサポートする。

Simon Willison Blog·3月4日

Claude Codeが音声モード機能を導入

Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。

TechCrunch AI·3月4日

Qwen3.5の小型サイズモデルがリリースされました！

通义实验室がQwen3.5の小型サイズモデル（0.8B/2B/4B/9B）を発表し、Apache 2.0ライセンスで商用利用可能なオープンソースとして提供する。消費級グラフィックカードで動作し、LoRA/全量微調に対応することで、低コストでの垂直シナリオ実装を支援する。

通义大模型·3月3日·★★★★

GammaがVercelでデザイン重視のエージェントを構築

Gamma社は、ユーザーが一言でレイアウト・間隔・階層を考慮した完全なプレゼンテーションを自動生成できる「デザイン優先」のAIエージェントをVercelで開発した。同社は初期メンバーの3割をデザイナーとして採用し、設計へのこだわりを製品哲学に反映している。

Vercel Blog·2月28日·★★★★

Kimi Code Plan正式アップグレード：3倍の利用枠を継続して享受

月之暗面がKimi Code Planをトークン課金方式に変更し、期間限定だった3倍利用枠を恒久化した。これにより開発者はK2.5多モーダルモデルを制限なく活用できるようになり、プログラミング体験が向上した。

月之暗面 Kimi·2月28日

Nano Banana 2：プロ仕様の機能と超高速処理を融合

Nano Banana社が最新の画像生成モデルを発表した。同モデルは高度な世界知識、製品化レベルの仕様、被写体の一貫性などを、高速処理で提供する。

Google DeepMind·2月27日·★★★★

アリババのオープンソースQwen 3.5、GPT-5 miniとClaude Sonnet 4.5に対抗し低コストを実現

アリババが新AIモデルQwen 3.5を発表。競合モデルと同等性能を低コストで提供し、AI市場の競争激化を示唆。

The Decoder·2月26日·★★★★

ClaudeがExcelとPowerPointを自律的に切り替え可能に

AnthropicのAIアシスタントClaudeが、ExcelとPowerPoint間の作業を自動で切り替えられる新機能を発表。

The Decoder·2月25日·★★★★

Apple研究者がFerret-UI Liteを発表、UIを見て操作するオンデバイスAIモデル

Appleが開発したFerret-UI Liteは、モバイルやデスクトップ画面を理解し、UI要素を操作できる3BパラメータのオンデバイスAIモデルです。

InfoQ·2月25日·★★★★

AMUSE: エージェント的マルチスピーカー理解のための音声視覚ベンチマークとアライメントフレームワーク

GPT-4oなどの多モーダル大規模言語モデルは、複数話者の会話状況での発話者追跡や役割維持に課題がある。AMUSEはこの問題に対処するベンチマークとフレームワークを提案。

Apple Machine Learning·2月24日·★★★★

Apple 推論と計画ワークショップ 2025

AppleがAIの推論と計画能力を向上させる研究を進めており、自律的なAIシステムの開発を目指している。

Apple Machine Learning·2月23日·★★★★

LWiAIポッドキャスト #234 - Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5

AI技術の最新動向を紹介するポッドキャスト。Opus 4.6、GPT-5.3-Codex、Seedance 2.0、GLM-5などの新モデルやアップデートについて議論。

Last Week in AI·2月17日·★★★★

Google I/O 2026の準備を始めよう

Google I/Oが5月19日から20日に開催され、Android、AI、Chrome、Cloudの最新情報がライブストリームで配信されます。

Google Developers AI·2月17日

Windsurf エディタ 1.9552.24 リリース：新モデル追加と不具合修正

Windsurf はエディタのバージョン 1.9552.24 をリリースし、GitHub プルリクエスト拡張機能との互換性を修正しました。また、Gemini 3.1 Pro や Claude Sonnet 4.6 など新モデルを追加し、自己サービスユーザー向けに期間限定価格で提供を開始しました。

Windsurf Changelog·2月17日

AAAI-2026 参加報告：サイバーエージェント村田氏がシンガポールで開催された人工知能国際会議に参加し、採択論文を発表

サイバーエージェントの AI チーム所属・村田氏は、1 月 20 日から 27 日にシンガポールで開催された人工知能研究の国際会議「AAAI-2026」に参加しました。同氏は学生時代から継続していた論文が採択され、過去最多の投稿数があった本会議で研究成果を発表しました。

AI Shift Tech Blog·2月6日

← 前へ3 / 4次へ →

#マルチモーダル のAIニュース