#マルチモーダルai のAIニュース

114件の記事

【AIニュース】ImageGenはAGIへの道を進んでいる

AnthropicのようなエンタープライズAI重視の潮流の中で、GPT-Image-2は創造的な応用を推進し、AGI実現への重要な一歩を示している。

Latent Space·4月28日·★★★★

大学教授らが講義を切り刻んでAI生成コンテンツ化されたことに懸念

アリゾナ州立大学は、教員の講義動画を短く切り分けテキスト化する「Atomic」プラットフォームを導入した。これにより、教員らは自身の講義が許可なく利用され、低品質なAIコンテンツに変換されていることに強い懸念を示している。

404 Media·4月28日

治療と患者ケアにおけるマルチモーダル生物基盤モデルの応用

医療・製薬業界は、マルチモーダル生物基盤モデルを用いて断片化したデータを統合し、意思決定者の診断・治療予測精度を向上させる。

AWS Machine Learning Blog·4月24日

OpenAI「ChatGPT Images 2.0」は生成前に推論し、画像作成に思考機能とウェブ検索を追加

OpenAIは画像生成モデル「ChatGPT Images 2.0」に推論機能とウェブ検索を追加した。同モデルは単一プロンプトから最大8枚の画像を生成でき、非ラテン文字を含むテキスト処理能力が大幅に向上した。

The Decoder·4月22日·★★★★

複雑なチャートでは最高のAIモデルも性能が約半分低下、新ベンチマークが発見

RealChart2Codeベンチマークが、実世界データセットから構築された複雑な可視化で14の主要AIモデルをテストした結果、最高の独自モデルでも単純なテストに比べて性能が約半分低下することが判明した。

The Decoder·4月19日·★★★★

Amazon Novaモデル蒸留でビデオ意味検索の意図を最適化

AWSは、Amazon Bedrock上でAmazon Novaモデル蒸留を活用し、ビデオ意味検索システムの精度、コスト、遅延のバランスを最適化する方法を紹介した。

AWS Machine Learning Blog·4月18日·★★★★

Amazon Nova Multimodal Embeddingsで強化する動画意味検索

Amazonは、動画内の特定シーンを高速・高精度に検索できる「Nova Multimodal Embeddings」を発表した。スポーツ放送局やスタジオが、プレイヤーの得点シーンや特定俳優のシーンを瞬時に抽出できるようになる。

AWS Machine Learning Blog·4月18日·★★★★

極氪8Xに乗り込み、階躍大モデルを体感する

階躍星辰は、極氪8Xの量産開始に合わせ、大規模言語モデル「Step 3.5 Flash」を中核とする車載AI「超級Eva」を搭載した。これは単なるチャットボットではなく、運転制御システムと統合された車両全体の知能体である。

阶跃星辰·4月17日·★★★★

Physical Intelligence、LLMのような汎化能力を持つロボットモデルを公開（欠点も含む）

米国スタートアップPhysical Intelligenceが、言語モデルがテキスト断片を再構成するように訓練済みスキルを組み合わせるロボット基盤モデル「π0.7」を発表した。研究者はこれをロボット工学における「構成的汎化」の初期兆候と位置付けている。

The Decoder·4月17日

OpenAIがCodexを常時稼働型のコーディングエージェントに進化させ、画面を監視する機能を追加

OpenAIは開発者向けツール「Codex」を大幅に拡張し、AIがMacを自律的に操作し、画像を生成し、設定を記憶し、数週間にわたり自律的にタスクを継続できるようにした。この動きはAnthropicのClaude Codeを直接標的としている。

The Decoder·4月17日·★★★★

Qwen3.6-35B-A3Bがオープンソース化！

Qwenチームが、総パラメータ350億の軽量MoE（混合エキスパート）モデル「Qwen3.6-35B-A3B」をオープンソースで公開した。推論時に活性化するパラメータは30億と少ないが、前世代モデルを性能で上回り、大規模な密モデルと同等の性能を発揮する。

通义大模型·4月16日

ほぼすべてのことに使えるCodex

OpenAIは週300万人の開発者に利用されるCodexの主要アップデートを発表した。新機能により、コンピュータ操作や画像生成が可能になり、開発者のワークフローを支援する強力なパートナーとなった。

OpenAI News·4月16日·★★★★

テキスト翻訳で知られるDeepL、音声翻訳に進出

DeepLは、ZoomやMicrosoft Teamsなどの会議ツールでリアルタイム翻訳に活用できる音声翻訳技術を開発した。

TechCrunch AI·4月16日

Claude Opus 4.7がVercel AI Gatewayで利用可能に

AnthropicがClaude Opus 4.7をVercel AI Gatewayで公開した。同モデルは長時間実行可能な非同期エージェント向けに最適化され、複雑な多段階タスクを確実に処理できる。知識労働者向けタスクや画像処理ライブラリを用いたプログラム的ツール呼び出しで性能向上を示す。

Vercel Blog·4月16日·★★★★

Google、Mac向けネイティブGeminiアプリを公開

GoogleがMac向けネイティブGeminiアプリをリリースした。ユーザーは画面の内容をGeminiと共有し、ローカルファイルを含む表示中の内容に対してリアルタイムで支援を受けられる。

TechCrunch AI·4月16日

Google、70以上の言語をサポートする最も表現力豊かなGemini 3.1テキスト読み上げモデルをリリース

Googleが、70以上の言語で自然な音声を生成できるGemini 3.1 Flash TTSを発表した。新しいオーディオタグにより、スタイル、ペース、トーンを精密に制御可能。

The Decoder·4月16日·★★★★

Gemini 3.1 Flash TTS の公開

Google はプロンプトで制御可能な新しいテキスト読み上げモデル「Gemini 3.1 Flash TTS」を公開した。Gemini API経由で提供され、音声ファイルの出力のみに対応している。

Simon Willison Blog·4月16日

Gemini Robotics-ER 1.6：強化された身体化推論による実世界ロボットタスクの実現

GoogleのGemini Robotics ER 1.6は、空間推論と多視点理解を強化し、自律ロボットの実世界タスク遂行能力を向上させる技術を発表した。

Google DeepMind·4月14日·★★★★

MLXを使用したGemma 4オーディオ

Rahim Nathwaniが、macOSで10.28GBのGemma 4 E2BモデルとMLX、mlx-vlmを使用してオーディオファイルを文字起こしするuv runレシピを共有した。

Simon Willison Blog·4月13日

研究者が発見：AIモデルは助けを求めるより推測することを選ぶ

研究者がProactiveBenchで22のマルチモーダル言語モデルをテストした結果、視覚情報が欠けている場合に助けを求めるモデルはほぼなく、単純な強化学習アプローチが修正の可能性を示唆している。

The Decoder·4月11日

ChatGPTで画像を作成する方法

OpenAIのChatGPTが、明確なプロンプトを使用して画像を作成・改良し、デザインを繰り返し改善し、数分で高品質なビジュアルを生成する方法を説明している。

OpenAI News·4月10日

画像・テキスト・動画を統合！オープンソースフレームワークで全モダリティ知識ベースを実現

通義実験室が、画像・テキスト・動画などの複数モダリティを統合的に処理できるオープンソースフレームワーク「VimRAG」を発表した。企業の多様な知識資産を一元的に扱い、大規模言語モデルの回答精度向上を目指す。

通义大模型·4月9日·★★★★

Sentence Transformersによるマルチモーダル埋め込みとリランカーモデル

Sentence Transformersチームが、テキストと画像を統合的に処理できるマルチモーダル埋め込みモデルと、検索結果の精度を向上させるリランカーモデルを発表した。

Hugging Face Blog·4月9日·★★★★

Amazon Nova Embeddingsを用いたインテリジェント音声検索の構築：意味的音声理解への深堀り

Amazonは、音声コンテンツを検索可能なインテリジェントデータに変換するAmazon Novaマルチモーダル埋め込みを発表した。この技術は、トーン、感情、音楽的特徴、環境音などの音響的特徴を捉え、コンテンツ理解と検索機能を強化する。

AWS Machine Learning Blog·4月9日·★★★★

GitHub Copilot in Visual Studio Code、3月リリース

GitHub CopilotがVS Codeで完全自律型エージェントセッション「Autopilot」のパブリックプレビュー、ブラウザデバッグ統合、画像・動画チャット対応、カスタマイズ管理用統合エディターをリリースした。

GitHub Changelog·4月8日·★★★★

メタ、マルチモーダル推論モデル「Muse Spark」を公開

メタはマルチモーダル推論モデル「Muse Spark」を公開した。ツール使用やビジュアル思考、マルチエージェント調整機能を備え、Llama 4 より計算資源を10倍以上節約。meta.aiで利用可能で、将来的なオープンソース化も計画している。

Smol AI News·4月8日·★★★★

Amazon Nova 2 Sonicでリアルタイム会話型ポッドキャストを構築

Amazonが、高度な音声理解・生成モデル「Nova 2 Sonic」を発表し、コンテンツ制作者や組織が、従来の制作プロセス（企画・録音・編集）の課題を克服し、高品質な音声コンテンツを迅速に量産できるリアルタイム会話型ポッドキャスト制作を可能にした。

AWS Machine Learning Blog·4月8日·★★★★

Googleマップ、AIで写真にキャプションを自動生成する機能を追加

Googleは、Gemini AIを活用し、Googleマップのユーザーが写真や動画を共有する際に自動でキャプションを生成する新機能を導入した。

TechCrunch AI·4月8日

Google、オープンモデルファミリーGemma 4を発表

Googleは、高度な推論とマルチモーダル機能を備えたオープンモデルファミリー「Gemma 4」を発表した。

AI Business·4月3日

Zhipu AIのGLM-5V-Turboがデザインモックアップを直接実行可能なフロントエンドコードに変換

中国AIスタートアップZhipu AIが、画像・動画・テキストを処理するマルチモーダルモデルGLM-5V-Turboをリリースし、デザインモックアップから実行可能なフロントエンドコードを生成する機能を提供した。

The Decoder·4月3日·★★★★

Claude Codeのソースコード漏洩、OpenAIが動画生成から撤退、Geminiが音楽生成を追加、LLMが推論時に学習

Claude Codeのソースコードが漏洩し、OpenAIが動画生成事業から撤退した。一方、Geminiは音楽生成機能を追加し、大規模言語モデルが推論時に学習する技術が進展している。

The Batch·4月3日

マイクロソフト、新たな音声・画像モデルでLLMを超える取り組みを発表

マイクロソフトが、自社開発のAIシステムを強化するため、新たな音声と画像のAIモデルを発表した。

AI Business·4月3日·★★★★

マイクロソフト、3つの新しい基盤モデルでAIライバルに挑む

マイクロソフトは、音声をテキストに変換し、音声や画像を生成できる3つの新しい基盤モデルを発表した。同社は6か月前に結成されたグループを通じてこれらのモデルをリリースした。

TechCrunch AI·4月3日

マイクロソフトのMAI-Transcribe-1、前モデルより2.5倍高速で1時間あたり0.36ドルで音声文字起こしを提供

マイクロソフトがMAI-Transcribe-1を発表した。このモデルは、25言語で背景ノイズがあっても正確に音声をテキストに変換し、前モデルより2.5倍高速で1時間あたり0.36ドルのコストで動作する。マイクロソフトは既に自社製品でこのモデルを使用している。

The Decoder·4月3日

Gemma 4を歓迎：デバイス上のフロンティアマルチモーダルインテリジェンス

Googleがデバイス上で動作するマルチモーダルAIモデル「Gemma 4」を発表した。同モデルは画像・音声・テキストを統合処理でき、クラウド依存を減らすオンデバイスAIの進展を示している。

Hugging Face Blog·4月2日·★★★★

Wan2.7-Image：人物はよりリアルに、文字はより安定に、色はより正確に

通義実験室がWan2.7-Imageを発表し、画像生成において人物のリアルさ向上、文字の安定性向上、色の正確性向上を実現した新たな手法を提供した。

通义大模型·4月1日

Granite 4.0 3B Vision：企業文書向けのコンパクトなマルチモーダルAI

IBMが企業文書向けに開発したGranite 4.0 3B Visionは、テキストと画像を同時処理できる小型マルチモーダルAIモデルで、文書解析の効率化を実現する。

Hugging Face Blog·4月1日·★★★★

AIモデルは見たことのない画像を自信満々に描写し、ベンチマークはその問題を見逃している

スタンフォード大学の研究によると、GPT-5やGemini 3 ProなどのマルチモーダルAIモデルは、画像が提供されていない場合でも詳細な画像描写や医療診断を生成する。一般的なベンチマークはこの問題を隠蔽している。

The Decoder·3月31日·★★★★

Amazon Bedrock AgentCoreとAmazon Nova Sonic 2.0を使用したエージェント型AI映画アシスタントで超パーソナライズされた視聴体験を提供

Amazonは、エージェント型AI映画アシスタントをAmazon Bedrock AgentCoreとAmazon Nova Sonic 2.0で開発し、時間帯や気分などの文脈に応じた超パーソナライズされた視聴体験を提供する。

AWS Machine Learning Blog·3月31日·★★★★

Metaの新AIモデルが画像・音声・音声に対する脳の反応を予測

Metaが開発したAIモデルは、画像・音声・音声に対する人間の脳の反応を予測する。テストでは、その予測は実際の個人の脳スキャンよりも典型的な脳反応に近い結果を示した。

The Decoder·3月28日·★★★★

Mistralの初のオープンウェイトTTSモデル「Voxtral」、3秒の音声から9言語で声をクローン

フランスのAIスタートアップMistralが、9言語をサポートし3秒の音声から声をクローンできる初のテキスト読み上げモデル「Voxtral」をリリースした。

The Decoder·3月27日·★★★★

SageMaker Unified StudioとS3を用いた非構造化データによるLLMファインチューニングの加速

AWSがSageMaker Unified StudioとS3の連携を発表し、S3に保存された非構造化データを機械学習やデータ分析に活用する方法を紹介した。

AWS Machine Learning Blog·3月27日

Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに

Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。

The Decoder·3月27日·★★★★

iOSでヘッドフォンをライブ個人翻訳機に変身させる

Googleは、iOSおよびAndroidユーザー向けに「Live Translate with headphones」機能を公式リリースした。この機能により、ユーザーはヘッドフォンを通じてリアルタイムの翻訳サービスを利用可能となる。また、対応可能な国々をさらに拡大する計画も発表されている。

Google AI Blog·3月27日

Gemini 3.1 Flash Live：音声AIをより自然で信頼性の高いものに

Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。

Google DeepMind·3月27日

Search Liveのグローバル展開

Googleは、AIモードが利用可能なすべての言語および地域において、「Search Live」機能をグローバルに展開すると発表した。これにより、世界中のユーザーがリアルタイム検索機能を利用できるようになる。

Google AI Blog·3月27日

ConntourがGeneral CatalystとYCから700万ドルを調達し、セキュリティ映像システム向けAI検索エンジンを構築

Conntourは、セキュリティチームが自然言語でカメラ映像を検索し、任意の物体・人物・状況を発見できるAIモデルを開発した。同社はGeneral CatalystとYCから700万ドルの資金調達に成功した。

TechCrunch AI·3月26日

Amazon Bedrockのマルチモーダルモデルで大規模な動画分析を実現

Amazonは、Amazon Bedrockのマルチモーダル基盤モデルを用いて、大量の動画から文脈や意味を理解し、洞察を抽出するスケーラブルなソリューションを提供している。

AWS Machine Learning Blog·3月26日·★★★★

GoogleがLyria 3 Pro音楽生成モデルを発表

GoogleがLyria 3 Proを発表した。このアップグレードされた音楽モデルは、より長く、よりカスタマイズ可能なトラックを生成し、Gemini、企業向け製品、その他のサービスでAI音楽ツールを拡大する。

TechCrunch AI·3月26日·★★★★

Lyria 3 Pro：構造認識により長いトラックを作成可能に

GoogleはLyria 3 Proを発表し、構造認識機能により長い音楽トラックの生成を可能にした。また、Lyriaをより多くのGoogle製品やプラットフォームに導入する。

Google DeepMind·3月26日

1 / 3次へ →