#マルチモーダル ai のAIニュース
19件の記事
テキスト、画像、音声、動画を処理する 5 つのオープンソース・オムニ AI モデル
KDnuggets は、テキスト、画像、音声、動画のすべてのメディアタイプを処理できる 5 つの主要なオープンソース型オムニ AI モデルを紹介した。
AI SDK 7 が利用可能に
Vercel は、TypeScript で生産用エージェントを構築するための主要リリース「AI SDK 7」の提供を開始した。この新バージョンは、テキストや音声、リアルタイム処理など多様なメディアに対応する広範なエージェントプラットフォームへと進化し、主要プロバイダーを標準でサポートしている。
Gradium、リアルタイム音声翻訳モデル「stt-translate」と「s2s-translate」を公開し、精度と遅延で競合を上回る
Gradium は、5 か国語に対応するリアルタイム音声翻訳モデル「stt-translate(音声→テキスト)」および「s2s-translate(音声→音声)」を発表した。同社は、これらのモデルが GPT-Realtime-Translate や Gemini 3.5 Live Translate よりも精度と遅延のバランスに優れ、さらに後者が欠く出力音声のクローン機能を提供できると主張している。
Fika Jobs が 400 万ドルを調達し、AI エージェントが候補者を面接する動画中心の採用プラットフォームを構築
スタートアップ企業の Fika Jobs は、AI エージェントが候補者と対話して面接を行う動画中心の採用プラットフォームを開発するため、400 万ドルの資金調達を実現した。
Gemma 4 12B の紹介:統一型エンコーダー非搭載マルチモーダルモデル
Google DeepMind が、エンコーダーを不要とした新しいマルチモーダルモデル「Gemma 4 12B」を発表した。このモデルは画像とテキストの両方を処理できる統合型アーキテクチャを採用している。
Hugging Face リポジトリの Lance(軽量ネイティブ統合マルチモーダルモデル)
Hugging Face が公開した「Lance」は、画像・動画の理解・生成・編集に対応する 30 億パラメータの軽量モデルであり、128 台の A100 GPU を用いてゼロから訓練された。
真にオープンな基盤上でアクセシビリティツールを構築する
独立プロジェクト「PointCheck」は、キーボードユーザーの視点でウェブページを検証するため、Allen AI(AI2)が開発したMolmoやOlmo 3などのモデルを活用している。
ホーム向け Gemini でサービスプロバイダーとハードウェアパートナーを支援
Google は、高度なカメラ知能や自然言語クエリ機能を統合したフルスタックの Gemini AI オファリングを開始し、スマートホームエコシステムを拡大する。これにより、サービスプロバイダーやハードウェアメーカーは、ブランド付きの予防的サービス構築に必要な参考設計と API を利用できるようになる。
[AINews] Google I/O 2026:Gemini 3.5 Flash、Omni(動画用 NanoBanana)、Spark(背景エージェント)、Antigravity 2.0 の発表
Google は I/O 2026 で、音声・動画・画像処理に特化した新モデル「Gemini Live」「Omni」「Pics/Flow」や背景エージェント「Spark」、および「Antigravity 2.0」を発表し、業界をリードする多モーダル技術の進展を示した。
メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ
メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。
Google が Android ベースの新型ノートパソコン「Googlebooks」を今年発売へ
Google は、2011 年から展開する Chromebook の成功を受けつつも、今後は Android を搭載した新シリーズ「Googlebooks」に注力すると発表し、年内に出荷を開始する方針を示した。
元 OpenAI CTO のミラ・ムラティ氏が設立した AI 企業「シンキングマシーンズ」の最新動向
元 OpenAI CTO のミラ・ムラティ氏が設立した AI 企業「シンキングマシーンズ」は、音声や映像を継続的に取り込み、人間同様に自然に協働できる「インタラクションモデル」の開発を進めていると発表した。
Amazon Nova マルチモーダル埋め込みによる製造業のインテリジェンス向上
アマゾンは、航空宇宙や自動車産業向けに、技術文書内の図面やグラフから情報を抽出するマルチモーダル埋め込み技術を導入し、テキスト検索では見つけられない知見を表面化させる。
本日は特に目立った出来事なし
AIニュース配信元「AINews」は、2026年5月9日から11日にかけての期間に、主要なSNSや掲示板で注目すべき技術進展や業界動向が確認されなかったと報告した。
Tuna-2(GitHub リポジトリ):メタがマルチモーダルモデルの基礎チェックポイントを公開
メタ社は、ピクセル埋め込みを活用した新モデル「Tuna-2」を発表し、既存モデルを上回る性能を示しました。同社は完全な生産用重みではなく、LLM 基盤と拡散ヘッドから一部層を削除した基礎チェックポイントのみを公開します。
Veo 3.1 素材から動画へ:より一貫性、創造性、制御性を高める
最新のVeoアップデートは、自然で魅力的な活気ある動画クリップを生成し、縦型動画の生成もサポートします。
Googleの2025年振り返り:8つの分野における研究ブレークスルー
Googleが2025年に達成した研究ブレークスルーを8つの分野に分けて紹介する年次総括記事。
GigaTIME:マルチモーダルAIが生成する仮想患者集団を用いた腫瘍微小環境モデルの大規模化
研究チームは、マルチモーダルAIで生成した仮想患者集団を用い、腫瘍微小環境の相互作用を解明する大規模モデルを構築した。
Qwen2.5 Omni:視覚、聴覚、会話、記述、実行をすべてこなす!
Qwenチームは、テキスト・画像・音声・動画を入力し、リアルタイムのテキスト生成と自然な音声合成で応答する多モーダルモデル「Qwen2.5-Omni」を公開した。このエンドツーエンドのフラッグシップモデルは、Qwen Chatで7B版を試せる。