メインコンテンツへスキップ

#マルチモーダル のAIニュース

171件の記事

NVIDIA GPUアクセラレーションエンドポイントを使用したKimi K2.5マルチモーダルVLMの構築

Kimiが最新のオープンソース視覚言語モデル「Kimi K2.5」を発表した。このモデルは汎用マルチモーダルモデルであり、NVIDIA GPUアクセラレーションエンドポイントを活用して構築できる。

NVIDIA Developer Blog·2月5日·★★★★

AI週間レビュー #334 - Kimi K2.5とコードエージェント、Genie 3、OpenClawとMoltbook

中国のMoonshotがオープンソースモデルKimi K2.5とコーディングエージェントを公開。GoogleはGenie 3のインタラクティブな世界構築プロトタイプをAI Ultra購読者に提供。

Last Week in AI·2月4日·★★★★

Grok Imagineがfalプラットフォームで利用可能に

xAIは、画像と動画の生成・編集を統合した「Grok Imagine」をAI開発プラットフォーム「fal」で提供開始。複数のモデルエンドポイントを単一スタックに統合し、アイデアから完成品までの制作プロセスを高速化した。

fal.ai Blog·1月29日·★★★★

D4RT:AIに4次元で世界を見ることを教える

D4RTは、従来の方法よりも最大300倍高速な統合的な4次元再構築と追跡を実現する技術です。

Google DeepMind·1月16日·★★★★

Windsurf Next 1.13.106 の更新:Gemini 3 Flash が全ユーザーに提供開始

Windsurf Next 1.13.106 は、推論能力と高速性を兼ね備えた Gemini 3 Flash を全ユーザーに公開しました。このモデルはコーディングやエージェントワークフローに適しており、前世代より 3 倍高速な応答を実現しています。

Windsurf Next Changelog·12月27日·★★★★

Windsurf 1.13.5:Gemini 3 Flashの全ユーザー向け提供開始

Windsurfは、Gemini 3 Flashを全ユーザーに提供開始した。このモデルはPro級の推論能力とFlash級の速度を併せ持ち、反復開発やコーディング作業に最適化されている。

Windsurf Changelog·12月27日·★★★★

GPTとGeminiのマルチモーダルドキュメント認識能力評価

LayerXのR&Dインターン生が、OpenAI GPTとGoogle GeminiのAPI単体を用いて、スライドや図表などのマルチモーダルドキュメント認識能力を評価した結果を紹介する。

LayerX Tech Blog·12月17日

AI週間レビュー #329 - GPT 5.2、GenAI.mil、ディズニーとSora

OpenAIがGPT-5.2モデルシリーズをリリースし、日常業務での利用を想定した「Instant」「Thinking」「Pro」の3バージョンを提供した。

Last Week in AI·12月16日·★★★★

最新のSpeechLLMを用いた音声データからのエンティティ抽出の1年ぶりの検証

AI Shiftが最新のSpeechLLMで音声データからのエンティティ抽出を検証。昨年のOpenAI gpt-4o-audioの取り組みから1年後の進展を報告。

AI Shift Tech Blog·12月15日

Agent Lightning:AIエージェントに強化学習をコード書き換えなしで追加

Microsoft Researchは「Agent Lightning」を開発し、AIエージェントに強化学習をコード書き換えなしで適用する手法を提供した。

Microsoft Research·12月12日·★★★★

FACTSベンチマークスイート:大規模言語モデルの事実性を体系的に評価

研究者らがFACTSベンチマークスイートを開発し、大規模言語モデルの事実性を体系的に評価する手法を提案した。

Google DeepMind·12月9日·★★★★

LLMで「何でも」できる時代のAIエンジニア生存戦略 - LLMのグラウンディング能力について

LLM/VLM時代において、グラウンディング(現実世界との接続)が苦手な点を克服するため、他のモデルとの組み合わせが重要であり、これが次世代AIエンジニアの必須スキルとなる。

Algomatic Tech Blog·7月18日·★★★★

Qwen VLo:世界を「理解」するから「描写」するへ

Qwenチームは、画像理解と高品質な生成を統合した新モデル「Qwen VLo」を発表しました。同モデルは、世界の理解から画像描写までを可能にします。

Qwen Blog·6月26日·★★★★

ByteDance、自律ロボットナビゲーション向け二重モデル「Astra」を発表

ByteDanceは、複雑な屋内環境での自律ロボットナビゲーション課題を解決するため、「Astra」を開発した。これは「現在地」「目的地」「経路」の3つの基本質問に答える二重モデルアーキテクチャであり、従来の手法の限界を克服する革新的な技術である。

Synced Review·6月24日·★★★★

今すぐAIを活用する:クイックガイド

筆者は、主要なAI製品の動作原理に重要な変化が生じたため、最新の利用ガイドを提示する。単なるモデルの優劣ではなく、一般ユーザーにとって最適な総合システムを選ぶことが重要であり、3つの優れた選択肢の中から適切なAIを選定する難易度を軽減することを目的としている。

One Useful Thing·6月24日·★★★★

AGIはマルチモーダルではない

言語モデルを思考のモデルと見なすことで、知能の基盤となる暗黙の身体的知覚を見失うと指摘。最近の生成AIの成功がAGIの到来を予感させるが、言語中心のアプローチには限界がある。

The Gradient·6月4日·★★★★

言語処理学会第31回年次大会(NLP2025) 参加レポート

2025年3月に長崎で開催された日本最大のNLP学会に参加。LLM発展で参加者・発表数が過去最大となり、企業ブース展示も実施。

ExaWizards Tech Blog·3月19日·★★★★

Stability AI、WPPからの投資と新パートナーシップを発表し、メディア・エンタメ制作の未来を形作る

Stability AIは広告大手WPPからの投資を受け、エンターテインメント制作における生成AIの企業利用に向けた戦略的パートナーシップを締結した。これはエンタープライズ向け生成AIの実装における重要なマイルストーンである。

Stability AI·3月6日·★★★★

新卒エンジニアの成長記録:マルチモーダルRAGハッカソンへの挑戦

新卒エンジニアが、先輩と共にマルチモーダルRAG技術を活用した3ヶ月間のハッカソン研修に取り組み、実用的なAIアプリケーション開発を通じて成長した経験を共有しています。

ExaWizards Tech Blog·11月1日

Llama 3.2が小型化とマルチモーダル化を実現

OllamaがMetaと提携し、Llama 3.2をOllamaプラットフォームに導入する。

Ollama Blog·9月25日·★★★★

Kaggle初参加の振り返り〜Shopeeコンペでソロ銀メダル獲得〜

MLエンジニアの川畑氏が、初参加のKaggleコンペ「Shopee Product Matching」で2426チーム中46位の銀メダルを獲得した経験を振り返っている。

ExaWizards Tech Blog·6月7日