#マルチモーダルai のAIニュース

114件の記事

Grok Imagine API の発表

xAI が、品質・コスト・遅延の面で最先端を実現する動画生成 API「Grok Imagine」を発表した。

xAI News·1月28日

AIエージェント向け、アジェンティック・ベリファイアを用いたマルチモーダル強化学習

Microsoft Researchチームは、医療画像レポート生成をスケーリングする「UniRG」を開発し、マルチモーダル強化学習とエージェント型検証機能を用いて精度を向上させた。

Microsoft Research·1月21日·★★★★

Tinker: 一般提供開始と視覚入力機能

Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。

Thinking Machines Lab·12月12日·★★★★

Gemini APIで利用可能なGemini 2.5 FlashおよびPro、Live API、Veo 2

GoogleがGemini APIでGemini 2.5 FlashとProモデル、リアルタイム処理のLive API、動画生成モデルVeo 2を提供開始した。

Google Developers JP·4月10日·★★★★

グロークをすべての人に

グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。

xAI News·12月12日·★★★★

Grok画像生成機能リリース

Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。

xAI News·12月9日·★★★★

APIパブリックベータ

開発者がGrok基盤モデルをAPIで利用可能。2024年末まで月25ドルの無料クレジットを提供するパブリックベータを実施。

xAI News·11月4日·★★★★

シリーズB資金調達ラウンド

xAIが60億ドルのシリーズB資金調達を発表しました。

xAI News·5月26日·★★★★

Grok-1.5 ビジョンプレビュー

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

xAI News·4月12日·★★★★

VideoPrism: 映像理解のための基盤的視覚エンコーダ

Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。

Google Research Blog·2月23日·★★★★

Windowsプレビュー

OllamaがWindowsでプレビュー公開され、GPUアクセラレーション対応のネイティブ環境で大規模言語モデルの実行・作成が可能になりました。

Ollama Blog·2月15日

視覚モデル

LLaVA 1.6(7B、13B、34Bパラメータ)が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。

Ollama Blog·2月2日·★★★★

PythonとJavaScriptライブラリ

OllamaのPythonおよびJavaScriptライブラリの初版が公開され、数行のコードでアプリケーションとの統合が可能になりました。両ライブラリはREST APIの全機能を備え、使い慣れた設計で互換性があります。

Ollama Blog·1月23日

深層学習を用いた任意のオブジェクトに対する自然言語意味検索の構築方法

深層学習を活用し、自然言語クエリで任意のオブジェクトを意味的に検索するシステムの構築方法を解説。

Hamel Husain·5月29日·★★★★