#マルチモーダルai のAIニュース
114件の記事
Grok Imagine API の発表
xAI が、品質・コスト・遅延の面で最先端を実現する動画生成 API「Grok Imagine」を発表した。
AIエージェント向け、アジェンティック・ベリファイアを用いたマルチモーダル強化学習
Microsoft Researchチームは、医療画像レポート生成をスケーリングする「UniRG」を開発し、マルチモーダル強化学習とエージェント型検証機能を用いて精度を向上させた。
Tinker: 一般提供開始と視覚入力機能
Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。
Gemini APIで利用可能なGemini 2.5 FlashおよびPro、Live API、Veo 2
GoogleがGemini APIでGemini 2.5 FlashとProモデル、リアルタイム処理のLive API、動画生成モデルVeo 2を提供開始した。
グロークをすべての人に
グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。
Grok画像生成機能リリース
Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。
APIパブリックベータ
開発者がGrok基盤モデルをAPIで利用可能。2024年末まで月25ドルの無料クレジットを提供するパブリックベータを実施。
シリーズB資金調達ラウンド
xAIが60億ドルのシリーズB資金調達を発表しました。
Grok-1.5 ビジョンプレビュー
初のマルチモーダルモデルでデジタル世界と物理世界を接続する。
VideoPrism: 映像理解のための基盤的視覚エンコーダ
Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。
Windowsプレビュー
OllamaがWindowsでプレビュー公開され、GPUアクセラレーション対応のネイティブ環境で大規模言語モデルの実行・作成が可能になりました。
視覚モデル
LLaVA 1.6(7B、13B、34Bパラメータ)が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。
PythonとJavaScriptライブラリ
OllamaのPythonおよびJavaScriptライブラリの初版が公開され、数行のコードでアプリケーションとの統合が可能になりました。両ライブラリはREST APIの全機能を備え、使い慣れた設計で互換性があります。
深層学習を用いた任意のオブジェクトに対する自然言語意味検索の構築方法
深層学習を活用し、自然言語クエリで任意のオブジェクトを意味的に検索するシステムの構築方法を解説。