#マルチモーダルai のAIニュース

115件の記事

チャットボットを超えて：信頼できるAIのための青写真

Google開発者エキスパートチームがサンダーヒル・レースウェイパークで「信頼できるAIフレームワーク」をテストした。

xAI が、品質・コスト・遅延の面で最先端を実現する動画生成 API「Grok Imagine」を発表した。

Microsoft Researchチームは、医療画像レポート生成をスケーリングする「UniRG」を開発し、マルチモーダル強化学習とエージェント型検証機能を用いて精度を向上させた。

Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。

GoogleがGemini APIでGemini 2.5 FlashとProモデル、リアルタイム処理のLive API、動画生成モデルVeo 2を提供開始した。

グロークは速度向上、精度向上、多言語サポート改善され、𝕏プラットフォームで全ユーザーが利用可能になりました。

Grokに新しい画像生成モデル「Aurora」が追加され、𝕏プラットフォームで利用可能になりました。

開発者がGrok基盤モデルをAPIで利用可能。2024年末まで月25ドルの無料クレジットを提供するパブリックベータを実施。

xAIが60億ドルのシリーズB資金調達を発表しました。

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

Google Researchの研究者が、映像理解のための基盤的視覚エンコーダ「VideoPrism」を発表した。このモデルは多様な映像タスクに対応し、映像分析技術の汎用性向上を目指している。

OllamaがWindowsでプレビュー公開され、GPUアクセラレーション対応のネイティブ環境で大規模言語モデルの実行・作成が可能になりました。

LLaVA 1.6（7B、13B、34Bパラメータ）が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。

OllamaのPythonおよびJavaScriptライブラリの初版が公開され、数行のコードでアプリケーションとの統合が可能になりました。両ライブラリはREST APIの全機能を備え、使い慣れた設計で互換性があります。

深層学習を活用し、自然言語クエリで任意のオブジェクトを意味的に検索するシステムの構築方法を解説。