#ビジョン言語モデル(vlm) のAIニュース

5件の記事

モデルのロジットは何を保持しているのか？（答えは驚くべきものかもしれない！）

研究者はビジョン言語モデルを用い、内部ロジットから生成出力へ圧縮される過程で保持される情報の違いを比較した。これにより、モデル所有者が想定しない情報がユーザーに漏洩するリスクを明らかにした。

Apple Machine Learning·4月20日·★★★★

GroundedPlanBench: ロボット操作のための空間的に接地された長期タスク計画

Microsoftの研究チームは、VLMベースのロボット計画モデルが複雑な長期タスクで直面する曖昧性問題を評価するGroundedPlanBenchを開発した。このベンチマークは、モデルが多様な実世界シナリオで行動とその発生場所を計画できるかを測定する。

Microsoft Research·3月27日·★★★★

バイトゥー千帆チーム、40億パラメータの統一文書知能モデル「Qianfan-OCR」を公開

バイトゥー千帆チームは40億パラメータの文書知能モデル「Qianfan-OCR」を公開した。単一アーキテクチャで画像からマークダウンへ直接変換し、表抽出や文書QAなどを実行する。

MarkTechPost·3月19日·★★★★

Together AI、ツール呼び出し・推論・ビジョン対応のファインチューニングサービスを拡大

Together AIは、ツール呼び出し、推論、ビジョン言語モデルのネイティブサポートを追加し、100B以上のモデルトレーニングに対応するファインチューニングサービスを拡大した。処理速度は最大6倍向上し、ジョブコストと所要時間の見積もり機能も提供している。

Together AI Blog·3月18日·★★★★

複雑な視覚タスク計画のための改良手法

MIT研究者が、ロボットナビゲーションなどの長期的視覚タスク計画において、既存手法の約2倍の効果を発揮する生成AI駆動アプローチを開発した。

MIT ML News·3月11日·★★★★