AIニュース最前線

#vision-language models のAIニュース

15件の記事

NVIDIA AI、空間推論のためのトレーニング不要エージェント「SpatialClaw」を発表：コードを行動インターフェースとして活用

NVIDIA Research は、視覚言語モデルの弱点である物体の位置や関係性の判断を改善するトレーニング不要フレームワーク「SpatialClaw」を発表した。同チームは、知能エージェントが知覚ツールを呼び出す際の行動インターフェースこそがボトルネックであると指摘し、コードをそのインターフェースとして扱う解決策を提案している。

MarkTechPost·6月20日·★★★★

Zyphra が Zamba2-VL を公開：ハイブリッド Mamba2–Transformer 型ビジョン言語モデルが初トークン生成時間を約 10 倍短縮

Zyphra は、画像とテキストを同時に処理するオープンソースのビジョン言語モデル「Zamba2-VL」シリーズ（パラメータ数 1.2B/2.7B/7B）を公開した。同社は従来の密集型 Transformer に代わり、ハイブリッド状態空間設計を採用し、競合と同等の精度を維持しつつ初トークン生成時間を約 10 倍短縮する技術を実現した。

MarkTechPost·6月12日·★★★★

MIT の研究者が AI モデルにチャートの解釈を教示

MIT の研究者らは、市場の意思決定を加速するため、生成 AI モデルが視覚・数値・言語情報を統合してチャートを正確に解釈する技術を研究している。

MIT ML News·6月3日·★★★★

NVIDIA の「LocateAnything」が迅速なグラウンディングを実現（8 分読了）

NVIDIA は、物体の位置特定を高速化する新技術「LocateAnything」を発表し、AI の環境理解能力を向上させる。

TLDR AI·5月28日·★★★★

VSAS-Bench：リアルタイム評価のための視覚ストリーミングアシスタントモデルのベンチマーク

Apple Machine Learning は、リアルタイム視覚アシスタントモデルの評価手法として、応答のタイミングや一貫性を測定する「VSAS-Bench」を発表した。既存のオフライン評価とは異なり、ストリーミング環境での性能を多角的に検証する新しい基準を提供する。

Apple Machine Learning·5月22日·★★★★

今日は何も大きな出来事はありませんでした

Smol AI News は、5 月 20 日から 21 日にかけての期間に、主要な AI ニュースや技術進展がない静かな一日であったと報告しています。

Smol AI News·5月21日·★★★★

映像言語モデルに映画の語り方を教える研究

カーネギーメロン大学の研究者らが、視覚言語モデルに対して映画の構成や表現方法を学習させる手法を提案した。

ML@CMU·5月14日

テキスト条件付き JEPA：意味豊かな視覚表現を学習する手法

研究者らは、マスクされた位置の視覚的不確実性を軽減するため、画像キャプションを活用した「Text-Conditional JEPA（TC-JEPA）」を提案し、より意味豊かな視覚表現の学習を実現しました。

Apple Machine Learning·5月7日·★★★★

AWS Inferentia2 上でペット行動検出を行うビジョン言語モデルの低コスト展開

台湾のペットテック企業トムファン（Furbo）は、AWS Inferentia2 を活用し、視覚と言語を組み合わせた AI モデルを低コストで展開することで、ペットカメラによるリアルタイムな行動検知を実現した。

AWS Machine Learning Blog·5月7日·★★★★

Molmo が指差して行動する能力を習得

AI 研究チームは、視覚理解から視覚的行動へと拡張した「MolmoPoint」および「MolmoWeb」を発表し、モデルが世界を見ながら指差しやナビゲーション、対話を行えるようになり、研究者にオープンなツールを提供しました。

Allen AI (AI2)·4月29日·★★★★

バイアス軽減のための直接ステアリング最適化（DSO）手法の提案

生成モデルが視覚障害者支援などで意思決定を行う際、入力画像の人種や性別などの属性に依存したバイアスが結果に影響を与える問題がある。この研究では、性能低下を最小限に抑えつつバイアスを軽減する「直接ステアリング最適化（DSO）」手法を提案し、ユーザーのニーズに応じたバランス調整を実現する。

Apple Machine Learning·4月29日·★★★★

ファルコン・パーセプション

AI企業がFalcon Perceptionを発表した。この技術は高度な視覚認識システムであり、自律走行車や監視システムへの応用が期待される。

Hugging Face Blog·4月1日·★★★★

メモリ制約のあるデバイスでの視覚言語モデルのファインチューニング

新しいハイブリッド最適化手法により、エッジデバイスが順方向パスのみで視覚言語モデルをファインチューニング可能に。既存技術より最大7%精度向上。

Amazon Science·1月9日·★★★★

マルチ画像推論への準備はできているか？VHs：ビジュアル・ヘイスタック・ベンチマークの発表！

マルチ画像推論の能力を評価するための新しいベンチマーク「ビジュアル・ヘイスタック」が発表されました。

Berkeley AI Research·7月20日·★★★★

汎用ビジュアル言語モデル

著者は、画像キャプションや視覚的質問応答といったビジョン言語タスクにおいて、従来の物体検出ネットワークに依存する手法ではなく、事前学習済みモデルを拡張するアプローチに焦点を当てて解説している。

Lilian Weng·6月10日·★★★★