#視覚言語モデルのAIニュース

7件の記事

アリババのQwenチーム、AI視覚モデルの多段階推論問題を解決するHopChainを開発

アリババのQwenチームは、AI視覚モデルが画像推論時に小さな認識誤差が多段階で蓄積する問題を解決するHopChainフレームワークを開発した。複雑な問題を個別ステップに分解し、各視覚的詳細を検証させることで、24のベンチマークのうち20で精度向上を達成した。

The Decoder·4月6日·★★★★

Gemma 4：バイト単位で最も能力の高いオープンモデル

Google DeepMindが、2B、4B、31Bサイズの3つの視覚対応推論LLMと、26B-A4BのMixture-of-Expertsモデル、計4つのApache 2.0ライセンスのオープンモデルを発表した。同社は「パラメータあたりの知能レベルが前例ない」と強調し、小型で有用なモデルの開発が現在の研究の最重要分野の一つであることを示している。

Simon Willison Blog·4月3日·★★★★

Granite 4.0 3B Vision：企業文書向けのコンパクトなマルチモーダルAI

IBMが企業文書向けに開発したGranite 4.0 3B Visionは、テキストと画像を同時処理できる小型マルチモーダルAIモデルで、文書解析の効率化を実現する。

Hugging Face Blog·4月1日·★★★★

RubiCap: ルーブリックに基づく強化学習による詳細な画像キャプション生成

研究者らは、高品質な画像キャプション生成の課題に対処するため、ルーブリックに基づく強化学習手法「RubiCap」を提案した。この手法は、多様性と汎化性を向上させ、大規模な注釈コストを削減することを目指している。

Apple Machine Learning·3月16日·★★★★

Tinker: 一般提供開始と視覚入力機能

Thinking Machines LabがTinkerの一般提供を開始し、視覚入力機能を追加しました。

Thinking Machines Lab·12月12日·★★★★

Grok-1.5 ビジョンプレビュー

初のマルチモーダルモデルでデジタル世界と物理世界を接続する。

xAI News·4月12日·★★★★

視覚モデル

LLaVA 1.6（7B、13B、34Bパラメータ）が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。

Ollama Blog·2月2日·★★★★