#vision-language model のAIニュース
15件の記事
テキスト、画像、音声、動画を処理する 5 つのオープンソース・オムニ AI モデル
KDnuggets は、テキスト、画像、音声、動画のすべてのメディアタイプを処理できる 5 つの主要なオープンソース型オムニ AI モデルを紹介した。
百度、長文解析向け KV キャッシュを一定に保つ 3B モデル「Unlimited OCR」を発表
百度は、出力が増加してもメモリ使用量が一定となる「Reference Sliding Window Attention」を採用した 3B パラメータモデル「Unlimited OCR」を発表し、長文の OCR 処理を高速化した。
Datalab が 9B オープンウェイトビジョンモデル「lift」をリリース:スキーマを用いた PDF から構造化 JSON を抽出
Datalab は、PDF や画像からスキーマに基づいて構造化 JSON を抽出する専用ビジョンモデル「lift」を公開した。この 9B パラメータのオープンウェイトモデルは、225 ドキュメントのベンチマークでフィールド精度 90.2% を達成している。
DoorDash の新 AI チャットボット、プロンプトと写真で注文可能に
配食デリバリー大手の DoorDash が、ユーザーがテキストのプロンプトや料理の写真を入力するだけで注文できる新しい AI チャットボットを発表した。
Anthropic、Claude Fable 5 と Claude Mythos 5 を発表:基盤モデルは同一だが安全策が異なり、新「Mythos クラス」 tiers 登場
Anthropic は 2026 年 6 月 9 日、能力が Opus クラスを上回る新 tiers「Mythos クラス」に属する Claude Fable 5 と Claude Mythos 5 を発表した。Fable 5 は一般利用向けに安全策を強化し、Mythos 5 は一部制限を解除した限定版として提供される。
Apple、新しい「Siri in Camera」機能で請求書分割の煩わしさを解消
Apple は新機能「Siri in Camera」を導入し、ユーザーがカメラを通じて請求書を撮影するだけで、Siri が自動的に金額を認識し、友人との間で請求を公平に分割できるようにする機能を追加した。
Cursor の更新されたデザインモード(3 分読了)
開発支援 AI ツール「Cursor」が、コード編集時の UI デザインを改善する新機能を公開した。これにより、ユーザーはより直感的にデザイン要素を操作できるようになる。
マルチモーダル評価器:Strands Evalsにおける画像からテキストへのタスク向けMLLM-as-a-judge
AWS は、視覚的ショッピングや文書理解などのタスクにおいて、モデルの回答が元画像に根付いているか検証するための新しい評価手法「MLLM-as-a-judge」をStrands Evalsに導入したと発表した。
手話モデルを用いた手話注釈の自己開始的生成手法
研究者らは、高品質な手話データ不足という課題に対し、動画と英語を入力として候補注釈を自動生成する疑似注釈パイプラインを開発した。これにより、コストのかかる大規模注釈作業を軽減し、未利用のデータを活用可能にする。
Jetson上でのオープンソース視覚言語モデル(VLM)のデプロイ
Jetsonプラットフォームでオープンソースの視覚言語モデルを効率的にデプロイする方法について解説。
H社の新Holo2モデルがUIローカライゼーションで先行
H社が新たに発表したHolo2モデルは、ユーザーインターフェースのローカライゼーション分野でリードする技術を提供する。
Qwen VLo:世界を「理解」するから「描写」するへ
Qwenチームは、画像理解と高品質な生成を統合した新モデル「Qwen VLo」を発表しました。同モデルは、世界の理解から画像描写までを可能にします。
QVQ-Max:根拠に基づく思考
Qwenチームは、画像や動画の内容を理解し分析・推論して数学やプログラミングなどの問題を解決する視覚推論モデル「QVQ-Max」の正式版を公開した。
Grok-2 ベータ版リリース
新モデルGrok-2とGrok-2 miniのベータ版を発表。
ScreenAI:UIと視覚的状況言語理解のための視覚言語モデル
Google Researchが開発した、UI画面や視覚的コンテキストを理解する視覚言語モデル。画面要素の認識とテキスト理解を統合した技術。