視覚モデル
LLaVA 1.6(7B、13B、34Bパラメータ)が利用可能に。高解像度画像対応、文字認識と論理的推論が向上。
キーポイント
LLaVA 1.6がリリースされ、画像解像度が最大4倍向上し、より詳細な画像理解が可能に
テキスト認識と推論能力が改善され、文書・図表・図解データセットで追加学習
Apache 2.0ライセンスまたはLLaMA 2 Community Licenseで配布され、利用制限が緩和
3つのパラメータサイズ(7B、13B、新34Bモデル)が利用可能
Ollamaプラットフォームで簡単に画像分析が実行可能で、Python/JavaScriptライブラリも提供
影響分析・編集コメントを表示
影響分析
LLaVA 1.6のリリースは、オープンソースのマルチモーダルAIモデルの性能向上とアクセシビリティ向上を示す重要な進展です。より高解像度の画像理解と改善されたテキスト認識能力により、実用的な視覚言語タスクへの応用可能性が拡大し、商用利用も促進されるでしょう。
編集コメント
オープンソースのマルチモーダルモデルが商用利用しやすいライセンスでリリースされ、実用的な画像分析ツールとしての地位を確立しつつあります。
LLaVA(Large Language-and-Vision Assistant)モデルコレクションがバージョン1.6に更新され、以下のような主要な機能強化が行われました。
第一に、画像解像度の大幅な向上です。従来比で最大4倍のピクセル数をサポートするようになり、モデルが画像からより細かな詳細を把握できるようになりました。
第二に、テキスト認識と推論能力の改善です。追加の文書、チャート、図表データセットで学習が行われたことで、画像内の文字情報の読み取りや、図解された情報の理解・分析の精度が高まっています。
第三に、より寛容なライセンスが採用されました。モデルはApache 2.0ライセンスまたはLLaMA 2 Community Licenseの下で配布されており、商用利用を含む利用の自由度が増しています。
このモデルファミリーは、7B、13B、そして新たに追加された34Bという三つのパラメータサイズで提供されています。
利用方法としては、コマンドラインツール「ollama」を使用する場合、画像ファイル(.jpg または .png)のパスを指定して実行します。例えば、% ollama run llava "describe this image: ./art.jpg" のようなコマンドで、画像の説明を生成できます。また、PythonやJavaScriptのライブラリ、あるいはREST APIを介してプログラムから利用することも可能です。この際、画像ファイルはパスで指定するか、base64形式でエンコードして images パラメータに渡すことができます。
具体的な能力の例として、バーチャルリアリティで遊ぶ人物の様子を描写したり、画像内の「ollama」という黄色の太字テキストを認識してその視覚的特徴を説明するといったタスクが紹介されています。
最後に、このLLaVA 1.6モデルファミリーは開発チームによって公開されたもので、モデルの訓練方法や、主要なオープンソース・プロプライエタリモデルとの比較ベンチマーク結果は、LLaVAの公式ウェブサイトで確認することができます。
要約すると、今回の更新では、高解像度画像の処理、文書・図表理解の強化、利用しやすいライセンス、大規模34Bモデルの新設という四点が核心的な進歩であり、マルチモーダルAIアシスタントの実用性とアクセシビリティを大きく高めるものとなっています。
原文を表示
The LLaVA (Large Language-and-Vision Assistant) model collection has been updated to version 1.6 supporting:
Higher image resolution: support for up to 4x more pixels, allowing the model to grasp more details.
Improved text recognition and reasoning capabilities: trained on additional document, chart and diagram data sets.
More permissive licenses: distributed via the Apache 2.0 license or the LLaMA 2 Community License.
These models are available in three parameter sizes. 7B, 13B and a new 34B model:
To use a vision model with ollama run, reference .jpg or .png files using file paths:
% ollama run llava "describe this image: ./art.jpg" The image shows a colorful poster featuring an illustration of a cartoon character with spiky hair. Above the character's head is a crown, suggesting royalty or high status. On the right side of the poster, there is text in French that reads "Jean-Michel Basquiat," Python
import ollama res = ollama.chat( model="llava", messages=[ { 'role': 'user', 'content': 'Describe this image:', 'images': ['./art.jpg'] } ] ) print(res['message']['content']) JavaScript
import ollama from 'ollama' const res = await ollama.chat({ model: 'llava', messages: [{ role: 'user', content: 'Describe this image:' images: ['./art.jpg'] }] }) console.log(res.message.content) Note: in the Ollama Python and JavaScript libraries and the REST API, base64-encoded files can be provided in the images parameter. See the full API docs for more examples on providing images to vision models.
% ollama run llava "tell me what do you see in this picture? ./pic.jpg" In the image, a man wearing blue and white is holding video game controllers in his hands while smiling. His arms are raised above his head as he plays with the virtual reality gaming devices. The man appears to be enjoying himself and immersed in his gaming experience. Text recognition
% ollama run llava "what does the text say? ./wordart.png" This is an image with a capitalized, bolded text of "ollama." The background is black and the letters are yellow, which create a contrasting appearance. Although the words "ollama" make up the majority of the image, it could also be seen as part of a sign or advertisement due to its brightness and prominent font style. Thank you LLaVA team
The LLaVA 1.6 model family is published by an incredible team. Information on how the models were trained is available on the LLaVA website, as well as benchmark results comparing LLaVA 1.6 to leading open-source and proprietary models.
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み