Hugging Face リポジトリの Lance(軽量ネイティブ統合マルチモーダルモデル)
ByteDance が公開した軽量ネイティブ統一マルチモーダルモデル「Lance」は、30 億パラメータ規模でありながら画像・動画の理解、生成、編集を単一フレームワークで実現する画期的な成果である。
ByteDance が公開した軽量ネイティブ統一マルチモーダルモデル「Lance」は、30 億パラメータ規模でありながら画像・動画の理解、生成、編集を単一フレームワークで実現する画期的な成果である。
重要度スコアの内訳、キーポイント、影響分析、編集コメントをプレミアムで公開中。
続きを日本語で読む
無料登録で1日5記事まで読めます。プレミアムなら無制限。
7日間の無料トライアル ・ いつでもキャンセル可能
関連記事
[AINews] Google I/O 2026:Gemini 3.5 Flash、Omni(動画用 NanoBanana)、Spark(背景エージェント)、Antigravity 2.0 の発表
Google は I/O 2026 で、音声・動画・画像処理に特化した新モデル「Gemini Live」「Omni」「Pics/Flow」や背景エージェント「Spark」、および「Antigravity 2.0」を発表し、業界をリードする多モーダル技術の進展を示した。
Google の Gemini Omni ビデオモデルが I/O デビュー前に登場、チャット内で動画編集機能を統合
Google は次期イベント「I/O」に先駆け、チャット内で動画のリミックスや編集を直接行える新モデル「Gemini Omni video model」を発表した。このモデルは透かし除去や物体の差し替えなどの編集能力に優れるが、ByteDance の Seedance 2 に比べると映画のような画質では劣る。今後は Flash や Pro といった階層版として展開され、多様なモダリティを Gemini で統一する戦略の一環となる見込みである。
真にオープンな基盤上でアクセシビリティツールを構築する
独立プロジェクト「PointCheck」は、キーボードユーザーの視点でウェブページを検証するため、Allen AI(AI2)が開発したMolmoやOlmo 3などのモデルを活用している。