安価・高速・文化的配慮あり、インドの規模向けに設計された Avataar の動画 AI
Avataar AI は、Alibaba の Wan 2.2 モデルを蒸留技術で最適化し、インドの文化的文脈を理解する高速・低価格な動画生成モデル「Varya」をリリースした。
キーポイント
圧倒的な速度とコスト削減
50 ステップだった元のモデルを 4 ステップに圧縮し、生成時間を約 27 倍短縮(1,230 秒→45 秒)、コストを 20 分の 1 に抑えることに成功した。
インド固有の文化的文脈への対応
特定の祭り、食文化、衣装、建築などを学習させた独自データセットにより、一般的なモデルが陥りがちなステレオタイプな出力を回避し、現地の文脈を理解する。
インド政府の支援とオープン化
政府の「India AI Mission」選定 12 社の一社として GPU サブスidy を受け、生成モデルは同国の AI Kosh ポータルで公開される。
大規模採用のための価格破壊
秒間あたり約 0.005 ドルという破格の価格設定により、学生、小売業者(MSME)、教育現場などでの AI 動画利用の障壁を大幅に下げることが期待される。
Varya のオープンウェイト化と利用可能性
Avataar の動画AIモデル「Varya」は、India AI Kosh ポータルを通じてオープンウェイトで公開され、開発者はデータを自己ホストまたは修正して利用できます。また、企業顧客向けや Higgsfield、Adobe Firefly などのツールとの連携も計画されています。
インドのAI戦略:基盤モデルより応用とエコシステムへ
計算リソース(GPU)や高品質データの不足によりインドは基盤モデル開発で遅れをとっているため、政府や業界はアプリケーション開発と堅牢な開発者エコシステムの構築に注力しています。
政府によるインフラ投資と成長目標
India AI Mission はスタートアップへの計算資源支援を実施しており、2028 年までに 2,000 億ドルのAI投資を誘致し、GPU 容量を6ヶ月で倍増させることを目指しています。
影響分析・編集コメントを表示
影響分析
このニュースは、AI 動画生成技術が先進国中心から新興国へ拡大する過程で、「コスト」と「文化的適合性」が最大のボトルネックであることを示唆しています。Avataar AI のアプローチは、単なる技術の移植ではなく、インフラ制約とローカルニーズに合わせた最適化により、大規模な社会実装を可能にする新たなモデルを提示しており、特にインド市場における AI 普及の速度を変える可能性を秘めています。
編集コメント
技術的な蒸留手法の成功だけでなく、インドという巨大市場における「文化理解」と「価格破壊」がセットで語られている点が非常に示唆に富んでいます。新興国市場向け AI の在り方を考える上で、極めて重要なケーススタディとなるでしょう。
インドのAIモデル出力は、米国、欧州、中国と比較して遅れています。リリースされているのは数少ないスタートアップに限られており、そのほとんどが大規模言語モデルまたは音声モデルです。より多くの開発を促進するため、政府は「India AI Mission」を立ち上げました。これは約12億ドル規模のイニシアチブであり、選定されたスタートアップに公開モデルの提供と引き換えに、補助金付きGPU計算リソースへのアクセスを提供するなどの施策を含んでいます。このプログラムの12社に選ばれたスタートアップの一つであるAvataar AIは、ローカルコンテキストを理解するために構築された新しいビデオモデル「Varya」をリリースしました。これは、異なる祭りや食文化、衣装などを識別する能力を備えています。
Peak XVの支援を受けるこのスタートアップは、eコマース向けの動画ツール作成に注力しています。Varyaをゼロから構築したわけではありません。アリババが公開したビデオ生成モデル「Wan 2.2」を出発点とし、蒸留(distillation)と呼ばれる技術を用いました。これは本質的に、モデルの機能を圧縮し、Avataarの特定のユースケースに最適化された軽量で高速なバージョンへと変換する手法です。その結果、処理ステップがWan 2.2の50から4に削減され、動画生成速度は10倍になり、コストも大幅に低下しました。
これを具体的な数値で表すと、NVIDIA H200 GPU を使用して Varya は 5 秒間の 720p クリップを 45 秒で生成できます。一方、Wan 2.2 では 1,230 秒かかります。
Varya の最も印象的な側面は価格かもしれません。同社はホスト型サービスにおいて、動画の 1 秒あたり ₹0.48(約 0.005 ドル)を請求する計画です。これは通常 1 秒あたり 0.10 ドル以上を請求する Veo、Kling、Luma、Runway などのモデルと比較してはるかに安価であり、およそ 20 倍の価格差があります。
「インドは動画ファーストの市場です。インドにおける主要な消費者向けインターネット製品すべてでこの傾向が見られます:動画がテキストに勝ります。現在の AI 動画モデルは、インドでの人口規模での利用には高すぎます。動画 AI が学生、教師、中小零細企業(MSME)、クリエイター、企業、公共サービスにまで届くためには、コストを劇的に下げる必要があります。コストこそが、インドにおける AI の普及における最大の鍵です」と、Peak XV のマネージングディレクターである Rajan Anandan は TechCrunch に語りました。
画像および動画生成モデルは往々にして文化的なニュアンスを見落とし、ステレオタイプ的または汎用的な出力を生み出してしまいます。これは TechCrunch が以前 報じた問題 です。Avataar AI は、食品、衣類、建築様式、祭典など文化的なニュアンスを認識できるよう Varya を訓練するために、厳選されたデータを使用したと述べています。
Varya は、インド政府が運営する公開 AI モデルおよびデータセットの中央リポジトリである「India's AI Kosh ポータル」(https://aikosh.indiaai.gov.in/) でオープンウェイトモデルとしてリリースされます。これにはトレーニングデータも含まれるため、開発者は自前でホストしたり、自身のニーズに合わせて修正したりすることが可能です。Avataar はまた、このモデルを企業顧客にも提供する計画を立てており、Higgsfield や Adobe Firefly などの動画ツールとのパートナーシップにも前向きです。誰でも現在、同社のウェブサイト上でテキストプロンプトまたは参照画像を使用して試すことができます。
Varya の発表は、インドの AI への野望における根本的なトレードオフを反映しています。業界のベテランたちは、インドが基盤モデルで競うのではなく、アプリケーションの創出と堅牢な開発者エコシステムによって AI 分野で存在感を示すことができると指摘しています。そして、この現実主義には理由があります:計算資源(compute)の不足と高品質なデータ利用可能性の限界により、モデル開発はインドにおいてグローバルな競合他国よりも遅れているのです。
インドAIミッションは、この格差を埋めるためのより広範な政府の取り組みの一部でもあります。昨年、同ミッションはAvataar AIを含む12社のスタートアップを選定し、AIモデルの開発と低コストでの計算リソースを提供しました。今年初め、IT担当大臣のアシュウィニ・ヴァイシュナウ氏は、インドが2028年までにAI分野への投資を2,000億ドル(約30兆円)規模で誘致し、6ヶ月以内にGPUの処理能力を倍以上に引き上げることを目指していると述べています。
*当記事内のリンクを通じてご購入いただいた場合、私たちは少額のコミッションを獲得する可能性があります。これは当社の編集の独立性には影響しません。
Ivan氏はTechCrunchで世界の消費者向けテクノロジー動向をカバーしています。インドを拠点に活動しており、以前はハフィントンポストやザ・ネクストウェブなどの出版物で勤務していました。
Ivan氏への連絡や、 outreach(広報活動)の確認は、im@ivanmehta.com へメールを送るか、Signalの暗号化メッセージで ivan.42 までご連絡ください。
原文を表示
India’s AI model output has been slow compared to the U.S., Europe, and China. Only a few startups are releasing models, and most of them are large language models or voice models. To encourage more development, the government launched the India AI Mission, a roughly $1.2 billion initiative that — among other things — gives selected startups access to subsidized GPU compute in exchange for releasing their models publicly. One of the 12 startups selected for the program, Avataar AI, has launched a new video model called Varya that is built to understand local context — such as identifying different festivals, food, and clothing.
The Peak XV-backed startup, which focuses on creating video tools for e-commerce, didn’t build Varya from scratch. It started with Wan 2.2, a publicly available video generation model released by Alibaba, and used a technique called distillation — essentially compressing the model’s capabilities into a leaner, faster version optimized for Avataar’s specific use cases. The result is a model that runs in four steps rather than Wan 2.2’s 50, producing video 10 times faster and at a fraction of the cost.
To put that in concrete terms: using an NVIDIA H200 GPU, Varya can generate a 5-second 720p clip in 45 seconds, compared to 1,230 seconds for Wan 2.2.
The most striking aspect of Varya may be its price. The company plans to charge ₹0.48 ($0.005) per second of video on its hosted service — far cheaper than models like Veo, Kling, Luma, and Runway, which typically charge $0.10 or more per second. That’s a roughly 20x price difference.
“India is a video-first market. We see this across every large consumer internet product in India: video wins over text. Current AI video models are too expensive for population-scale use in India. If video AI is going to reach students, teachers, MSMEs, creators, enterprises, and public services, costs have to come down dramatically. Cost is the biggest unlock for AI adoption in India,” Peak XV’s managing director Rajan Anandan told TechCrunch.
Image and video generation models often miss cultural nuances and produce stereotyped or generic outputs — a problem TechCrunch has reported on before. Avataar AI says it has used curated data to train Varya to recognize cultural nuances including food, clothing, architecture, and festivals.
Varya will be released as an open-weight model onIndia’s AI Kosh portal — the Indian government’s centralized repository for publicly available AI models and datasets — along with its training data, meaning developers can self-host or modify it for their own needs. Avataar also plans to make the model available to its enterprise customers and says it is open to partnerships with video tools including Higgsfield and Adobe Firefly. Anyone can try it now on its website using text prompts or reference images.
Varya’s launch reflects a fundamental tradeoff in India’s AI ambitions. Industry veterans have noted that India can make its mark in AI by creating applications and a robust developer ecosystem rather than competing on foundation models. And there’s a reason for that pragmatism: model development has been slower in India than in global rivals due to a lack of compute and limited quality data availability.
The India AI Mission is also part of a broader government push to close that gap. Last year, it selected 12 startups — Avataar AI among them — to develop AI models and provided them with cost-efficient compute. Earlier this year, IT minister Ashwini Vaishnaw said India aims to attract $200 billion in AI investment by 2028 and more than double its GPU capacity within six months.
*When you purchase through links in our articles, we may earn a small commission. This doesn’t affect our editorial independence.*
Ivan covers global consumer tech developments at TechCrunch. He is based out of India and has previously worked at publications including Huffington Post and The Next Web.
You can contact or verify outreach from Ivan by emailing im@ivanmehta.com or via encrypted message at ivan.42 on Signal.
関連記事
ハリウッドの未来は、バニラ型生成 AI モデルにプロンプトを入力するだけでは実現しない
The Verge は、生成 AI が映画業界を革命化するとの騒ぎにもかかわらず、実際に観客が支払って見る価値のある作品がほとんど生まれていないと指摘し、単純なプロンプト入力では不十分だと論じている。
Qwen-Image-Flash の紹介(26 分読)
Tianhe Wu 氏ら研究者が、画像生成モデル「Qwen-Image-Flash」を発表し、高速な画像処理を実現する技術の詳細を解説している。
動画エージェントモデルが次世代へ — xAI のイーサン・ヘ氏に聞く Grok Imagine の開発秘話(98 分読み)
Nvidia コスモス世界モデルの元リーダー、イーサン・ヘ氏が xAI に移籍し、3 ヶ月で「Grok Image」を構築した経緯について、動画生成やマルチモーダル技術の最前線における実務の核心を語っている。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み