LiteRT:オンデバイスAIのためのユニバーサルフレームワーク
TFLiteを進化させたLiteRTは、GPU性能1.4倍向上や新NPU対応など、オンデバイスAIの標準フレームワークとして機能します。
キーポイント
TensorFlow Liteの後継として、LiteRTが本格的なプロダクション対応フレームワークとしてリリースされた
GPU性能がTFLite比1.4倍向上し、NPUアクセラレーションを新たにサポートする高性能ランタイム
Android/iOS/macOS/Windows/Linux/Webと、クロスプラットフォームでの統一的なGPU/NPUアクセラレーションを提供
Gemmaなどのオープンモデルや、PyTorch/JAXモデルのシームレスな変換・デプロイをサポート
影響分析・編集コメントを表示
影響分析
GoogleがオンデバイスAIの基盤フレームワークを本格的に刷新し、生成AIを含む先進モデルのエッジデプロイメントを大幅に効率化する。これにより、開発者は複雑なハードウェア最適化を意識せず、高性能なオンデバイスAIアプリケーションを構築できる環境が整備される。
編集コメント
TensorFlow Lite時代の実績を引き継ぎつつ、生成AI時代の要求に応える本格的な後継フレームワークの登場。Googleのエコシステム全体でのオンデバイスAI標準化が加速しそう。
LiteRT:オンデバイスAIのためのユニバーサルフレームワーク
2024年の初導入以来、Googleは機械学習(ML)技術スタックを、TensorFlow Lite(TFLite)を基盤としたものから、現代的なオンデバイスAIフレームワークへと進化させることに注力してきた。TFLiteが従来のMLの標準を確立したのに対し、その使命は、開発者がかつて古典的MLを統合したのと同じようにシームレスに、今日の最先端AIをオンデバイスにデプロイできるようにすることにある。
Google I/O ‘25では、高度なハードウェアアクセラレーションに特化した高性能ランタイムのプレビューを発表。今回、それらの高度なアクセラレーション機能が正式にLiteRTのプロダクションスタックに統合され、全ての開発者に利用可能となった。
この節目により、LiteRTはAI時代における「ユニバーサルなオンデバイス推論フレームワーク」としての地位を確固たるものにし、TFLiteを大きく凌駕する飛躍を実現している。その特徴は以下の4点である:
- 高速性:TFLiteと比べGPU性能が1.4倍高速化され、さらに最先端のNPUアクセラレーションを新たに導入。
- 簡素性:エッジプラットフォーム間で、GPUとNPUのアクセラレーションに対する統一され合理化されたワークフローを提供。
- 高性能:Gemmaのような人気のオープンモデルに対し、優れたクロスプラットフォーム生成AIデプロイメントをサポート。
- 柔軟性:シームレスなモデル変換を通じて、PyTorch/JAXをファーストクラスでサポート。
これらの進化は、TFLite以来の信頼性の高いクロスプラットフォーム展開を維持しつつ実現されている。
具体的な強化点:
- 高性能なクロスプラットフォームGPUアクセラレーション:当初のAndroid向けサポートから拡大し、Android、iOS、macOS、Windows、Linux、Webにわたる包括的なGPUサポートを提供。次世代GPUエンジン「ML Drift」により、OpenCL、OpenGL、Metal、WebGPUを強力にサポートし、モバイル、デスクトップ、Webへの効率的なモデルデプロイを可能にする。Androidでは、性能優先でOpenCLを自動選択しつつ、幅広いデバイス対応のためにOpenGLにフォールバックする最適化も行う。
- エンドツーエンドの低遅延化:リアルタイムユースケース(背景分割、音声認識など)の厳しい要求に応えるため、「非同期実行」と「ゼロコピーバッファ相互運用性」という重要な技術的進歩を導入。これにより、不必要なCPUオーバーヘッドが大幅に削減され、全体のパフォーマンスが向上する。
要約すると、LiteRTは、従来のTFLiteの堅実な基盤を発展させ、より高速で、簡素で、強力かつ柔軟な、真に普遍的なオンデバイスAIフレームワークとして登場した。多様なハードウェアとプラットフォームにわたって、最先端のAIモデル
原文を表示
LiteRT: The Universal Framework for On-Device AI
Since we first introduced LiteRT in 2024, we have focused on evolving our ML tech stack from its TensorFlow Lite (TFLite) foundation into a modern on-device AI framework. While TFLite set the standard for classical ML, our mission is to empower developers to deploy today’s cutting-edge AI on-device just as seamlessly as they integrated classical ML in the past.
At Google I/O ‘25, we shared a preview of this evolution: a high-performance runtime designed specifically for advanced hardware acceleration. Today, we are excited to announce that these advanced acceleration capabilities have fully graduated into the LiteRT production stack, available now for all developers.
This milestone solidifies LiteRT as the universal on-device inference framework for the AI era, representing a significant leap over TFLite for being:
Faster: delivers 1.4x faster GPU performance than TFLite, and introduces new, state-of-the-art NPU acceleration.
Simpler: provides a unified, streamlined workflow for GPU and NPU acceleration across edge platforms.
Powerful: supports superior cross-platform GenAI deployment for popular open models like Gemma.
Flexible: offers first-class PyTorch/JAX support via seamless model conversion.
All of this is delivered while maintaining the same reliable, cross-platform deployment you trust since TFLite.
Here is how LiteRT empowers you in building the next-generation of on-device AI.
High-performance cross-platform GPU acceleration
Moving beyond the initial GPU acceleration on Android announced at I/O ‘25, we are excited to introduce the full, comprehensive GPU support across Android, iOS, macOS, Windows, Linux, and Web. This expansion provides developers with a reliable, high-performance acceleration option that scales significantly beyond classical CPU inference.
LiteRT maximizes the reach by introducing robust support for OpenCL, OpenGL, Metal, and WebGPU, via ML Drift, our next-generation GPU engine, allowing you to deploy models efficiently across mobile, desktop, and web. On Android, LiteRT optimizes this further by automatically prioritizing OpenCL when available for peak performance, while falling back to OpenGL for broader device coverage.
Empowered by ML Drift, LiteRT GPU has achieved a significant leap in efficiency, delivering substantial performance gains that average 1.4x faster over the legacy TFLite GPU delegate, significantly reducing latency across a broad range of models. See more benchmark results in our previous announcement.
To enable high-performance AI applications, we have also introduced key technical advancements to optimize end-to-end latency, specifically asynchronous execution and zero-copy buffer interoperability. These features significantly reduce unnecessary CPU overhead and boost overall performance, fulfilling the stringent requirements for real-time use cases like background segmentation and speech recognition (ASR). In practice, these optimizations can result in up to 2x faster performance, as demonstrated in our Segmentation sample app. For a closer look at the improvements, see our technical deep dive.
The following examples demonstrate how easily you can leverage GPU acceleration with the new CompiledModel API in C++:
// 1. Create a compiled model targeting GPU in C++. auto compiled_model = CompiledModel::Create(env, "mymodel.tflite", kLiteRtHwAcceleratorGpu); // 2. Create an input TensorBuffer that wraps the OpenGL buffer (i.e. from image pre-processing) with zero-copy. auto input_buffer = TensorBuffer::CreateFromGlBuffer(env, tensor_type, opengl_buffer); std::vector<TensorBuffer> input_buffers{input_buffer}; auto output_buffers = compiled_model.CreateOutputBuffers(); // 3. Execute the model. compiled_model.Run(inputs, outputs); // 4. Access model output, i.e. AHardwareBuffer. auto ahwb = output_buffer[0]->GetAhwb(); C++ Copied See more instructions on LiteRT cross-platform development and GPU acceleration from LiteRT DevSite.
Streamlined NPU integration with peak performance
While CPU and GPU offer broad versatility for AI tasks, the NPU is the key to unlock the smooth, responsive, and high-speed AI experience that modern applications demand. However, fragmentation across hundreds of NPU SoC variants often forces developers to navigate a maze of disparate compilers and runtimes. Furthermore, because traditional ML infrastructure has historically lacked deep integration with specialized NPU SDKs, the result has been complex, ad-hoc deployment workflows that are difficult to manage in production.
LiteRT addresses these challenges by providing a unified, simplified NPU deployment workflow that abstracts away low-level, vendor-specific SDKs and handles fragmentation across numerous SoC variants. We have streamlined this into a simple, three-step process to get your models running with NPU acceleration easily:
AOT Compilation for the target SoCs (optional): Use the LiteRT Python library to pre-comp
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み