Cohereが文字起こし専用のオープンソース音声モデルを発表
Cohereは、消費者向けGPUでセルフホスト可能な、14言語対応の20億パラメータのオープンソース音声文字起こしモデルをリリースした。
キーポイント
軽量でアクセスしやすいモデル
20億パラメータという比較的軽量な設計により、消費者向けGPUでのセルフホスティングが可能で、ユーザーが自前で運用できることを目指している。
多言語対応
現在14の言語をサポートしており、多様なユースケースに対応できる基盤を提供している。
オープンソース戦略
モデルをオープンソースとして公開することで、開発者コミュニティの参入とカスタマイズを促進する戦略を取っている。
実用性重視の設計
高価な専用ハードウェアを必要とせず、広範なユーザーが実際に利用できることを前提とした設計が特徴である。
影響分析・編集コメントを表示
影響分析
このリリースは、高価なクラウドサービスに依存せずに音声文字起こし機能を利用したい開発者や企業にとって実用的な選択肢を提供する。オープンソース化により競争が激化する音声AI市場で、Cohereが開発者コミュニティへの浸透を図る戦略的な動きと言える。
編集コメント
軽量で実用的なオープンソースモデルの提供は、音声AIの民主化を進める重要な一歩。既存の大規模クラウドサービスに依存しない選択肢として注目される。
わずか20億パラメータと比較的軽量なこのモデルは、セルフホスティングを希望するユーザーがコンシューマーグレードのGPUで利用できるように設計されています。現在14言語をサポートしています。
原文を表示
Enterprise AI company Cohere on Thursday launched its first voice model: Transcribe is an open source automatic speech recognition model that can be used for tasks like note-taking and speech analysis.
Relatively light at just 2 billion parameters, the model is meant for use with consumer-grade GPUs for those who want to self-host it. It currently supports 14 languages: English, French, German, Italian, Spanish, Portuguese, Greek, Dutch, Polish, Chinese, Japanese, Korean, Vietnamese, and Arabic.
Cohere says Transcribe beats models such as Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2, and Qwen3-ASR-1.7B Speech on the Hugging Face Open ASR leaderboard, achieving an average word error rate (WER) of 5.42, lower than any other model on the benchmark.
The company claims Transcribe had an average win rate of 61% over other models when human evaluators assessed its transcriptions for accuracy, coherence, and usability. However, the model fell behind its rivals when it had to transcribe Portuguese, German, and Spanish.
Cohere says Transcribe can process 525 minutes of audio in a minute, which is high for its class of model.
The company is planning to integrate Transcribe into its enterprise agent orchestration platform, North, and is making the model available through its API for free. The model will also be available on Model Vault, Cohere’s managed inference platform.
Speech recognition models are growing increasingly popular as demand grows for note-taking and dictation apps like Granola and Wispr Flow.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026
Earlier this year, Cohere reportedly told investors that it was generating annual recurring revenue of $240 million in 2025, and its CEO, Aidan Gomez, was cited as saying that the startup may go public “soon”.
Ivan covers global consumer tech developments at TechCrunch. He is based out of India and has previously worked at publications including Huffington Post and The Next Web.
You can contact or verify outreach from Ivan by emailing im@ivanmehta.com or via encrypted message at ivan.42 on Signal.
View Bio
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み