テキスト翻訳で知られるDeepL、音声翻訳に進出
DeepLは、テキスト翻訳で知られる自社技術を音声翻訳に拡張し、ZoomやMicrosoft Teamsなどの会議ツールでのリアルタイム翻訳への応用可能性を示した。
キーポイント
音声翻訳への事業拡大
DeepLがテキスト翻訳サービスから音声翻訳分野への進出を目指していることを示すニュースである。
リアルタイム会議ツールへの応用
同技術がZoomやMicrosoft Teamsなどの会議プラットフォームでのリアルタイム翻訳に活用される可能性が言及されている。
実用性の高いユースケース
ビジネス会議など実際のコミュニケーションシーンでの即時的な言語障壁の解消を目指す応用を示している。
影響分析・編集コメントを表示
影響分析
この発表は、AI翻訳市場の競争がテキストから音声・マルチモーダル領域へ拡大していることを示唆する。既存の会議ツールとの連携可能性は、実際のビジネスシーンでのAI翻訳の普及を加速させる可能性がある。
編集コメント
既存のテキスト翻訳強豪企業が音声市場に参入することで、競争がさらに激化する可能性がある。実用性の高いユースケースを示している点は評価できるが、具体的な技術詳細やリリース時期が不明な点は今後の展開に注目が必要。
テキスト翻訳ツールで知られるDeepLは本日、会議やモバイル・ウェブ上の会話、カスタムアプリを通じて現場作業員向けのグループ会話などに対応する音声から音声への翻訳スイート(voice-to-voice translation suite)をリリースした。同社はまた、カスタマーセンターなど特定のユースケースに合わせてDeepLの技術を基盤とした独自アプリケーションを構築できるAPI(Application Programming Interface)も公開している。
「長年にわたりテキスト翻訳に注力してきた私たちにとって、音声翻訳への展開は自然な次のステップでした」と、DeepLのCEOであるJarek Kutylowski氏はTechCrunchとのインタビューで語った。「テキスト翻訳やドキュメント翻訳の分野では大きな進歩を遂げましたが、リアルタイム音声翻訳に優れた製品がないと感じていました。」
Kutylowski氏は、リアルタイム翻訳製品の開発における課題は、レイテンシー(latency:発話から翻訳された音声の再生までの遅延)を短縮し、正確な結果を維持することのバランスを取ることにあると述べた。
DeepLはZoomやMicrosoft Teamsなどのプラットフォーム向けアドオンをリリースしており、参加者は相手の母国語での発話中にリアルタイム翻訳を聞くか、画面に表示されるリアルタイムの翻訳テキストを追うことができる。このプログラムは現在アーリーアクセス(early access)段階にあり、同社は組織のウェイトリスト登録を呼びかけている。また、対面またはリモートで行われるモバイルおよびウェブベースの会話に対応する製品も提供している。
また、トレーニングセッションやワークショップなどの場面でグループ会話に参加できる機能も提供しており、参加者はQRコードを通じて接続可能だ。
DeepLによると、この音声翻訳技術は業界固有の用語や企業名、人名などのカスタム語彙を学習し適応することも可能だという。
Kutylowski氏は、AIが今後数年のカスタマーサポートのあり方を再構築していると指摘した。また、翻訳レイヤー(translation layer)を導入することで、優秀な人材が不足しており採用コストも高い言語でのサポート提供を企業に支援できると述べた。
Techcrunchイベント
San Francisco、カリフォルニア州 |
2026年10月13日〜15日
同社によると、音声から音声への処理全体を自社で管理するスタック(stack)を構築している。ただし現在のシステムは、発話をテキストに変換し、翻訳を適用した後、再び音声に戻す方式を採用している。DeepLは長年テキスト翻訳に取り組んできたことで翻訳品質に優位性があると判断している。今後は、テキスト変換のステップを完全に省略したエンドツーエンド音声翻訳モデル(end-to-end voice translation model)の開発を目指すとしている。
DeepLは、この分野の関連領域で活動する複数の資金調達済みのスタートアップから競争を受けている。昨年Teleperformanceの参加を得てQuadrille Capitalから6500万ドルを調達したSanasは、AIを用いて話者のアクセントをリアルタイムで変更するツールを提供しており、これは主にカスタマーセンターの担当者向けだ。
ドバイに拠点を置くCamb.AIは、メディアおよびエンターテインメント企業向けに音声合成(speech synthesis)と翻訳に注力しており、大規模な動画コンテンツの吹き替えやローカライズを支援している。
Redditの共同創設者アレクシス・オハニアン(Alexis Ohanian)が率いるSeven Seven Sixの支援を受けるPalabraは、意味と話者の元の声を両方とも保持するように設計されたリアルタイム音声翻訳エンジン(real-time speech translation engine)を開発中であり、これはDeepLが現在構築しているものとのより直接的な競争に踏み出すことを意味する。
本記事は、Teleperformanceが今回の資金調達ラウンドに参加したことを反映して更新されました。
IvanはTechCrunchでグローバルな消費者向けテクノロジーの動向をカバーしています。インドを拠点に、以前はHuffington PostやThe Next Webなどの出版物で働いていました。
Ivanへの連絡、またはIvanからのメッセージの検証は、im@ivanmehta.com へのメール送信か、Signal上で ivan.42 による暗号化メッセージ(encrypted message)で行うことができます。
View Bio
原文を表示
DeepL, a translation company best known for its text tools, released a voice-to-voice translation suite today that covers use cases like meetings, mobile and web conversations, and group conversations for frontline workers through custom apps. The company is also releasing an API that lets outside developers and businesses build on top of DeepL’s tech for customized use cases, such as call centers.
“After spending so many years in text translation, voice was a natural step for us,” DeepL CEO Jarek Kutylowski told TechCrunch in an interview. “We have come a long way when it comes to text translation and document translation. But we thought there wasn’t a great product for real-time voice translation.”
Kutylowski said that the challenges in creating a real-time translation product center on striking a balance between reducing latency — the delay between someone speaking and the translated audio playing back — and maintaining accurate results.
DeepL is releasing add-ons for platforms like Zoom and Microsoft Teams, where listeners can either hear real-time translation while others are speaking in native languages or follow real-time translated text on-screen. This program is currently under early access, and the company is inviting organizations to join a waitlist. The company also has a product for mobile and web-based conversations that can take place in person or remotely.
DeepL also lets users participate in a group conversation in settings like training sessions or workshops, allowing participants to join through a QR code.
DeepL said that its voice-to-voice tech can also learn and adapt to custom vocabulary, such as industry-specific terms and company and personal names.
Kutylowski said that AI is reimagining what customer service will look like in the coming years. He noted that a translation layer helps companies provide support in languages where qualified staff are scarce and expensive to hire.
Techcrunch event
San Francisco, CA
|
October 13-15, 2026
The company said that it controls the entire voice-to-voice stack. However, the current system converts the speech to text, applies translation, then converts that back to speech. DeepL believes that since it has worked on text translation for years, it has an edge in translation quality. Going forward, the company wants to develop an end-to-end voice translation model that skips the text step entirely.
DeepL faces competition from several well-funded startups working in adjacent corners of the space. Sanas, which last year raised $65 million from Quadrille Capital with participation from Teleperformance, uses AI to modify a speaker’s accent in real time — a tool aimed primarily at call center agents.
Dubai-based Camb.AI focuses on speech synthesis and translation for media and entertainment companies, helping them dub and localize video content at scale.
Palabra, backed by Reddit co-founder Alexis Ohanian’s firm Seven Seven Six, is building a real-time speech translation engine designed to preserve both the meaning and the speaker’s original voice, putting it in more direct competition with what DeepL is now building.
The story has been updated to reflect that Teleperformance participated in the round
Ivan covers global consumer tech developments at TechCrunch. He is based out of India and has previously worked at publications including Huffington Post and The Next Web.
You can contact or verify outreach from Ivan by emailing im@ivanmehta.com or via encrypted message at ivan.42 on Signal.
View Bio
関連記事
【AIニュース】ImageGenはAGIへの道を進んでいる
AnthropicのようなエンタープライズAI重視の潮流の中で、GPT-Image-2は創造的な応用を推進し、AGI実現への重要な一歩を示している。
大学教授らが講義を切り刻んでAI生成コンテンツ化されたことに懸念
アリゾナ州立大学は、教員の講義動画を短く切り分けテキスト化する「Atomic」プラットフォームを導入した。これにより、教員らは自身の講義が許可なく利用され、低品質なAIコンテンツに変換されていることに強い懸念を示している。
Google Meetの音声翻訳機能がモバイルデバイスへ展開中
Googleは、Google Meetにおけるリアルタイム音声翻訳機能をスマートフォンやタブレットなどのモバイルデバイスへ順次展開し始めた。これにより、ユーザーは移動中でも異なる言語を話す相手と円滑にコミュニケーションを取れるようになる。