#speech-to-text のAIニュース

5件の記事

Together AI は、世界で最も高速な音声テキスト変換システムを開発し、その技術的アプローチとアーキテクチャの詳細を発表しました。

Amazon SageMaker AI と vLLM を用いたリアルタイム音声アプリケーションの構築

AWS は、2025 年 11 月から Amazon SageMaker AI と vLLM を活用し、従来の方式では不可能だった低遅延のリアルタイム音声処理を実現する新機能を公開した。これにより、通話分析や字幕生成などのアプリケーションが単一接続で同時に音声ストリームを送受信できるようになる。

マイクロソフトは1月21日、MITライセンスの音声認識モデル「VibeVoice」を公開した。話者識別機能を内蔵し、Whisperと同等の性能を持つ。

Deepgramの音声テキスト変換（STT）およびテキスト読み上げ（TTS）モデルが、Together AIの専用推論インフラ上でリアルタイム音声エージェント向けに利用可能となった。