#speech-to-text のAIニュース
5件の記事
Deepgram Flux Multilingual のEnd-of-Turn判定を試す
CyberAgent Developers Blog·6月1日·★★★★
Together AI が世界最速の音声テキスト変換スタックを構築した方法
Together AI は、世界で最も高速な音声テキスト変換システムを開発し、その技術的アプローチとアーキテクチャの詳細を発表しました。
Together AI Blog·5月29日·★★★★
Amazon SageMaker AI と vLLM を用いたリアルタイム音声アプリケーションの構築
AWS は、2025 年 11 月から Amazon SageMaker AI と vLLM を活用し、従来の方式では不可能だった低遅延のリアルタイム音声処理を実現する新機能を公開した。これにより、通話分析や字幕生成などのアプリケーションが単一接続で同時に音声ストリームを送受信できるようになる。
AWS Machine Learning Blog·5月21日·★★★★
MicrosoftのVibeVoice:MITライセンスのWhisper風音声モデル
マイクロソフトは1月21日、MITライセンスの音声認識モデル「VibeVoice」を公開した。話者識別機能を内蔵し、Whisperと同等の性能を持つ。
Simon Willison Blog·4月28日
Deepgramの音声認識・生成モデルがTogether AIでネイティブ利用可能に
Deepgramの音声テキスト変換(STT)およびテキスト読み上げ(TTS)モデルが、Together AIの専用推論インフラ上でリアルタイム音声エージェント向けに利用可能となった。
Together AI Blog·4月2日