#音声ai のAIニュース

21件の記事

Grok音声テキスト変換およびテキスト音声変換API

Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。

xAI News·4月17日

ChatGPT音声モードは弱いモデルで動作している

OpenAIのChatGPT音声モードは、古くて性能の低いモデル（GPT-4o時代のモデル）で動作しており、知識カットオフは2024年4月である。

Simon Willison Blog·4月11日

Seed全双工音声大規模モデル発表：傾聴力と耐妨害性を備え、より自然な対話へ

バイトダンスがSeed全双工音声大規模モデルを発表し、同社の豆包アプリに実装した。このモデルは傾聴力と耐妨害性を向上させ、対話の流暢さを12%向上させた。

字节跳动Seed·4月9日·★★★★

Amazon Nova 2 Sonicでリアルタイム会話型ポッドキャストを構築

Amazonが、高度な音声理解・生成モデル「Nova 2 Sonic」を発表し、コンテンツ制作者や組織が、従来の制作プロセス（企画・録音・編集）の課題を克服し、高品質な音声コンテンツを迅速に量産できるリアルタイム会話型ポッドキャスト制作を可能にした。

AWS Machine Learning Blog·4月8日·★★★★

Claude Codeのソースコード漏洩、OpenAIが動画生成から撤退、Geminiが音楽生成を追加、LLMが推論時に学習

Claude Codeのソースコードが漏洩し、OpenAIが動画生成事業から撤退した。一方、Geminiは音楽生成機能を追加し、大規模言語モデルが推論時に学習する技術が進展している。

The Batch·4月3日

マイクロソフト、新たな音声・画像モデルでLLMを超える取り組みを発表

マイクロソフトが、自社開発のAIシステムを強化するため、新たな音声と画像のAIモデルを発表した。

AI Business·4月3日·★★★★

Alexa+がUber EatsとGrubhubでの食事注文機能を追加

AmazonはAlexa+でUber EatsとGrubhubからの食事注文機能を追加した。この機能はレストランのウェイターと話すかドライブスルーで注文するような体験を提供する。

TechCrunch AI·4月1日

Qwen3.5-Omniが音声指示と映像からコードを書く方法を誰にも教わらずに習得

アリババが音声・映像・画像・テキストを処理する多モーダルAIモデル「Qwen3.5-Omni」を発表した。同モデルは音声タスクでGemini 3.1 Proを上回り、訓練なしに音声指示と映像入力からコードを生成する能力を獲得した。

The Decoder·3月31日·★★★★

Cohereがエッジデバイス向けオープンソース音声モデルを発表

Cohereは、20億パラメータのオープンソース音声認識モデル「Cohere Transcribe」を発表した。同モデルはエッジデバイスでの展開を想定している。

AI Business·3月27日

Gemini 3.1 Flash LiveはGoogleの最も自然なAI音声モデル

GoogleがGemini 3.1 Flash Liveを発表し、より高速で自然な音声会話を実現した。開発者は品質と速度を調整でき、価格はGemini 2.5と同等に維持される。

The Decoder·3月27日

Googleが「Search Live」を全世界で展開、スマホカメラをリアルタイムAI検索ツールに

Googleが「Search Live」を200か国以上で展開開始した。この機能はユーザーが音声とカメラを使ってGoogle検索と対話できるようにする。

The Decoder·3月27日·★★★★

Gemini 3.1 Flash Live：音声AIをより自然で信頼性の高いものに

Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。

Google DeepMind·3月27日

PipecatとAmazon Bedrock AgentCore Runtimeで音声エージェントをデプロイする - 第1部

AWSとPipecatは、高負荷や不安定なネットワーク下でも自然な会話を維持する音声エージェントを、Web・モバイル・電話チャネルでストリーミング配信する方法を紹介している。

AWS Machine Learning Blog·3月26日

音声エージェント評価の新フレームワーク（EVA）

研究者らが音声エージェントの性能評価のための新フレームワーク「EVA」を発表した。このフレームワークは、音声AIの能力を体系的に測定する標準化された評価手法を提供する。

Hugging Face Blog·3月24日·★★★★

Amazonが英国でAlexa+を提供開始

Amazonは英国のユーザーを対象に早期アクセスプログラムを通じてAlexa+を無料で試用できるようにしている。

TechCrunch AI·3月19日

Zendeskが自律型カスタマーサービス新興企業Forethoughtを買収

Zendeskは、2018年にTechCrunch Battlefieldで優勝した自律型カスタマーサービス新興企業のForethoughtを買収した。

TechCrunch AI·3月12日·★★★★

DiligenceSquaredがAIと音声エージェントを活用し、M&A調査を手頃な価格に

スタートアップのDiligenceSquaredは、高額な経営コンサルタントに依存せず、AI音声エージェントを使用して、PEファームが買収を検討している企業の顧客へのインタビューを実施する。

TechCrunch AI·3月6日

IBM、Deepgramとの提携でWatsonxに音声機能を追加

IBMはDeepgramと初の音声技術提携を発表し、Deepgramの音声エンジンをWatsonx Orchestrateのエージェント構築ツールに直接組み込む。

AI Business·3月5日

Claude Codeが音声モード機能を導入

Anthropic社がAIコーディングツール「Claude Code」に音声モード機能を追加し、AIコーディング分野での競争力を強化した。

TechCrunch AI·3月4日

ParticleのAIニュースアプリがポッドキャストから興味深いクリップを抽出

AIニュースアプリParticleがポッドキャストから重要な瞬間を抽出し、関連記事と共に短く関連性の高いクリップを即座に再生できる機能を追加しました。

TechCrunch AI·2月24日·★★★★

Grok音声エージェントAPI

xAIは、開発者がGrokの音声機能を利用できる「Grok Voice Agent API」を公開した。これにより、開発者は音声インターフェースを持つエージェントを構築可能となる。

xAI News·12月17日