#音声認識 のAIニュース
25件の記事
Google Home スピーカーは音質・デザインともに優れるが、動作に癖あり
The Verge AI は、新しい Google Home スピーカーが音量最大時でも「Hey, Google」の音声認識を即座に実行する優れた性能を持つ一方、2 日間のテストでマイクロホンの反応に不安定さが見られると報告した。
音声エージェントはバイリンガル顧客に対応できるか?コードスイッチング音声における最先端 ASR のベンチマーク
Hugging Face は、音声エージェントが言語を混在させた(コードスイッチング)音声に対してどの程度対応可能かを評価するため、最先端の自動音声認識(ASR)技術をベンチマークした。
Gemma 4 12B:開発者ガイド
Google が、消費者向けデバイスでの高性能なローカル AI 実行を目的とした高密度マルチモーダルモデル「Gemma 4 12B」を発表し、従来の視覚・音声エンコーダーを不要とする新アーキテクチャを採用した開発者向けのガイドを提供した。
YouTube、AI推薦ツールや「自動再生速度」など新ポッドキャスト機能を追加
YouTube がポッドキャスト機能の強化を発表し、AI を活用した推薦ツールの導入と、リスナーが音声速度を自動調整できる「Auto speed」機能を新たに追加しました。
メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ
メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。
OpenAI、Codex にアニメーションペットと設定ファイル自動インポート機能を追加
OpenAI は開発ツール「Codex」を更新し、画面にオーバーレイ表示されるアニメーションペット機能や、他コードエージェントからの設定ファイル自動インポート、音声入力精度向上のための辞書機能を追加した。これによりデスクトップアプリとしての利便性と魅力が強化された。
故郷の方言でこのAIをテストしてみませんか?
通義实验室は音声認識大模型「Fun-ASR1.5」をリリースした。同モデルは30言語と7大方言を単一アーキテクチャで処理し、典型方言の誤り率を56%削減して工業級の実用化を実現した。
Grok音声テキスト変換およびテキスト音声変換API
Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。
MLXを使用したGemma 4オーディオ
Rahim Nathwaniが、macOSで10.28GBのGemma 4 E2BモデルとMLX、mlx-vlmを使用してオーディオファイルを文字起こしするuv runレシピを共有した。
音響的近傍埋め込みの理論的枠組み
研究者らが、可変幅の音声やテキストの音韻内容を固定次元の埋め込み空間で表現する「音響的近傍埋め込み」の理論的枠組みを提案した。単語間の音韻的類似性の定量的定義に基づき、埋め込み間の距離の確率的解釈を提供し、原理に基づいた理解と応用を可能にする。
Googleがオフラインで動作するAI音声入力アプリを静かにローンチ
GoogleがGemma AIモデルを活用したオフライン対応の音声入力アプリを発表し、Wispr Flowなどの競合アプリに対抗する。
GoogleがiOS向けオフラインファーストAI音声入力アプリを静かにリリース
GoogleがGemma AIモデルを活用したオフラインファーストの音声入力アプリをiOS向けにリリースし、Wispr Flowなどの競合アプリに対抗する。
マイクロソフト、3つの新しい基盤モデルでAIライバルに挑む
マイクロソフトは、音声をテキストに変換し、音声や画像を生成できる3つの新しい基盤モデルを発表した。同社は6か月前に結成されたグループを通じてこれらのモデルをリリースした。
マイクロソフトのMAI-Transcribe-1、前モデルより2.5倍高速で1時間あたり0.36ドルで音声文字起こしを提供
マイクロソフトがMAI-Transcribe-1を発表した。このモデルは、25言語で背景ノイズがあっても正確に音声をテキストに変換し、前モデルより2.5倍高速で1時間あたり0.36ドルのコストで動作する。マイクロソフトは既に自社製品でこのモデルを使用している。
Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース
Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。
Cohereがエッジデバイス向けオープンソース音声モデルを発表
Cohereは、20億パラメータのオープンソース音声認識モデル「Cohere Transcribe」を発表した。同モデルはエッジデバイスでの展開を想定している。
Search Liveのグローバル展開
Googleは、AIモードが利用可能なすべての言語および地域において、「Search Live」機能をグローバルに展開すると発表した。これにより、世界中のユーザーがリアルタイム検索機能を利用できるようになる。
Cohereが文字起こし専用のオープンソース音声モデルを発表
Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。
TalatのAI会議メモはクラウドではなく自身のマシン上に保存される
Talatは、Granolaなどの既存のメモツールとは異なり、クラウドではなくユーザーのローカルマシン上で動作するサブスクリプションフリーのAI会議メモアプリを提供している。
これらのAIノートテイキングデバイスは会議の記録と文字起こしを支援する
これらの物理的なノートテイカーは、AIを使用して音声を文字起こしし、会議の要約とアクション項目をユーザーに提供する。一部はライブ翻訳も提供する。
Google AI、自動音声認識およびテキスト読み上げモデルの学習用マルチリンガルアフリカ語音声データセット「WAXAL」を公開
Google AIチームは、24のアフリカ語に対応するオープン音声データセット「WAXAL」を公開し、低リソース言語の音声認識・合成モデル学習データを補完した。
OpenAI従業員が新たなオムニモデルを示唆
OpenAIの従業員が投稿と「BiDi」と呼ばれる音声プロジェクトのリークを通じて、同社が次世代の大規模マルチモーダルアップグレードに取り組んでいることを示唆した。
IBM、Deepgramとの提携でWatsonxに音声機能を追加
IBMはDeepgramと初の音声技術提携を発表し、Deepgramの音声エンジンをWatsonx Orchestrateのエージェント構築ツールに直接組み込む。
ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配
ElevenLabsとGoogleが、音声認識技術の最新ベンチマークで互角の性能を示し、同分野のトップを争っている。
OpenAI、開発者向けに音声信頼性とエージェント速度を向上させるAPIアップグレードを提供
OpenAIが新たな音声モデルと高速接続を導入し、開発者向けAPIの音声信頼性とエージェント処理速度を向上させました。