#音声認識 のAIニュース

25件の記事

Google Home スピーカーは音質・デザインともに優れるが、動作に癖あり

The Verge AI は、新しい Google Home スピーカーが音量最大時でも「Hey, Google」の音声認識を即座に実行する優れた性能を持つ一方、2 日間のテストでマイクロホンの反応に不安定さが見られると報告した。

The Verge AI·6月24日

音声エージェントはバイリンガル顧客に対応できるか?コードスイッチング音声における最先端 ASR のベンチマーク

Hugging Face は、音声エージェントが言語を混在させた(コードスイッチング)音声に対してどの程度対応可能かを評価するため、最先端の自動音声認識(ASR)技術をベンチマークした。

Hugging Face Blog·6月10日·★★★★

Gemma 4 12B:開発者ガイド

Google が、消費者向けデバイスでの高性能なローカル AI 実行を目的とした高密度マルチモーダルモデル「Gemma 4 12B」を発表し、従来の視覚・音声エンコーダーを不要とする新アーキテクチャを採用した開発者向けのガイドを提供した。

Google Developers AI·6月3日·★★★★

YouTube、AI推薦ツールや「自動再生速度」など新ポッドキャスト機能を追加

YouTube がポッドキャスト機能の強化を発表し、AI を活用した推薦ツールの導入と、リスナーが音声速度を自動調整できる「Auto speed」機能を新たに追加しました。

TechCrunch AI·5月28日·★★★★

メタ、音声モードとメガネ搭載の「Muse Spark」を公開へ

メタは自社サービス全体で基盤モデル「Muse Spark」を活用し、音声応答の高速化やスマートなショッピング支援、カメラによるリアルタイム視覚認識機能を追加する。この機能はまず米国とカナダのユーザー向けに展開される。

TLDR AI·5月13日

OpenAI、Codex にアニメーションペットと設定ファイル自動インポート機能を追加

OpenAI は開発ツール「Codex」を更新し、画面にオーバーレイ表示されるアニメーションペット機能や、他コードエージェントからの設定ファイル自動インポート、音声入力精度向上のための辞書機能を追加した。これによりデスクトップアプリとしての利便性と魅力が強化された。

TLDR AI·5月4日

故郷の方言でこのAIをテストしてみませんか?

通義实验室は音声認識大模型「Fun-ASR1.5」をリリースした。同モデルは30言語と7大方言を単一アーキテクチャで処理し、典型方言の誤り率を56%削減して工業級の実用化を実現した。

通义大模型·4月20日

Grok音声テキスト変換およびテキスト音声変換API

Grok社が、高速で正確な音声テキスト変換と自然で表現力豊かな音声合成を提供するAPIを発表した。シンプルな価格設定と多言語対応を特徴とする。

xAI News·4月17日

MLXを使用したGemma 4オーディオ

Rahim Nathwaniが、macOSで10.28GBのGemma 4 E2BモデルとMLX、mlx-vlmを使用してオーディオファイルを文字起こしするuv runレシピを共有した。

Simon Willison Blog·4月13日

音響的近傍埋め込みの理論的枠組み

研究者らが、可変幅の音声やテキストの音韻内容を固定次元の埋め込み空間で表現する「音響的近傍埋め込み」の理論的枠組みを提案した。単語間の音韻的類似性の定量的定義に基づき、埋め込み間の距離の確率的解釈を提供し、原理に基づいた理解と応用を可能にする。

Apple Machine Learning·4月9日

Googleがオフラインで動作するAI音声入力アプリを静かにローンチ

GoogleがGemma AIモデルを活用したオフライン対応の音声入力アプリを発表し、Wispr Flowなどの競合アプリに対抗する。

TechCrunch AI·4月8日

GoogleがiOS向けオフラインファーストAI音声入力アプリを静かにリリース

GoogleがGemma AIモデルを活用したオフラインファーストの音声入力アプリをiOS向けにリリースし、Wispr Flowなどの競合アプリに対抗する。

TechCrunch AI·4月7日

マイクロソフト、3つの新しい基盤モデルでAIライバルに挑む

マイクロソフトは、音声をテキストに変換し、音声や画像を生成できる3つの新しい基盤モデルを発表した。同社は6か月前に結成されたグループを通じてこれらのモデルをリリースした。

TechCrunch AI·4月3日

マイクロソフトのMAI-Transcribe-1、前モデルより2.5倍高速で1時間あたり0.36ドルで音声文字起こしを提供

マイクロソフトがMAI-Transcribe-1を発表した。このモデルは、25言語で背景ノイズがあっても正確に音声をテキストに変換し、前モデルより2.5倍高速で1時間あたり0.36ドルのコストで動作する。マイクロソフトは既に自社製品でこのモデルを使用している。

The Decoder·4月3日

Cohere、音声認識ベンチマークでトップのオープンソースモデルをリリース

Cohereがオープンソースの音声認識モデルを発表し、ベンチマークでOpenAIのWhisperを含む全ての競合を上回った。

The Decoder·3月28日·★★★★

Cohereがエッジデバイス向けオープンソース音声モデルを発表

Cohereは、20億パラメータのオープンソース音声認識モデル「Cohere Transcribe」を発表した。同モデルはエッジデバイスでの展開を想定している。

AI Business·3月27日

Search Liveのグローバル展開

Googleは、AIモードが利用可能なすべての言語および地域において、「Search Live」機能をグローバルに展開すると発表した。これにより、世界中のユーザーがリアルタイム検索機能を利用できるようになる。

Google AI Blog·3月27日

Cohereが文字起こし専用のオープンソース音声モデルを発表

Cohereが20億パラメータの軽量なオープンソース音声モデルを公開した。このモデルは消費者向けGPUで自己ホスト可能で、現在14言語をサポートしている。

TechCrunch AI·3月26日

TalatのAI会議メモはクラウドではなく自身のマシン上に保存される

Talatは、Granolaなどの既存のメモツールとは異なり、クラウドではなくユーザーのローカルマシン上で動作するサブスクリプションフリーのAI会議メモアプリを提供している。

TechCrunch AI·3月25日

これらのAIノートテイキングデバイスは会議の記録と文字起こしを支援する

これらの物理的なノートテイカーは、AIを使用して音声を文字起こしし、会議の要約とアクション項目をユーザーに提供する。一部はライブ翻訳も提供する。

TechCrunch AI·3月20日

Google AI、自動音声認識およびテキスト読み上げモデルの学習用マルチリンガルアフリカ語音声データセット「WAXAL」を公開

Google AIチームは、24のアフリカ語に対応するオープン音声データセット「WAXAL」を公開し、低リソース言語の音声認識・合成モデル学習データを補完した。

MarkTechPost·3月17日·★★★★

OpenAI従業員が新たなオムニモデルを示唆

OpenAIの従業員が投稿と「BiDi」と呼ばれる音声プロジェクトのリークを通じて、同社が次世代の大規模マルチモーダルアップグレードに取り組んでいることを示唆した。

The Decoder·3月9日·★★★★

IBM、Deepgramとの提携でWatsonxに音声機能を追加

IBMはDeepgramと初の音声技術提携を発表し、Deepgramの音声エンジンをWatsonx Orchestrateのエージェント構築ツールに直接組み込む。

AI Business·3月5日

ElevenLabsとGoogleがArtificial Analysisの更新された音声認識ベンチマークを支配

ElevenLabsとGoogleが、音声認識技術の最新ベンチマークで互角の性能を示し、同分野のトップを争っている。

The Decoder·3月1日

OpenAI、開発者向けに音声信頼性とエージェント速度を向上させるAPIアップグレードを提供

OpenAIが新たな音声モデルと高速接続を導入し、開発者向けAPIの音声信頼性とエージェント処理速度を向上させました。

The Decoder·2月24日·★★★★