#リアルタイム処理 のAIニュース
20件の記事
Gemini 3.5 Live Translate で流体かつ自然な音声翻訳を実現(4 分読了)
Google は、70 以上の言語間でリアルタイムの音声対音声翻訳を行う「Gemini 3.5 Live Translate」を公開した。この音声モデルは不自然な間隔を排除し、イントネーションを維持する機能を備え、現在は Google Meet の非公開ベータ版や Android/iOS の Google 翻訳アプリを通じて展開されている。
Gemini 3.5 Live Translate による流体かつ自然な音声翻訳の実現
Google DeepMind は、Gemini 3.5 Live Translate を発表し、会話のような自然さでリアルタイムに音声翻訳を行う技術を開発した。
ミラ・ムラティが再び注目を集める、慎重な姿勢で
OpenAI の元最高技術責任者であるミラ・ムラティ氏が、新たな役割や活動を通じて業界の注目を集めつつある。彼女は慎重な姿勢を維持しながら、テック界での影響力を再構築している。
ポッドキャスト:詐欺を駆使する中国製のディープフェイクソフトウェア「Haotian AI」の正体
Joseph が、Microsoft Teams や Zoom 通話で他人に成りすますリアルタイム動画ディープフェイクソフト「Haotian AI」を入手した経緯を報告し、Matthew がカードゲームの騒動について語る。
本日は特に目立った出来事なし
AIニュース配信元「AINews」は、2026年5月9日から11日にかけての期間に、主要なSNSや掲示板で注目すべき技術進展や業界動向が確認されなかったと報告した。
Google、Gemini 3.1 Flash-Lite を一般提供開始
Google は、超低遅延と高処理能力を特徴とする「Gemini 3.1 Flash-Lite」を Google Cloud で全世界に一般提供した。このモデルはソフトウェアエンジニアリングや金融サービス向けに設計され、サブ秒の応答時間を実現し、リアルタイム開発やカスタマーサポート業務に適している。
『HELLO BOSS』:世界中の詐欺を駆動する中国製リアルタイムディープフェイクソフトウェアの内幕
ある人物がマイクロソフト Teams の通話で、自身の顔と特徴を持つリアルタイムディープフェイクと対面し、その恐ろしい現実を目撃した。この技術は中国製のソフトウェアによって実現されており、世界中で詐欺に悪用されている。
Google Meetの音声翻訳機能がモバイルデバイスへ展開中
Googleは、Google Meetにおけるリアルタイム音声翻訳機能をスマートフォンやタブレットなどのモバイルデバイスへ順次展開し始めた。これにより、ユーザーは移動中でも異なる言語を話す相手と円滑にコミュニケーションを取れるようになる。
地球のための10年間のリアルタイムインテリジェンス
AI2は過去10年間、野生動物や海洋保護のためのオープンなリアルタイムツールを開発し、世界中の生態系保全を支援してきた。
DeepStreamコーディングエージェントを使用したビジョンAIパイプライン構築方法
NVIDIAが、DeepStreamコーディングエージェントを使用してリアルタイムビジョンAIアプリケーションの開発を効率化する方法を紹介した。複雑なデータパイプラインや大量のコードを必要とする課題を解決する技術を提案している。
S2S APIを比較して分かった実務的な選び方
本記事は、主要なS2S(Speak-to-Speak)APIモデル(GPT・Gemini・Nova)を体験品質・知能性能・レイテンシ・実装面で比較し、実務的な選び方を整理している。
プレゼンテーション:レイテンシー:ゼロへの競争…我々は到達したのか?
Amir Langer氏が、ポニーエクスプレスから現代ハードウェアまでのレイテンシー低減の進化を解説し、ビジネスロジックとI/Oの分離やAeronなどの技術でマイクロ秒単位の高速化を実現する手法を説明した。
Amazon Nova 2 Sonicでリアルタイム会話型ポッドキャストを構築
Amazonが、高度な音声理解・生成モデル「Nova 2 Sonic」を発表し、コンテンツ制作者や組織が、従来の制作プロセス(企画・録音・編集)の課題を克服し、高品質な音声コンテンツを迅速に量産できるリアルタイム会話型ポッドキャスト制作を可能にした。
Amazon Polly双方向ストリーミングの紹介:会話型AIのためのリアルタイム音声合成
AmazonはAmazon Pollyの新API「双方向ストリーミング」を発表した。このAPIはテキスト送信と音声受信を同時に行えるリアルタイム音声合成を実現し、会話型AIアプリケーションの応答生成を効率化する。
iOSでヘッドフォンをライブ個人翻訳機に変身させる
Googleは、iOSおよびAndroidユーザー向けに「Live Translate with headphones」機能を公式リリースした。この機能により、ユーザーはヘッドフォンを通じてリアルタイムの翻訳サービスを利用可能となる。また、対応可能な国々をさらに拡大する計画も発表されている。
Gemini 3.1 Flash Live:音声AIをより自然で信頼性の高いものに
Googleが最新音声モデル「Gemini 3.1 Flash Live」を発表し、精度向上と低遅延化により音声インタラクションをより流暢で自然なものにした。
Littlebird、AI支援型「リコール」ツールで1100万ドルを調達
Littlebirdは、スクリーンショットに依存せずに画面をリアルタイムで読み取り、文脈を把握し質問に答えタスクを自動化するAIを開発している。
ByteDanceのオープンウェイトHeliosモデル、1分間のAI動画生成をほぼリアルタイムに
ByteDanceの研究者が、単一GPUで19.5FPSを達成し1分間の動画クリップを生成できる140億パラメータの動画モデルHeliosを公開した。コードとウェイトは一般公開されている。
OpenAI、開発者向けに音声信頼性とエージェント速度を向上させるAPIアップグレードを提供
OpenAIが新たな音声モデルと高速接続を導入し、開発者向けAPIの音声信頼性とエージェント処理速度を向上させました。
Qwen2.5 Omni:視覚、聴覚、会話、記述、実行をすべてこなす!
Qwenチームは、テキスト・画像・音声・動画を入力し、リアルタイムのテキスト生成と自然な音声合成で応答する多モーダルモデル「Qwen2.5-Omni」を公開した。このエンドツーエンドのフラッグシップモデルは、Qwen Chatで7B版を試せる。