メインコンテンツへスキップ

#ストリーミング処理 のAIニュース

3件の記事

FineWeb を用いたストリーミング、フィルタリング、重複排除、トークン化、大規模ウェブコーパス分析のコーディングハンズオン

MarkTechPost は、大規模なデータセットをダウンロードせずに FineWeb データセットのサンプルをストリーミングし、スキーマやメタデータを調査するチュートリアルを提供しています。また、品質フィルタリングパイプラインの再現、MinHash による重複検出、GPT-2 トークナイザーを用いたトークン数検証、および有用な分析結果の生成方法を解説しています。

MarkTechPost·6月15日·★★★★

Google、Meet・翻訳・ライブ API で 70 言語以上対応のストリーミング音声対音声モデル「Gemini 3.5 Live Translate」を公開

Google は、70 以上の言語を自動検知し、話者のイントネーションやピッチを保ちながら連続的に翻訳音声を生成する新モデル「Gemini 3.5 Live Translate」を発表した。この技術は Meet、翻訳サービス、ライブ API で利用可能となる。

MarkTechPost·6月10日·★★★★

UberがIngestionNextを発表:ストリーミング優先のデータレイクで遅延と計算量を25%削減

Uberがストリーミング優先のデータレイク取り込みプラットフォーム「IngestionNext」を発表した。Kafka、Flink、Apache Hudiを基盤とし、データ遅延を数時間から数分に短縮し、計算使用量を25%削減する。数千のデータセットをサポートし、グローバルな分析、実験、機械学習ワークロードを高速化する。

InfoQ·3月25日·★★★★