#データエンジニアリングのAIニュース

19件の記事

データサイエンティストが知っておくべき実用的な SQL の技

KDnuggets は、データサイエンティストが効率的にデータを処理するために役立つ実践的な SQL のテクニックを紹介している。

KDnuggets·6月19日

高度な結合技術：LATERAL 結合、セミ結合、アンチ結合

KDnuggets は、サブクエリが FROM クラースの先行列を参照できる LATERAL 結合や、一致する行のみを返すセミ結合、一致しない行を返すアンチ結合といった SQL の高度な結合技術について解説した。

KDnuggets·6月18日

スクラッチから始めるFeature Stores：最小限の実装例

KDnuggetsが、機械学習モデルのトレーニングに使用する特徴量データを管理する「Feature Store」をゼロから構築する最小限の実装方法を解説している。

KDnuggets·6月11日

ストリーミング、Pandas、tiktoken を活用した NVIDIA Nemotron-Pretraining-Code-v3 メタデータからのコードデータセットパイプライン構築

MarkTechPost は、NVIDIA の大規模コード事前学習用データセット「Nemotron-Pretraining-Code-v3」のメタデータを対象に、フルダウンロードを避けてストリーミング処理し、Pandas と tiktoken を使用して分析可能なサンプルパイプラインを構築する手法を紹介している。

MarkTechPost·6月10日

KubernetesでCDC基盤を構築した話 ~ Strimzi(Kafka)・Debezium・Snowflakeを使ったMySQLデータの自動同期基盤 ~

Dynalyst社の平田聡一朗氏が、Kubernetes上でStrimzi(Kafka)・Debezium・Snowflakeを活用し、MySQLデータの自動同期基盤を構築した事例を紹介している。

CyberAgent Developers Blog·4月9日

UberがIngestionNextを発表：ストリーミング優先のデータレイクで遅延と計算量を25%削減

Uberがストリーミング優先のデータレイク取り込みプラットフォーム「IngestionNext」を発表した。Kafka、Flink、Apache Hudiを基盤とし、データ遅延を数時間から数分に短縮し、計算使用量を25%削減する。数千のデータセットをサポートし、グローバルな分析、実験、機械学習ワークロードを高速化する。

InfoQ·3月25日·★★★★

QCon London 2026：Tansu.ioの紹介 - リーン運用のためのKafka再考

Peter MorganがQCon Londonで、オープンソースでKafka互換、ステートレス、リーダーレス、ゼロスケーリング可能なブローカー「Tansu」を発表した。Rust製で、20MBのRAM使用、10ミリ秒起動、プラガブルストレージ、ブローカー側スキーマ検証、Iceberg/Delta Lakeへの直接書き込みを特徴とする。

InfoQ·3月21日·★★★★

Python製ETL「dlt」を採用した経緯 - Azure Cosmos DB for PostgreSQLとContainer App Jobによる効率的なデータレイク構築

LayerX Ai Workforce事業部のSREが、Azure Data Factoryの代わりにPython製ETLツール「dlt」とAzure Container App Jobを採用し、データ基盤の構築方法を説明している。

LayerX Tech Blog·3月18日

Uberのハイブリッドクラウドデータ：エンジニアが極大規模レプリケーションの課題を解決

UberのHiveSyncチームは、ハイブリッドクラウドとオンプレミスデータレーク間のマルチペタバイトレプリケーションを処理するため、Hadoop Distcpを最適化した。タスク並列化、小規模転送用Uberジョブ、可観測性向上により、レプリケーション容量を5倍に拡大し、オンプレミスからクラウドへのシームレスな移行を実現した。

InfoQ·3月3日