#データエンジニアリング のAIニュース
19件の記事
データサイエンティストが知っておくべき実用的な SQL の技
KDnuggets は、データサイエンティストが効率的にデータを処理するために役立つ実践的な SQL のテクニックを紹介している。
高度な結合技術:LATERAL 結合、セミ結合、アンチ結合
KDnuggets は、サブクエリが FROM クラースの先行列を参照できる LATERAL 結合や、一致する行のみを返すセミ結合、一致しない行を返すアンチ結合といった SQL の高度な結合技術について解説した。
スクラッチから始めるFeature Stores:最小限の実装例
KDnuggetsが、機械学習モデルのトレーニングに使用する特徴量データを管理する「Feature Store」をゼロから構築する最小限の実装方法を解説している。
ストリーミング、Pandas、tiktoken を活用した NVIDIA Nemotron-Pretraining-Code-v3 メタデータからのコードデータセットパイプライン構築
MarkTechPost は、NVIDIA の大規模コード事前学習用データセット「Nemotron-Pretraining-Code-v3」のメタデータを対象に、フルダウンロードを避けてストリーミング処理し、Pandas と tiktoken を使用して分析可能なサンプルパイプラインを構築する手法を紹介している。
KubernetesでCDC基盤を構築した話 ~ Strimzi(Kafka)・Debezium・Snowflakeを使ったMySQLデータの自動同期基盤 ~
Dynalyst社の平田聡一朗氏が、Kubernetes上でStrimzi(Kafka)・Debezium・Snowflakeを活用し、MySQLデータの自動同期基盤を構築した事例を紹介している。
UberがIngestionNextを発表:ストリーミング優先のデータレイクで遅延と計算量を25%削減
Uberがストリーミング優先のデータレイク取り込みプラットフォーム「IngestionNext」を発表した。Kafka、Flink、Apache Hudiを基盤とし、データ遅延を数時間から数分に短縮し、計算使用量を25%削減する。数千のデータセットをサポートし、グローバルな分析、実験、機械学習ワークロードを高速化する。
QCon London 2026:Tansu.ioの紹介 - リーン運用のためのKafka再考
Peter MorganがQCon Londonで、オープンソースでKafka互換、ステートレス、リーダーレス、ゼロスケーリング可能なブローカー「Tansu」を発表した。Rust製で、20MBのRAM使用、10ミリ秒起動、プラガブルストレージ、ブローカー側スキーマ検証、Iceberg/Delta Lakeへの直接書き込みを特徴とする。
Python製ETL「dlt」を採用した経緯 - Azure Cosmos DB for PostgreSQLとContainer App Jobによる効率的なデータレイク構築
LayerX Ai Workforce事業部のSREが、Azure Data Factoryの代わりにPython製ETLツール「dlt」とAzure Container App Jobを採用し、データ基盤の構築方法を説明している。
Uberのハイブリッドクラウドデータ:エンジニアが極大規模レプリケーションの課題を解決
UberのHiveSyncチームは、ハイブリッドクラウドとオンプレミスデータレーク間のマルチペタバイトレプリケーションを処理するため、Hadoop Distcpを最適化した。タスク並列化、小規模転送用Uberジョブ、可観測性向上により、レプリケーション容量を5倍に拡大し、オンプレミスからクラウドへのシームレスな移行を実現した。
PinterestのCDCベース取り込みフレームワークがデータベース遅延を24時間から15分に短縮
PinterestはKafka、Flink、Spark、Icebergを使用した次世代CDCベースデータベース取り込みフレームワークを導入し、データ利用可能時間を24時間以上から15分に短縮し、変更レコードのみ処理、増分更新・削除をサポート、ペタバイトレベルのデータ処理を実現した。
Dagster OSSからDagster+への移行時期
Dagster社が、チームの成長に伴いDagster OSSの運用負担が増えるため、データ製品開発に集中するためにDagster+への移行時期を説明している。
スキルの評価
Dagsterスキルの効果を定量的に測定する軽量評価フレームワークを構築し、その結果を報告する。
優れたインフラには優れた物語が必要:子供向け絵本のデザイン
Dagsterアセットを依存関係に応じて待機・反応・変化する生き物として子供向け絵本で説明。温かみ・視覚・動きを通じてアセットの魅力を再発見した。
実際にスケールするデータプラットフォームの構築方法
著者が、ビジネスに合わせてスケールするデータプラットフォームを事前に設計すべきだと主張している。
LayerXのdbt Pythonモデル活用術 - 外部連携の実装パターン
LayerXのデータグループが、dbt Pythonモデルを用いた外部連携の実装パターンを紹介し、AIエージェントが活用できるデータ環境の整備を含むデータ基盤構築の取り組みを説明している。
データインジェスションパターン:Push、Pull、Pollの使い分け(実例付き)
Dagster社が、データインジェスションパターン(Push、Pull、Poll)の選択に関する実践ガイドを公開した。同社は、信頼性と保守性の高いパイプライン構築を支援する実例コードを提供している。
データパイプラインを最適化すべき時(とすべきでない時)
エンジニアはデータパイプラインの誤った部分を最適化しがちであり、プロファイリングを優先するフレームワークが実際のボトルネックを特定し、時期尚早な最適化の罠を回避する方法を示す。
DynamoDBとAuroraを用いた最小限データ基盤の構築事例
CoeFontがAWS上のサービスデータをGCP BigQueryに転送し、最小限のデータ基盤を構築した事例を紹介。
機械学習でGitHubタスクを自動化して楽しみと利益を得る方法
機械学習を活用してGitHub上の反復作業を自動化し、効率化と収益向上を実現する方法を解説。