#データパイプライン のAIニュース
11件の記事
手動調査をデータパイプライン化。dbt Pythonモデル×LLM Web Searchで公開情報をSnowflakeに取り込む方法
LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を連携させ、公開情報を自動収集してSnowflakeに取り込むデータパイプライン構築手法を紹介する。
手動調査をデータパイプラインに統合。dbt Pythonモデル × LLM Web Searchで公開情報をSnowflakeに取り込む方法
LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を組み合わせ、公開情報を収集してSnowflakeデータベースに取り込むデータパイプライン構築の実践例を紹介している。
Pinterest、自動メモリ再試行によりSparkのOOM障害を96%削減
Pinterest Engineeringは、監視性の向上、設定調整、自動メモリ再試行を導入し、Apache Sparkのメモリ不足障害を96%削減した。段階的導入とダッシュボードにより、データパイプラインが安定化し、手動介入と運用負荷が軽減された。
非営利団体がClouderaとAIでデータを変革する方法
非営利団体がClouderaとAIを活用し、様々な科学情報源からデータを抽出・構造化するパイプラインを開発し、研究プロセスを大幅に加速させた。
MySQL 9.6が外部キー制約とカスケード処理の方法を変更
MySQLがMySQL 9.6から、外部キー制約の検証とカスケード処理をInnoDBストレージエンジンではなくSQLレイヤーで管理するように変更する。これにより変更追跡、レプリケーション精度、データ一貫性が向上し、CDCパイプラインや混合データベース環境、分析用途での信頼性が高まる。
DagsterとMetaxyによるMLパイプラインのサンプルレベルバージョン管理
Metaxyを使用して、Dagster上でサンプルレベルの粒度を持つマルチモーダルデータパイプラインを構築する方法を紹介します。
AIモデル蒸留のためのライセンス準拠合成データパイプライン構築方法
NVIDIAが、ドメイン特化型AIモデルのファインチューニングや蒸留において、ライセンス準拠の合成データパイプラインを構築する方法を解説している。
データ品質を全段階で確保する方法:コスト発生前に問題を捕捉する実践ガイド
データ品質を全段階で確保するフレームワークを提供し、早期に問題を発見し、信頼を維持し、実際に機能するプラットフォームを構築する方法を解説します。
同期だけでは不十分な場合
Dagsterがカスタム非同期エグゼキュータを導入し、実行方法を変更せずに高並列ファンアウトや非同期ネイティブライブラリの段階的導入を可能にした。
データインジェスションパターン:Push、Pull、Pollの使い分け(実例付き)
Dagster社が、データインジェスションパターン(Push、Pull、Poll)の選択に関する実践ガイドを公開した。同社は、信頼性と保守性の高いパイプライン構築を支援する実例コードを提供している。
データパイプラインを最適化すべき時(とすべきでない時)
エンジニアはデータパイプラインの誤った部分を最適化しがちであり、プロファイリングを優先するフレームワークが実際のボトルネックを特定し、時期尚早な最適化の罠を回避する方法を示す。