#データパイプラインのAIニュース

11件の記事

手動調査をデータパイプライン化。dbt Pythonモデル×LLM Web Searchで公開情報をSnowflakeに取り込む方法

LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を連携させ、公開情報を自動収集してSnowflakeに取り込むデータパイプライン構築手法を紹介する。

LayerX BizOps部データグループのさえない氏が、dbt PythonモデルとLLMのWeb Search機能を組み合わせ、公開情報を収集してSnowflakeデータベースに取り込むデータパイプライン構築の実践例を紹介している。

Pinterest Engineeringは、監視性の向上、設定調整、自動メモリ再試行を導入し、Apache Sparkのメモリ不足障害を96%削減した。段階的導入とダッシュボードにより、データパイプラインが安定化し、手動介入と運用負荷が軽減された。

非営利団体がClouderaとAIを活用し、様々な科学情報源からデータを抽出・構造化するパイプラインを開発し、研究プロセスを大幅に加速させた。

MySQLがMySQL 9.6から、外部キー制約の検証とカスケード処理をInnoDBストレージエンジンではなくSQLレイヤーで管理するように変更する。これにより変更追跡、レプリケーション精度、データ一貫性が向上し、CDCパイプラインや混合データベース環境、分析用途での信頼性が高まる。

Metaxyを使用して、Dagster上でサンプルレベルの粒度を持つマルチモーダルデータパイプラインを構築する方法を紹介します。

NVIDIAが、ドメイン特化型AIモデルのファインチューニングや蒸留において、ライセンス準拠の合成データパイプラインを構築する方法を解説している。

データ品質を全段階で確保するフレームワークを提供し、早期に問題を発見し、信頼を維持し、実際に機能するプラットフォームを構築する方法を解説します。

Dagsterがカスタム非同期エグゼキュータを導入し、実行方法を変更せずに高並列ファンアウトや非同期ネイティブライブラリの段階的導入を可能にした。

Dagster社が、データインジェスションパターン（Push、Pull、Poll）の選択に関する実践ガイドを公開した。同社は、信頼性と保守性の高いパイプライン構築を支援する実例コードを提供している。

エンジニアはデータパイプラインの誤った部分を最適化しがちであり、プロファイリングを優先するフレームワークが実際のボトルネックを特定し、時期尚早な最適化の罠を回避する方法を示す。