#data engineering のAIニュース

7件の記事

TiDB や AlloyDB の大規模テーブルを BigQuery に高速同期するための工夫

メルカリのデータインジェストチームは、数百億件に達する大規模データベースからデータウェアハウスへの継続的な同期において、速度・安全性・一貫性を確保する手法について解説している。

Mercari Engineering·6月19日

予測データデバッグ:モデル学習前にその挙動を明らかにし制御する(11 分読)

Silico プラットフォームに統合された予測データデバッグ手法は、トレーニング前の選好データ分析によりモデルの潜在的な挙動を特定します。これによりエンジニアは安全性やハルシネーションなどの問題を事前に対処し、パフォーマンスと安全性を向上させます。

TLDR AI·6月12日·★★★★

現代のデータベースシステムとツールのための GitHub リポジトリ 10 選

KDnuggets が、現代のデータベースシステムや開発ツールとして注目すべき GitHub リポジトリ 10 個を紹介している。

KDnuggets·6月2日

Pinecone、最大 1TB のバッチインポートが無料化

ベクトルデータベース「Pinecone」は、最大 1TB のデータ量までバッチインポート機能を無償で提供開始した。これにより大規模データの取り込みコストが削減される。

Pinecone·6月1日

AI駆動データエンジニアリングの発表

Dagster Universityが、AIコーディングエージェントを活用してプロダクションレディのELTパイプラインを構築する方法を教えるコースを提供している。これによりデータエンジニアの作業方法が変化している。

Dagster Blog·3月5日

1ペタバイトのデータセットで機械学習する / WebDataset入門

大規模データセットでの機械学習では、ネットワーク帯域やディスクI/Oがボトルネックとなる。本記事では、学習側での効率的なデータ処理方法について解説する。

TURING Tech Blog·5月23日·★★★★

Hadoop / Spark Conference Japan 2019での講演

データエンジニアの廣瀬氏が、クラウドネイティブなデータ処理に関する講演をHadoop/Sparkカンファレンスで行った。

SmartNews Developer Blog·3月27日