#data engineering のAIニュース
7件の記事
TiDB や AlloyDB の大規模テーブルを BigQuery に高速同期するための工夫
メルカリのデータインジェストチームは、数百億件に達する大規模データベースからデータウェアハウスへの継続的な同期において、速度・安全性・一貫性を確保する手法について解説している。
Mercari Engineering·6月19日
予測データデバッグ:モデル学習前にその挙動を明らかにし制御する(11 分読)
Silico プラットフォームに統合された予測データデバッグ手法は、トレーニング前の選好データ分析によりモデルの潜在的な挙動を特定します。これによりエンジニアは安全性やハルシネーションなどの問題を事前に対処し、パフォーマンスと安全性を向上させます。
TLDR AI·6月12日·★★★★
現代のデータベースシステムとツールのための GitHub リポジトリ 10 選
KDnuggets が、現代のデータベースシステムや開発ツールとして注目すべき GitHub リポジトリ 10 個を紹介している。
KDnuggets·6月2日
Pinecone、最大 1TB のバッチインポートが無料化
ベクトルデータベース「Pinecone」は、最大 1TB のデータ量までバッチインポート機能を無償で提供開始した。これにより大規模データの取り込みコストが削減される。
Pinecone·6月1日
AI駆動データエンジニアリングの発表
Dagster Universityが、AIコーディングエージェントを活用してプロダクションレディのELTパイプラインを構築する方法を教えるコースを提供している。これによりデータエンジニアの作業方法が変化している。
Dagster Blog·3月5日
1ペタバイトのデータセットで機械学習する / WebDataset入門
大規模データセットでの機械学習では、ネットワーク帯域やディスクI/Oがボトルネックとなる。本記事では、学習側での効率的なデータ処理方法について解説する。
TURING Tech Blog·5月23日·★★★★
Hadoop / Spark Conference Japan 2019での講演
データエンジニアの廣瀬氏が、クラウドネイティブなデータ処理に関する講演をHadoop/Sparkカンファレンスで行った。
SmartNews Developer Blog·3月27日