Hadoop / Spark Conference Japan 2019での講演
SmartNews のデータエンジニアが HSCJ 2019 で、クラウドネイティブなデータ分析基盤における Presto の活用事例と、Data Engineer ロールの必要性について発表した。
キーポイント
Presto を活用したクラウドネイティブ基盤の紹介
SmartNews のデータ分析基盤の変遷と、現在の設計における Presto のシンボリックな活用事例が発表された。
Data Engineer ロールの創設と組織変革
社員の増加に伴い、片手間の運用から専任の Data Engineer がオーナーシップを持つ必要性が生じ、新ポジションが設けられた経緯が語られた。
Data Pipeline Casual Talk の開催案内
4 月 16 日にスマートニュースオフィスで Airflow を活用したデータ基盤に関するカジュアルトークが開催され、エンジニアの登壇が予定されている。
影響分析・編集コメントを表示
影響分析
この記事は、大規模サービスにおけるデータ基盤の進化と、それに伴う組織構造の変化(Data Engineer の専門化)を具体的に示しており、業界全体でのデータエンジニアリングの成熟度を理解する上で参考になる。また、Presto や Airflow といったオープンソースツールの実運用事例を知ることで、他社への技術導入やアーキテクチャ設計のヒントとなる。
編集コメント
データ基盤の専門化と組織変革の事例は、DX を推進する多くの企業にとって示唆に富む内容です。技術選定だけでなく、人材育成や役割定義の重要性も再認識できる記事となっています。
Hadoop / Spark Conference Japan 2019で登壇しました
こんにちは、Data Engineerの廣瀬(@satoshihirose)です。3月14日に開催されたHadoop / Spark Conference Japan 2019にて、「Cloud-Nativeなデータ分析基盤におけるPrestoの活用」というタイトルで、SmartNewsのデータ分析基盤について紹介する発表をさせていただきました。発表では、これまでのSmartNewsのデータ分析基盤の変遷や現在の設計について紹介いたしました。当日の発表資料は下記です。
キーノート中の20分の発表
発表については、午前中のキーノートの中で20分の時間をいただきました。(普通に応募をしたところ、キーノート中の発表をお願いされたので、慌てながらもとても良い機会になりました)
【HSCJ 2019見どころその1】キーノートでは、開発者によるHadoop/Sparkの未来や、SmartNews/LINEにおけるPresto/Sparkのシンボリックな活用事例が紹介されます。当日はぜひ朝からお越し下さい!https://t.co/DRtmUmaboC
午前発表分でお願いしますって連絡来たから深く考えず良いですよって返答したらキーノートになってた。Hadoop / Spark Conference Japan 2019 Tickets, Thu, Mar 14, 2019 at 10:00 AM | Eventbrite https://t.co/SI4bnNZq9d
こちらの日本Hadoopユーザー会の公式サイトでその他の興味深い講演の資料についても掲載がされていますので、是非ご参照ください。改めて、Hadoop / Spark Conference Japanを開催・運営いただいた日本Hadoopユーザー会や関係者の皆さまに深く感謝いたします。
スマートニュースのData Engineering
私は、初めてのData Engineerというロールで、八ヶ月前にスマートニュースに入社しました。従って、発表資料で紹介した仕組みは、基本的にはこれまでの(退職された方を含めて)Software EngineerやSREの方々の成果です。スマートニュースには知見を持った経験豊富なエンジニアが多く、これまでその時々のニーズに応じて各エンジニアによってデータ基盤の開発・改善が進められてきました。一方で、社員が増えデータ分析基盤を利用するユーザーが増えたことで、Software Engineer / SREの片手間の開発・運用ではなくデータ基盤のオーナーシップを持つエンジニアの必要性を感じ、Data Engineerのポジションを作成したという経緯があります。ご紹介した仕組みは、あくまで現在の設計であり、Data ScienceやMachine Learningなどの活動のニーズや組織体系の変化に従い、今後も変わっていくものと思います。変わっていく組織やトレンドに合わせて、データ基盤も合わせて構築・改善を考えていく仕事はチャレンジングで面白いものだと思います。
4月16日には、スマートニュースのオフィスを会場にData Pipeline Casual Talk Vol.2が開かれ、スマートニュースのエンジニアも発表します。データ基盤で使用しているワークフローエンジンAirflowの活用周りの話があるかと思いますので、是非この機会にオフィスに遊びに来てきてみてください(なお、現在の募集職種一覧はこちらです)。
HadoopやAirflowを含め、Data EngineeringのためのソフトウェアやSaaS群は日々ブラッシュアップされており、MLのコモディティ化と共にデータ基盤の重要性はますます大きくなっています。そんな中で、データ基盤のブラッシュアップなどにより間接的(もしくは直接的にでも)「世界中の良質な情報を必要な人に送り届ける」というスマートニュースのミッションに貢献できるよう、今後も活動していければと思います。

原文を表示
こんにちは、Data Engineer の廣瀬(@satoshihirose)です。 3月14日に、Hadoop / Spark Conference Japan 2019 にて、「Cloud-Nativeなデータ分析基盤におけるPrestoの活用」というタイトルで SmartNews のデータ分析基盤について紹介する発表をさせていただきました。 発表では、これまでの SmartNews のデータ分析基盤の変遷や現在の設計について紹介いたしました。 当日の発表資料は下記です。
キーノート中の 20 分の発表
発表については、午前中のキーノートの中で 20 分の時間をいただきました。 (普通に応募をしたところ、キーノート中の発表をお願いされたので、慌てながらもとても良い機会になりました)
【HSCJ 2019見どころその1】 キーノートでは、開発者によるHadoop/Sparkの未来や、SmartNews/LINEにおけるPresto/Sparkのシンボリックな活用事例が紹介されます。当日はぜひ朝からお越し下さい!https://t.co/DRtmUmaboC
午前発表分でお願いしますって連絡来たから深く考えず良いですよって返答したらキーノートになってた。Hadoop / Spark Conference Japan 2019 Tickets, Thu, Mar 14, 2019 at 10:00 AM | Eventbrite https://t.co/SI4bnNZq9d
こちらの日本Hadoopユーザー会の公式サイトでその他の興味深い講演の資料についても掲載がされていますので、是非ご参照ください。 改めて、Hadoop / Spark Conference Japan を開催・運営いただいた日本Hadoopユーザー会や関係者の皆さまに深く感謝いたします。
スマートニュースの Data Engineering
私は、初めての Data Engineer というロールで、八ヶ月前にスマートニュースに入社しました。 従って、発表資料で紹介した仕組みは、基本的にはこれまでの (退職された方を含めて) Software Engineer や SRE の方々の成果です。 スマートニュースには知見を持った経験豊富なエンジニアが多く、これまでその時々のニーズに応じて各エンジニアによってデータ基盤の開発・改善が進められてきました。 一方で、社員が増えデータ分析基盤を利用するユーザーが増えたことで、Software Engineer / SRE の片手間の開発・運用ではなくデータ基盤のオーナーシップを持つエンジニアの必要性を感じ、Data Engineer のポジションを作成したという経緯があります。 ご紹介した仕組みは、あくまで現在の設計であり、Data Science や Machine Learning などの活動のニーズや組織体系の変化に従い、今後も変わっていくものと思います。 変わっていく組織やトレンドに合わせて、データ基盤も合わせて構築・改善を考えていく仕事はチャレンジングで面白いものだと思います。
4月16日には、スマートニュースのオフィスを会場に Data Pipeline Casual Talk Vol.2 が開かれ、スマートニュースのエンジニアも発表します。データ基盤で使用しているワークフローエンジン Airflow の活用周りの話があるかと思いますので、是非この機会にオフィスに遊びに来てきてみてください (なお、現在の募集職種一覧はこちらです)。
Hadoop や Airflow を含め、Data Engineering のためのソフトウェアや SaaS 群は日々ブラッシュアップされており、ML のコモディティ化と共にデータ基盤の重要性はますます大きくなっています。そんな中で、データ基盤のブラッシュアップなどにより間接的(もしくは直接的にでも)「世界中の良質な情報を必要な人に送り届ける」というスマートニュースのミッションに貢献できるよう、今後も活動していければと思います。

関連記事
TiDB や AlloyDB の大規模テーブルを BigQuery に高速同期するための工夫
メルカリのデータインジェストチームは、数百億件に達する大規模データベースからデータウェアハウスへの継続的な同期において、速度・安全性・一貫性を確保する手法について解説している。
予測データデバッグ:モデル学習前にその挙動を明らかにし制御する(11 分読)
Silico プラットフォームに統合された予測データデバッグ手法は、トレーニング前の選好データ分析によりモデルの潜在的な挙動を特定します。これによりエンジニアは安全性やハルシネーションなどの問題を事前に対処し、パフォーマンスと安全性を向上させます。
現代のデータベースシステムとツールのための GitHub リポジトリ 10 選
KDnuggets が、現代のデータベースシステムや開発ツールとして注目すべき GitHub リポジトリ 10 個を紹介している。
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み