自動化機械学習 - Airbnbにおけるデータサイエンティストの生産性を加速させるパラダイムシフト
Airbnbでは、自動化機械学習がデータサイエンティストの生産性を向上させるパラダイムシフトをもたらしている。
キーポイント
Airbnbが実践するAutoML活用によりデータサイエンティストの生産性が桁違いに向上
AutoMLは回帰・分類問題の表形式データで特に有効だが、ドメイン知識と人間の判断は不可欠
AutoMLは候補モデルの公平な比較やデータリーク検出など、意思決定支援ツールとして活用されている
影響分析・編集コメントを表示
影響分析
Airbnbの実践事例は、AutoMLが単なる自動化ツールではなく、データサイエンティストの意思決定を支援する生産性向上ツールとして成熟段階に入ったことを示している。大規模プラットフォームでの実装経験は、業界全体のAutoML導入の参考モデルとなる可能性が高い。
編集コメント
実務でのAutoML活用の具体的なメリットと限界が明確に示されており、導入を検討する企業にとって貴重な実践的知見が得られる記事。
自動化機械学習(AML)―Airbnbにおけるデータサイエンティストの生産性を加速させるパラダイムシフト
Airbnbは、データサイエンスのワークフロー改善を常に模索している。多くのプロジェクトは機械学習を含み、その過程には反復的な作業が少なくない。こうした作業には主に、(1)探索的データ分析(予測対象変数に対する全変数のプロットや要約統計量の自動計算)、(2)特徴量変換(カテゴリ変数のエンコーディング、欠損値補完など多くの定型的処理)、(3)アルゴリズム選択とハイパーパラメータチューニング(選択肢が膨大で自動化に適する)、(4)モデル診断(学習曲線、部分依存プロット、特徴量重要度などの自動生成)が挙げられる。
これらのタスクを自動化するツールを開発する動きが広がり、その概念は「自動化機械学習(AML)」と呼ばれる。AMLの範囲は明確に定義されていないが、国際会議ICMLのAMLワークショップでは、上記のような反復作業全般の自動化を含むとされている。
AMLは有効かという問いに対して、Airbnbの見解は「使用方法による」である。ドメイン知識や人間の判断が必要な問題が多いため、AMLによるデータサイエンティストの完全な代替は難しい。また、AMLは現在、表形式データを用いた回帰・分類問題で特に有用だが、この領域は急速に進歩している。適切に活用すれば、データサイエンティストの生産性を桁違いに向上させる可能性がある。
AirbnbではAMLを以下のように活用している。第一に、公平なチャレンジャーモデルの提示である。既存モデルと同じ訓練データを用いて、AMLが多数の候補モデルを迅速に生成し、最適なモデル体系の選択を支援する。第二に、ターゲットリークの検出である。AMLが自動的に高速で候補モデルを構築する過程で、データリーク(予測に不適切な情報が混入すること)を早期に発見できる。
要するに、AMLはデータサイエンティストの創造的業務から反復作業を肩代わりし、生産性を飛躍的に高める「パラダイムシフト」をもたらすツールとして位置付けられる。ただし、それは人間の専門家とドメイン知識を補完し、強化するためのものであり、完全に置き換えるものではない。
原文を表示
Creative engineers and data scientists building a world where you can belong anywhere. http://airbnb.io
Automated Machine Learning — A Paradigm Shift That Accelerates Data Scientist Productivity @ Airbnb
At Airbnb, we are always searching for ways to improve our data science workflow. A fair amount of our data science projects involve machine learning, and many parts of this workflow are repetitive. These repetitive tasks include, but are not limited to:
Exploratory Data Analysis: Visualizing data before embarking on a modeling exercise is a crucial step in machine learning. Automating tasks such as plotting all your variables against the target variable being predicted as well as computing summary statistics can save lots of time.
Feature Transformations: There are many choices in how you can encode categorical variables, impute missing values, encode sequences and text, etc. Many of these feature transformations are canonical such that they can be reliably applied to many problems.
Algorithm Selection & Hyper-parameter Tuning: There are a dizzying number of algorithms to choose from and related hyper-parameters that can be tuned. These tasks are very amenable to automation.
Model Diagnostics: Learning curves, partial dependence plots, feature importances, ROC and other diagnostics are extremely useful to generate automatically.
Enter Automated Machine Learning (AML)
There is a growing community around creating tools that automate the tasks outlined above, as well as other tasks that are part of the machine learning workflow. The paradigm that encapsulates this idea is often referred to as automated machine learning, which I will abbreviate as “AML” for the rest of this post.
There is no universally agreed upon scope of AML, however the folks who routinely organize the AML workshop at the annual ICML conference define a reasonable scope on their website, which includes automating all of the repetitive tasks defined above.
The scope of AML is ambitious, however, is it really effective? The answer is it depends on how you use it. Our view is that it is difficult to perform wholesale replacement of a data scientist with an AML framework, because most machine learning problems require domain knowledge and human judgement to set up correctly.
Also, we have found AML tools to be most useful for regression and classification problems involving tabular datasets, however the state of this area is quickly advancing. In summary, we believe that in certain cases AML can vastly increase a data scientist’s productivity, often by an order of magnitude.
We have leveraged AML at Airbnb in the following ways:
Unbiased presentation of challenger models: AML can quickly present a plethora of challenger models using the same training set as your incumbent model. This can aid the data scientist in choosing the best model family.
Detecting Target Leakage: because AML builds candidate models extremely fast in an automated way, we can detect data leakage earlier in the modeling lifecycle.
Diagnostics: As mentioned earlier, canonical diagnostics can be automatically generated such as learning curves, partial dependence plots, feature importances, etc.
Tasks like exploratory data analysis, pre-processing of data, hyper-parameter tuning, model selection and putting models into production can be automated to some some extent with an Automated Machine Learning framework.
Automated Machine Learning Tools
There is a wide array of commercial and open source tools that address the AML paradigm. We have experimented with the following tools:
Case Study: Competitive Benchmarks With Customer Lifetime Value Models
At Airbnb, we use machine learning to build customer lifetime value models (LTV) for guests and hosts. These models allow us to improve our decision making and interactions with our community at very granular levels (down to the user, level if we like).
LTV models are setup as a standard regression problem for guests, where the target variable is the spend of each guest over a time horizon. The features of this model include demographic, location and activity information from our web and mobile applications. There are many moving parts in this model that account for supply and demand elasticity, expected costs, and other variables.
During the course of building a model, it is important for a data scientist to stay objective with regards to their choice of algorithm. For example a complex model may only offer a small incremental benefit over a simple model and this trade-off should be made deliberately. For example, during the course of building the LTV model we succumbed to a bias towards one of our favorite algorithms, eXtreme gradient boosted trees (XGBoost). The reason for our biases were the following:
This algorithm performed well on closely related problems.
During model development we did ad-hoc cross validation and XGBoost seemed to do the best.
We had limited time to create this model, and spent most
関連記事
今日のまとめ
AI日報で今日の重要ニュースをまとめ読み