





・Configuration:設定
機械学習システムに必要な設定をする
・Data Collection:データ収集
機械学習するためのサンプルデータを集める
・Data Verification:データ検証 / データ照合
データの不備を検証
・Feature Extraction:特徴抽出
機械学習に必要な特徴量の抽出
・Machine Resource Management:マシンのリソース管理
システムを動かすサーバーの管理
・Analysis Tools:分析ツール
metabaseなどの分析ツールの整備
・Process Management Tools:プロセス管理ツール
バッチなどの処理を管理
・Serving Infrastructure:インフラの提供
機械学習システムを動かすためのサーバーやネットワークを構築する
・Monitoring:監視
サーバーやネットワークが正常に動いていることを監視する


注目が高まるデータサイエンティスト
Harvard Business Reviewの2012年10月号で、21世紀で最も魅力的な職業としてデータサイエンティストが紹介されました。国内では 2010年からR言語勉強会 Tokyo.R が開催され技術的な知見やビジネス活用の情報交換が積極的にされています。日経 XTRENDの記事「マーケ系ミドルは平均年収753 万円 データ系求人は 7.5 倍」によると、2017年4~6月から2019年4~6月の2年間でデータサイエンティストの求人が7.5倍に急増しており、国内の産業界でも非常に注目されていることがわかります。
総務省による「令和2年 情報通信白書」では、分析に活用されているデータが5年前と比較して多岐に渡ることが報告されています。特に盛んになっているのは、自動的に取得されるデータの活用です。たとえば、POSデータやeコマースにおける販売記録データや、アクセスログ・センサーデータなどです。

このようなデータを用いて、売上を増やすための研究・開発に取り組む企業が増えています。民間企業におけるデータサイエンティストは、データを収集・分析することでビジネス成果を上げる業務をしています。
機械学習は、データサイエンスの中の1領域
機械学習とは「大量の学習データを機械に読み込ませ、そのデータを分析することで分類や識別のルールを作ろうとすること」です。
巷には似たような意味の言葉が氾濫していますね。データサイエンス、人工知能、ディープラーニングなどです。これらはしばしばバズワードとして揶揄されることがあります。使用者や批判者のどちらにも惑わされることなく、冷静に物事を見る力が求められます。


データサイエンスはデータを利活用するアプローチを指すことが多く、確率統計、機械学習、情報工学、データベースなどの理論や技術が必要になります。
その応用先は工学に留まらず、医学や社会学、人文科学など幅広く活用されています。データサイエンスは、データ活用が注目されてから生まれた多くのバズワードを内包する表現として定着しました。機械学習も、データサイエンスの1領域です。

データサイエンティストの仕事って、何をするの?
データサイエンティストの担当は、データの利活用に関する領域すべてです。プロジェクトの流れはCRISP-DM という IBM が提案するライフサイクルが参考になります。

「ビジネスの理解」や「データの理解」はプロジェクトマネージャー、マーケター、営業のような顧客への接点がある人と共同で取り組むことが多く、顧客に対してヒアリングを直接実施することもあります。
「データの準備」はインフラエンジニアやデータ基盤エンジニアと連携して行います。データサイエンティストが単体で実施するのは「モデリング」のみであることが多く、「評価」はビジネス的な判断が必要になるケースもあるので、単独では実施しない職場もあります。
「展開」はサービスとして使える状況にして施策を実行するところまで含むので、サーバーサイドエンジニアの協力が必要になる場面があります。組織環境やプロジェクト内容に応じて関わる人が変わるため、情報共有や議論を正確に実施する力が求められます。
実は、機械学習コード(ML Code)を書くよりも、その周辺の仕事のほうが多い
Google エンジニアによる論文で、機械学習システムの開発における割合を示す図が提唱されて話題になりました。

中心にある黒い箇所が機械学習コード(ML Code)です。
機械学習というと私たちがイメージするのは「アルゴリズムを使って機械学習のコードを書く」ことですが、実はそれはシステムのごく一部でしかないということが述べられています。
組織の規模によって異なりますが、データサイエンティストが開発するべき部分は、実は機械学習周辺の開発の比重が大きいことがわかります。


まとめ
機械学習とは
・機械学習は、データサイエンスの中の1領域
データサイエンティストの仕事の流れ
実は、機械学習コード(ML Code)を書くよりも、その周辺の仕事のほうが多い
・Data Collection:データ収集
・Data Verification:データ検証 / データ照合
・Feature Extraction:特徴抽出
・Machine Resource Management:マシンのリソース管理
・Analysis Tools:分析ツール
・Process Management Tools:プロセス管理ツール
・Serving Infrastructure:インフラの提供
・Monitoring:監視



→「第2話 人工知能、機械学習、ディープラーニングの違いとは?」へ続く
わかばちゃんと学ぶ機械学習、いかがでしたか。 機械学習に関する記事は他でもたくさん出ていますが、本連載は読者の皆さんが具体的な仕事のイメージができるようになることを目指して制作しています。ぜひ続きを楽しみにお待ちください。
本記事以外にも、リクルートスタッフィングでは、エンジニアのスキルアップを応援するため、登録者限定の記事やイベントなどを配信しています。 リクルートスタッフィングでの就業に関わらず使えるものですので、これを機にお役立てください。
・Twitterアカウント
・Amazon著者ページ
・Twitterアカウント
わかばちゃんが登場する書籍いろいろ