第1話機械学習の仕事内容って？実はコードを書くだけじゃない！【漫画】未経験なのに、機械学習の仕事始めました

（出典）https://papers.nips.cc/paper/2015/file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf

・Configuration：設定

機械学習システムに必要な設定をする

・Data Collection：データ収集

機械学習するためのサンプルデータを集める

・Data Verification：データ検証 / データ照合

データの不備を検証

・Feature Extraction：特徴抽出

機械学習に必要な特徴量の抽出

・Machine Resource Management：マシンのリソース管理

システムを動かすサーバーの管理

・Analysis Tools：分析ツール

metabaseなどの分析ツールの整備

・Process Management Tools：プロセス管理ツール

バッチなどの処理を管理

・Serving Infrastructure：インフラの提供

機械学習システムを動かすためのサーバーやネットワークを構築する

・Monitoring：監視

サーバーやネットワークが正常に動いていることを監視する

機械学習の仕事って、こんなにたくさんあるんだ！ちなみに、早川さんはどの部分の仕事を担当されることが多いんですか？

僕はデータ収集、データ検証、特徴抽出、分析ツール、プロセス管理ツールを主に担当しています。設定、マシンのリソース管理、インフラの提供、監視はインフラエンジニアに協力を求めながら進めてます。

注目が高まるデータサイエンティスト　　　　

Harvard Business Reviewの2012年10月号で、21世紀で最も魅力的な職業としてデータサイエンティストが紹介されました。国内では 2010年からR言語勉強会 Tokyo.R が開催され技術的な知見やビジネス活用の情報交換が積極的にされています。日経 XTRENDの記事「マーケ系ミドルは平均年収753 万円　データ系求人は 7.5 倍」によると、2017年4～6月から2019年4～6月の2年間でデータサイエンティストの求人が7.5倍に急増しており、国内の産業界でも非常に注目されていることがわかります。

総務省による「令和2年情報通信白書」では、分析に活用されているデータが5年前と比較して多岐に渡ることが報告されています。特に盛んになっているのは、自動的に取得されるデータの活用です。たとえば、POSデータやeコマースにおける販売記録データや、アクセスログ・センサーデータなどです。

このようなデータを用いて、売上を増やすための研究・開発に取り組む企業が増えています。民間企業におけるデータサイエンティストは、データを収集・分析することでビジネス成果を上げる業務をしています。

機械学習は、データサイエンスの中の1領域　　　　

機械学習とは「大量の学習データを機械に読み込ませ、そのデータを分析することで分類や識別のルールを作ろうとすること」です。

巷には似たような意味の言葉が氾濫していますね。データサイエンス、人工知能、ディープラーニングなどです。これらはしばしばバズワードとして揶揄されることがあります。使用者や批判者のどちらにも惑わされることなく、冷静に物事を見る力が求められます。

それぞれが意味することは似ていますが、異なることが多いんです。データサイエンスに関わる業務や業界の変化が激しいので、次々と新たな用語が生まれる背景があるんですよね。

たしかに、新しい言葉で見栄えがするから、ついつい使ってしまいがち。でも、それぞれ違いを説明しなさいと言われたらむずかしいですね…！

データサイエンスはデータを利活用するアプローチを指すことが多く、確率統計、機械学習、情報工学、データベースなどの理論や技術が必要になります。

その応用先は工学に留まらず、医学や社会学、人文科学など幅広く活用されています。データサイエンスは、データ活用が注目されてから生まれた多くのバズワードを内包する表現として定着しました。機械学習も、データサイエンスの1領域です。

機械学習 = データサイエンスではなくて、機械学習はデータサイエンスの中の1領域なんだ！

データサイエンティストの仕事って、何をするの？　　　　

データサイエンティストの担当は、データの利活用に関する領域すべてです。プロジェクトの流れはCRISP-DM という IBM が提案するライフサイクルが参考になります。

「ビジネスの理解」「データの理解」「データの準備」「モデリング」「評価」「展開」の6ステップが求められます。これは一人で全てを担うのではなく、チームとして取り組むことが多いです。

「ビジネスの理解」や「データの理解」はプロジェクトマネージャー、マーケター、営業のような顧客への接点がある人と共同で取り組むことが多く、顧客に対してヒアリングを直接実施することもあります。

「データの準備」はインフラエンジニアやデータ基盤エンジニアと連携して行います。データサイエンティストが単体で実施するのは「モデリング」のみであることが多く、「評価」はビジネス的な判断が必要になるケースもあるので、単独では実施しない職場もあります。

「展開」はサービスとして使える状況にして施策を実行するところまで含むので、サーバーサイドエンジニアの協力が必要になる場面があります。組織環境やプロジェクト内容に応じて関わる人が変わるため、情報共有や議論を正確に実施する力が求められます。

実は、機械学習コード（ML Code）を書くよりも、その周辺の仕事のほうが多い　　

Google エンジニアによる論文で、機械学習システムの開発における割合を示す図が提唱されて話題になりました。

中心にある黒い箇所が機械学習コード（ML Code）です。

機械学習というと私たちがイメージするのは「アルゴリズムを使って機械学習のコードを書く」ことですが、実はそれはシステムのごく一部でしかないということが述べられています。

組織の規模によって異なりますが、データサイエンティストが開発するべき部分は、実は機械学習周辺の開発の比重が大きいことがわかります。

この図のとおり、データサイエンティストの仕事は、実は機械学習のコードそのものではなく、データの収集や検証、インフラの構築や監視など、周辺の開発の比重が大きいんです。これはデータサイエンティストとして働いている自身の経験においても納得感があります。

機械学習コード（ML Code）が占める割合が、想像以上に小さくてびっくりしました！ひとくちにデータサイエンティストと言っても、それぞれ得意領域があるんですね。

まとめ　　　　

機械学習とは

・大量の学習データを機械に読み込ませ、そのデータを分析することで分類や識別のルールを作ろうとすること
・機械学習は、データサイエンスの中の1領域

データサイエンティストの仕事の流れ

・CRISP-DM
■「ビジネスの理解」「データの理解」「データの準備」「モデリング」「評価」「展開」の6ステップ
■人で全てを担うのではなく、チームとして取り組むことが多い

実は、機械学習コード（ML Code）を書くよりも、その周辺の仕事のほうが多い

・Configuration：設定
・Data Collection：データ収集
・Data Verification：データ検証 / データ照合
・Feature Extraction：特徴抽出
・Machine Resource Management：マシンのリソース管理
・Analysis Tools：分析ツール
・Process Management Tools：プロセス管理ツール
・Serving Infrastructure：インフラの提供
・Monitoring：監視

データサイエンティストの仕事のイメージが、最初よりもハッキリしましたか？

はい！ところで、まだわからないことがあるんですけど……。人工知能、機械学習、ディープラーニングって、具体的には何が違うんですか？

おおっ、いい質問ですね。それについては、次回ガッツリお話ししましょう！

→「第2話人工知能、機械学習、ディープラーニングの違いとは？」へ続く

わかばちゃんと学ぶ機械学習、いかがでしたか。機械学習に関する記事は他でもたくさん出ていますが、本連載は読者の皆さんが具体的な仕事のイメージができるようになることを目指して制作しています。ぜひ続きを楽しみにお待ちください。

本記事以外にも、リクルートスタッフィングでは、エンジニアのスキルアップを応援するため、登録者限定の記事やイベントなどを配信しています。リクルートスタッフィングでの就業に関わらず使えるものですので、これを機にお役立てください。

【筆者】

早川敦士さん

株式会社FORCASの分析チームにてリーダーを務める傍らで、株式会社ホクソエムで執行役員として従事。新卒でリクルートコミュニケーションズに入社しWeb広告やマーケティングオートメーションなどのB2Cマーケティングを経験し、FORCASではB2Bマーケティングプラットフォームのデータ分析および開発を担当している。大学在学中に『データサイエンティスト養成読本』（技術評論社刊）を共著にて執筆。その後も『機械学習のための特徴量エンジニアリング』（オライリー・ジャパン刊）や『Pythonによるはじめての機械学習プログラミング』（技術評論社刊）などで執筆活動を続けている。国内最大級のR言語コミュニティであるJapan.Rを主催。Youtubeチャンネル『データサイエンティストgepuro』で動画を投稿。
･Twitterアカウント

湊川あいさん

フリーランスのWebデザイナー・漫画家・イラストレーター。マンガと図解で、技術をわかりやすく伝えることが好き。著書『わかばちゃんと学ぶ Git使い方入門』『わかばちゃんと学ぶ Googleアナリティクス』『わかばちゃんと学ぶ Webサイト制作の基本』『運用ちゃんと学ぶシステム運用の基本』『わかばちゃんと学ぶサーバー監視』が発売中のほか、マンガでわかるGit・マンガでわかるDocker・マンガでわかるRuby・マンガでわかるScrapbox・マンガでわかるLINE Clova開発・マンガでわかる衛星データ活用といった分野横断的なコンテンツを展開している。
･Amazon著者ページ
･Twitterアカウント

わかばちゃんが登場する書籍いろいろ　　　

わかばちゃんと学ぶシリーズ（Amazonページ）