事業会社のデータサイエンティスト~仕事の流れとか醍醐味とか編~

こんにちは、デジタルテクノロジー統括部のY・Nです。今回は事業会社に所属するデータサイエンティストの仕事の流れや仕事の醍醐味などを書いていきます。
※弊社ではデータサイエンティストを抱える部署が複数存在するため、本記事はデジタルテクノロジー統括部(通称DT)編として記載します。他部署はこの限りではありません。

データサイエンティスト?

キャッチーなのでタイトルにデータサイエンティストと書いたが、以下の職務に従事する者は、パーソルキャリアではデータアナリストと呼ばれている。(データサイエンティストと呼ばれる職種は当社には存在しない)

  1. データから統計学的な手法を用いてインサイトを得る
  2. 機械学習モデルを組みリコメンドやマッチングエンジンを作る
  3. ディープラーニングを用いて自然言語や画像を処理する
  4. 数理的手法でシステムを最適化する
  5. 強化学習で最適行動を判断する


一方で、当社は人材紹介を生業とする会社であり、上記のような職務の求人票やキャリアカウンセリングの場ではデータサイエンティストという呼称がよく出る。

科学(自然科学、応用科学、社会科学、人文科学、形式科学など?)の研究に従事し研究成果を発表している科学者と言うわけではないので、サイエンティストはおかしいだろう(どちらかと言うと恐れ多い)という気持ちもあり、[機械学習 or AI or 自然言語処理 or 画像処理]エンジニアと名乗るにも本職のエンジニアに比べてモデリング部分以外のエンジニアリング能力が拙いせいで(実際に運用される機械学習を伴うシステムの中でモデリング部分自体は、システム内のほんの一部に過ぎない)これまた恐れ多い。

(データ)アナリストという呼称には恐れ多さは感じないが、1.データから統計学的な手法を用いてインサイトを得る、以外の職務はアナリストという呼称に違和感がある。職業を名乗る時にこれらのような言い訳をせずにはいられない微妙な職業である。

事業会社内での流れーDTの場合ー

SIerやコンサルティング会社と違い、プロジェクトがまだ実在せず可能性の状態からスタートし、以下のような流れになる。

  1. (主にデータビジネスグループ担当だが)会社の各事業部門とヒアリングやディスカッションを重ねながら、どこの業務プロセスに入り込む余地があるのか見当をつける。
  2. 1.を受けて、どのようなデータをどのような手法で処理すればソリューションが出来上がるのか概要を考え、ビジネスグループに提案・ディスカッションする。
  3. 2.を受けて、ソリューション案を各部門の担当者に提案・ディスカッションする。
  4. 1~3のプロセスを何度か経て、合意が取れた段階でプロジェクトがスタートする。
  5. 必要なデータを取得し、分析や統計的モデリング/機械学習モデリング等を行う。←なんだかんだ言ってもこれがメインの業務であることは間違いない。
  6. その間にビジネスグループがセキュリティ・法務的な問題の解決や、システム導入・運用の計画の詳細を決めていく。
  7. モデルが出来たらビジネスグループや各事業部と、そのモデルの精度等を検証する。
  8. 5~7のプロセスを何度か経て、精度等が問題ないことが確認できればエンジニアグループにモデルを説明する。
  9. エンジニアグループは特徴量エンジニアリング(←これはエンジニア・アナリスト双方が行う事が多い)、データの分散処理、インフラの構築、アプリケーションの作成などを行い、実際に運用するシステムを構築する
  10. システムが完成すれば、それを各事業部に導入・運用して、精度等に問題がないか継続的に監視していく。
  11. 運用に関する問題や精度等に関する問題が発生すれば、上記のプロセスを繰り返す。


(筆者の知見不足により、特にビジネスグループやエンジニアグループの仕事内容で間違いや漏れがある可能性がある事をここに謝罪します。)
順番は前後したり同時並行で進むこともある。また、5(アナリティクス)、6(ビジネス)、9(エンジニア)を除きビジネスグループ、エンジニアグループ、アナリティクスグループが様々な部分を担当することもある。最終アウトプットがシステムではなくレポート等の場合は5までしかない場合もある。

事業会社の一員であることと社内営業活動

繰り返しになるが、データアナリストの業務は、データを取得し、統計的/機械学習モデリング等を行うことがメイン業務(他の職種の人が行わない/行いにくい)であることは間違いないが、SIerやコンサルティング会社と違いプロジェクトはまだ無い状態からスタートする。もしもメイン業務しか行わないならば待機時間は長い。大企業がシステム部門をSIerとして切り離してきた気持ちが実感できる。事業会社の一員であるということは、会社の掲げるミッションを実現する人であるということである(事業会社に限らないが)。

当社の場合、仕事を問われれば「(パーソルキャリアでの)私の仕事は"人々に「はたらく」を自分のものにする力を"与えること」以外の答えは完全な意味で正解ではない。また、希望や実現したいことを問われても会社の一員としての答えはミッションやビジョンに沿ったものになるはずである。(会社の一員としてではなく、個人としての希望や自己実現は千差万別である。会社は基本的にそれに関して興味はないだろうが、人事戦略の一環として援助/管理/干渉等することがあるかもしれない)

統計学、機械学習、AI、データ分析、自然言語処理……などで何かをすることはミッションではなく、ミッションを達成するための無数にあるかもしれない手段の候補の一つであり、他のさまざまな手段によっても代替が効くかもしれないし、仮にそれらの手段が必須だったとしても必ずしも内製する必要はない。


私はこれら分野について多分他の部署の社員より知見があるが、他の部署の社員は異なる分野で私より知見があるはずである。また、私は当社のビジネス全般について多分外部の方より知見があるが、外部の方は私よりデータサイエンスの知見が豊富な方がたくさん居る。
私が持つ知見が会社のミッションを実現するための唯一の手段であり、かつその事が社内で周知されていれば仕事が来るのを座って待っていても良いのだが、他の手段で代替可能あるいは外注でOKという状況では受け身でいるわけにはいかない。こちらから積極的に自分の提供できそうなものを売り込み、選ばれなければいけない。


売り込み先は企画、営業、経営陣など多岐にわたるが、基本的に彼らはデータサイエンスに詳しくはない。それは私が彼らの仕事内容に詳しくないのと同程度に詳しくない。詳しくないので最初から「これこれの事をこのようにして実現してくれ」という注文は少なく「この人達がどんな(素晴らしい)提案をしてくれるのだろうか?」と待っていることが多い。相手や状況に合わせて「結局の所何が出来るのかと、それが出来ればどう素晴らしいのか」を納得してもらうためのあらゆる活動をしていかなければならない。

事業会社でデータサイエンティストをする醍醐味

データサイエンスは、その理論的背景に関してはかなり形式科学の色が濃い。
形式科学とは「数学と論理学」、あるいは「計算機科学や統計学や言語学や経済学」の理論部分に代表されるような学問で、その性質は①(言葉や数字といった)記号だけから構成され②記号から議論の前提となる仮定(公理)を設定し③公理を除き純粋に演繹的な推論だけから構成される、といったものである。

例えば論理学や数学は、「あるいくつかの議論の出発点となる仮定を設定し、それらから演繹されるもの全て」という具合である(ある意味で論理学や数学は理想的な完成度のファンタジー小説とも言える。まずはじめに世界設定を定め(公理)、その世界設定に一切矛盾がないような事だけを書いているからである。はじめの世界設定に関してはそういう設定としたのだからツッコめない)


さて、形式科学だが、これは記号の世界の話である。記号の世界は演繹がどんどん進み非常に複雑なことを精緻に考えられるが、そのままでは現実世界と対応していない。一方で現実の世界は記号(言葉も含む)などに変換せずに現実の現象のまま複雑なことを考えることは出来ない。そこで現実世界の複雑なことを考えるためには、現実世界の現象を一旦記号で表し、記号の世界で演繹処理し、再び記号で表されるものを現実世界に関連付けるといったことをすれば良い。そのための記号と現実の対応のさせ方(科学哲学)が必要である。
例えば以下の現象があれば

https://sugaku.fun/syoukyo-zan/ より引用

「りんごが左側に3個あり、みかんが真ん中に2個あり、バナナが左側に1個あり、果物は合わせて3個+2個+1個=6個ある」という記述は全て「こういったものをりんごと表す」「左とはこうである」「個とはこうである」「個はこうすれば増える」「個は数字で表す」……といった現実世界と記号の世界のつなぎ方が無いと出来ないものである。この様にして自然科学や応用科学や社会科学など経験科学が構成されてきた。

データサイエンスも基本的にはこの枠組に入るのだが、他の科学と異なりがちなのが、記号を演繹の部分が他の科学に比べて長いのである。

他の科学であれば、現実世界を記号で表したもの→記号の演繹→記号を現実世界に関連付けるの一連のプロセスが短い(わかりやすい)ため、説明性や解釈可能性が問題になることはない。記号の演繹の中身を見れば、どう現実と対応させたのかすぐに分かる。というより、どう現実と対応させたのか分かる範囲でしか記号↔現実対応を行わない。
一方でデータサイエンスでは現実世界を記号で表したもの→記号の演繹→記号を現実世界に関連付けるの一連のプロセスが長い(わかりにくい)ため、説明性や解釈可能性が問題になってくる。記号の演繹の中身を見ても、どの様に現実と対応しているのかがわからない。どう現実と対応させたか分からない範囲までも拡張して記号↔現実対応を行う。

ここに事業会社でデータサイエンスを行う特有の面白さがある。
・純粋な形式科学の研究であれば、「記号を演繹」の部分を伸ばす(拡げる)事のみを行い、現実の現象を扱わない。記号の世界は精緻で美しく複雑怪奇な事柄も間違えずに扱えるが、その世界に閉じたままではファンタジーの世界の話である。
・経験科学では現実の現象を扱うが「記号を演繹」は理解できる範囲でのみ扱う。論理(記号の演繹)が飛躍することは許されない。
・(科学以外の)普通の活動では現実の現象を扱うが、「記号を演繹」の要素は薄いので複雑なことを精緻には扱えない。

データサイエンスは純粋な形式科学と異なり、現実の現象を扱える。にもかかわらず、(科学以外の)普通の活動と異なり「記号を演繹」の部分が非常によく整備されてある。また経験科学と異なり「記号を演繹」を理解できる範囲でしか使ってはいけないという制約がないので、入力したものと出力されたものに論理の飛躍があっても(あるように見えても)許される。(再度繰り返すが、特に最近は説明性や解釈可能性の問題が取り上げられることが多く、論理を説明するような取り組みが盛んになっている。しかしこれら(説明性を出力する取り組み)とて経験科学の説明性とはまるで異なり、あくまで後付で説明性のようなものを出力しているだけである。つまり、説明性を後付で出力するために更にデータサイエンスが適用されている)

形式科学の成果である「記号を演繹」空間の何処に現実世界とつなぐ矢印を入れるかを強く考えることが出来るのである。特にこれは事業会社でデータサイエンスを行う場合に一層顕著であり、解決すべき現実の現象が無数にある状態で、それらの無数の現実の現象から無限に広がるデータサイエンスの「記号を演繹」空間のどこかに、矢印を2本(入・出)どうやって引くかを考えられるのである。この矢印の引き方はあまりにも多岐に渡り、見える矢印も各人の能力と言うよりはむしろ興味、関心、性格、人生観、世界観、理想、希望、悩み……などによって変わるので、才能に劣る者でも、素晴らしく才能溢れる者の下位互換とはならない仕事が可能となる。仕事の中身を注意深く観察するとそれらの跡がはっきりと見つけられ、まさにその人の中身を反映したものであることがわかる。これこそ醍醐味である。

次回予告

・いずれデータサイエンティストの仕事が無くなる?
昨今のAuto MLなどのツールの進歩により、データサイエンティストの仕事が無くなるのではないか、少なくとも変化するのではないかについて
・最近の話題と社内の課題
説明性とか、軽量モデル、グラフニューラルネットワーク、言語の生成モデルなど
・新卒研修
kaggleのTitanicとHouse pricesで機械学習に慣れてもらう
社内DBからデータを抽出するSQL研修
SQL問題集を作成してそれを解くという形で行っている。SQL問題集の作成の参考にした本が、高校物理の問題集である以下の2つ。(今回のアイキャッチ画像。日本のある程度の年齢以下のデータサイエンティストの最大多数の最大印象深さを集計すると、これらの本がかなり上位にくるのではないかと思っている。)

左 浜島 清利『名門の森』河合出版、右 服部 嗣雄 『難問題の系統とその解き方』ニュートンプレス

など、次回もご期待ください。



Y・N

Y・N


テクノロジー本部 デジタルテクノロジー統括部 データ&テクノロジーソリューション部 アナリティクスグループ アナリスト