BERTを活用して職務経歴書からスキルや経験を推察――マッチング精度向上を支援

インタビューメンバーの集合写真

デジタルテクノロジー統括部で、自然言語処理モデル“BERT”を活用した新たなプロジェクトが始動しました。

本プロジェクトでは、企業と求職者様のマッチングにおいて重要な指標となる「スキル/経験」データに着目し、職務経歴書から自然言語処理によってスキル/経験を推察、提案するモデルを構築。本格実装に向けた準備を着実に進めています。

今回はプロジェクトメンバー5名にインタビュー。ビジネス・アナリティクス・エンジニアの連携によって進められてきた取り組みの、ここまでの道のりと今後の展望について聞きました。

※撮影時のみマスクを外しています。

 

機械学習モデルを用いて、dodaでの転職成功数の向上を目指す

 

――まずは、皆さんの担当業務と今回のプロジェクトにおける役割を簡単にご紹介いただけますでしょうか?

 

北島:ビジネスグループに所属しており、「企画を構想して立ち上げ、成果に結びつける」プロセスを担っています。今回のプロジェクトではPMとして、プロジェクトの立ち上げと効果検証を主導しています。

デジタルテクノロジー統括部 デジタルビジネス部 ビジネスグループ シニアストラテジスト 北島 寛康の写真

デジタルテクノロジー統括部 デジタルビジネス部 ビジネスグループ シニアストラテジスト 北島 寛康

 

Y・N:私はアナリティクスグループに所属し、普段はパーソルキャリアのデータやビジネスモデルの数理最適化に向けた企画やアルゴリズムの検討〜実装を行っています。今回は、職務経歴書の言語内容からスキル/経験を推察する仕組みの作成を担当しました。

 

春日:普段はエンジニアグループで、主に機械学習を活用したレコメンシステムの開発に携わっています。今回は、検証を行うためのシステム構築から推察結果の出力までを担当しています。

 

佐藤:私はシステム構築・プログラミングとデータ分析ができることを強みにエンジニアグループとアナリティクスグループを兼任しており、普段の業務ではシステム構築をしながら基礎研究と外部発表を行っています。プロジェクトでは、春日さんと得意分野を分担しながらシステム構築部分を担当しました。

デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア 佐藤 哲の写真

デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア 佐藤 哲

 

寺本:COD(クロスオーバーディレクター)グループに所属しています。部署やサービスの垣根を越えたディレクションで価値発揮することを目指すグループで、さまざまな部署との共創をリードする形でプロジェクト推進を行っています。今回はPMOとして、プロジェクト推進の支援や他部署との連携を担う役割を担当しています。

 

 

――ありがとうございます。それではプロジェクトの内容について詳しく伺っていきたいと思います。今回、どのような背景からプロジェクトが始動したのでしょうか。

 

北島:もともと、これまで活用できていないデータ、特に構造化されていないデータについて活用を進めていこうという構想がありました。その中で今回着目したのが「職務経歴書」の全文データです。

転職希望者によってアップロードされた職務経歴書は、最適なマッチングを提案するために全文検索システム「Solr」に登録され、1日のタイムラグをおいてデータ化・蓄積されます。このデータを活用して何かできないかと考え始めたのがきっかけです。

ここで思い当たったのが、転職希望者と企業のマッチングにおいて重要な指標となる「スキル/経験」の入力にまつわる課題でした。

転職希望者には、キャリアカウンセリングに進む前にご自身でスキル/経験をご登録いただいています。また適切な企業とのマッチングに導くため、キャリアアドバイザー(以下、CA)はキャリアカウンセリングの内容をふまえて、①業種 ②職種③スキル経験 を、必要に応じて選択入力し、登録・更新する作業を行っています。

この登録にあたって選択項目が非常に多いことなどがハードルになり、職務経歴書の登録率に対しスキル/経験登録率が低い状態が持続し、CAによる登録も正しく行われないケースもあるなど、課題を抱えていたんですよね。

そこで、職務経歴書に書かれている内容からスキル/経験を推察することによって、情報の登録をサポート・促進できないかと考え、今回のプロジェクト始動に至りました。

 

 

――課題を解決するために、具体的にどのような取り組みを進められているのでしょうか。

 

北島:職務経歴書データは検索システム上に、スキル/経験データは分析環境上にそれぞれ蓄積されており、また人の目でも職務経歴書からある程度スキル/経験を推察できるなどデータとしての質も高いことから、機械学習モデルを使った仕組みの検討に至りました。

具体的には、自然言語処理モデル “BERT” を使ってモデルを構築し、職務経歴書がアップされた時点で全文データからスキル/経験を推察します。「あなたのスキル/経験は……ではないでしょうか?」と提案し、最終的に正しいスキル/経験を人の手で選択する流れになっています。

スキル/経験の入力には、転職希望者による登録とCAによる登録の2種あるとお話ししましたが、構築したモデルを転職希望者向けに導入するには、精度の向上、提案に誤りがあった場合の対処法の検討などさまざまなハードルがあるため、最初にリリースを目指しているのはCAによる登録をサポートする位置付けとしています。

 

 

――スキル/経験の登録にまつわる課題を解決する先で、どのような価値発揮ができると考えられていますか?

 

北島:情報登録の工数が削減されてデータの入力率が高まること、CAにスキル/経験の提案を行い登録内容の精度が高まることで、転職希望者にあった求人のレコメンド配信や企業からのスカウトメールの送信精度の向上が期待できます。

その結果として、dodaでの転職成功数を高め、事業の売上に貢献していければと考えています。

 

 

BERTを活用したモデル構築〜効果検証までの裏側とは

 

――仕組みづくりの裏側についてお聞かせください。今回“BERT”の活用を選択されたのはどうしてですか?

 

Y・N:2018年にBERTアルゴリズムが出て以来類似したモデルがいくつもつくられてきており、精度としてはBERTよりも上位のものがあるという認識ですが、今回は扱いやすさを考えてBERTを選択しました。

またBERTは、難易度の高い自然言語処理を非常にうまく処理してくれるものとして話題になっており、知名度も高いため、経営層からも活用への理解を得やすいだろうと考えたことも、一つの要因ですね。

デジタルテクノロジー統括部 デジタルビジネス部 アナリティクスグループ リードデータアナリスト Y・Nの写真

デジタルテクノロジー統括部 デジタルビジネス部 アナリティクスグループ リードデータアナリスト Y・N

 

 

――実際にモデルを構築していくにあたり、特に力を入れられたところ、苦労されたところなどがあれば教えてください。

 

Y・N:どの程度のレベルから「このスキル/経験を持っている」とするかはCAの判断に任されますし、「正解データ」となるCAが入力したデータが必ずしも“正しい”とは言えないんですよね。

つまりCAが登録した正解データをそのまま当てるのではなく、正解データの正誤の傾向を統計的に見て「このCAによる登録データが本当に正解か」を判断しながら処理をさせていく必要があります。ここは割と苦労した部分であり、現在も継続的に改善を行っています。

また今回はオープンソースとして出ているBERTのモデルを使っていますが、今後はパーソルキャリア内の職務経歴書と求人票のテキストデータを使ったモデルを組んでいくつもりです。この検討も現在進行中なので、引き続き取り組んでいきたいと思っています。

 

 

――ありがとうございます。2021年4月からモデル構築を開始されたとのことですが、プロジェクトの現在地をお聞かせいただけますか?

 

北島:現在は、モデル構築後に行った二度目の精度検証が終わったところで、現場の声をもとにモデルの改修を行うとともに、社内基幹システム「ARCS」への実装に向けたROIの検証、UI/UXの検討やコンプライアンス審議の対応を進めています。

 

 

――精度検証の手応えとしてはいかがですか?

 

北島:検証は、CAやその経験者の視点から「推察結果の精度はどうか」「現場で業務上使えるか」など、定性的な評価をいただく形で進めました。結果として精度に対する厳しい意見はほぼ寄せられず、ざっくり言うと「比較的精度が高い」という検証結果が得られました。一部推察結果にずれが生じている部分もありましたが、そこは現在モデルの改修を行って対応しています。

また他に挙がった声としては、「推察した結果をどのようにアウトプットしてCAに提供するか」など“使い勝手”に対する改善意見が多かったため、こちらは適切に対応していきたいと思っています。

 

 

――効果検証用環境の構築について、春日さんと佐藤さんが担当される中で苦労された部分などがあれば教えてください。

 

デジタルテクノロジー統括部 デジタルソリューション部 サーバサイド・インフラエンジニアグループ リードエンジニア 春日 善信の写真

デジタルテクノロジー統括部 デジタルソリューション部 サーバサイド・インフラエンジニアグループ リードエンジニア 春日 善信

 

春日:今回は、社内基幹システムや職務経歴書検索システムが設置されている「データセンター」内にあるオンプレのマシンを使うことにしたため、接続性などに関しては基本的に問題なく進められました。

 

佐藤:もともと他のシステム開発にも使われていたところなので、データを入れる仕組みなどが既に作られていたこともあって、楽に進められましたね。

 

春日:そうですね。ただ取得した複数のデータを合わせて推察結果をアウトプットするまでに、かなり多くの処理を組み合わせる必要があるため、その接合に関しては難点だったかなと思います。

 

 

取り組みの周知、コンプライアンス対応、さらなる精度向上……現場への展開に向けて挑戦は続く

 

 

――モデル構築〜精度検証までを無事終えられ、次のステップとして社内基幹システム「ARCS」への実装に向けた準備を進められているとのことですが、現時点で考えられる今後の課題や懸念点などはありますか?

 

デジタルテクノロジー統括部 デジタルソリューション部 CODグループ リードエンジニア 寺本 孝太の写真

デジタルテクノロジー統括部 デジタルソリューション部 CODグループ リードエンジニア 寺本 孝太

寺本:現在はオンプレミス環境上にあるサーバーで検証を行っていますが、やはりサービスに向く環境ではないので、今後はクラウド上のC-MAC(シーマック)と呼ばれるパーソルグループのAWS標準環境で構築していきたい、という構想で申請を進めています。

ただオンプレ上でのデータのやり取りだけでなく外部へのデータの移動が発生するため、セキュリティ・コンプライアンスの観点から適切に対策をとる必要がありますし、退会者のデータや削除依頼がきたデータへの対処方法などもこれから詰めていかなければいけません。まだまだこれからですね。

また今後展開していくにあたっては、「他部署の方々に取り組みをどのように伝えるか」も鍵になります。機械学習という言葉自体、何ができるのか通じづらい部分がありますし、活用のハードルが高いと感じられてしまいやすいですよね。なので、まずはY・Nさんにもご協力いただきながら「機械学習とは」「BERTとは」などの研修を実施し、それを皮切りに広く伝達していく。そういった草の根活動を今後も行っていかなければいけないと思っています。

 

 

――ありがとうございます。それでは最後に皆さんから、今後チャレンジしていきたいことをお聞かせいただいて締めたいと思います。

 

寺本:私の役割は、サービスや部署の垣根を越えて「つなぐ」ことなので、今回のプロジェクト自体を一つのシーズと捉え、他部署の方々のニーズとつなげたいと思っています。そのためにも、ニーズをキャッチアップしながら、シーズについて皆さんに正しく理解してもらえるよう取り組んでいきたいです。

 

佐藤:今後はリアルタイムで推察結果を出すことに挑戦したいですね。処理の性質上難しさはあると思いますが、「推察結果の傾向から推察する」など方法を考えてやってみたいと思います。

 

インタビューを受ける5人が座っている写真

 

春日:最初の効果検証の時点と比べて最近はあまり関われていなかったので、今後はもう少し時間を割いてしっかり関わっていきたいと思っています。

 

Y・N:自然言語処理に強みを持つベンチャー企業などが進んだ取り組みを行っている例もありますが、職務経歴書に関してはこの先も外注をすることはなく、社内に残り続ける領域であるはずなので、さらなる自然言語処理の精度向上に、チャレンジし続けていきたいと思います。

 

北島:まずは「モデルの導入によって応募率や内定・決定率などを高め、売上に貢献する」という成果を出さなければいけないので、そのためにも「募集している職種やスキル/経験」のデータも入れていくなど、引き続き取り組んでいきたいと思っています。

また現場の皆さんに向けて機械学習モデルを展開していくにあたり、インターフェイスの工夫をはじめ、デジタライゼーションの良さを実感してもらえるようなものを作っていきたいと思います。

 

――本日はありがとうございました!

 

(取材=伊藤秋廣(エーアイプロダクション)/文=永田遥奈/撮影 = 服部健太郎)

 



Y・N

デジタルテクノロジー統括部 デジタルビジネス部 アナリティクスグループ リードデータアナリスト

デジタルテクノロジー統括部 デジタルビジネス部 ビジネスグループ シニアストラテジスト 北島 寛康の写真



北島 寛康 Hiroyasu Kitajima

デジタルテクノロジー統括部 デジタルビジネス部 ビジネスグループ シニアストラテジスト

2006年に新規事業コンサルタントとしてキャリアをスタート。国内のRPA市場黎明期に入ると、事業立ち上げに携わり、RPAツールの販売・導入、代理店網の構築、新事業・サービスの企画・開発に従事。2019年6月にパーソルキャリアに入社し、データ/テクノロジーの事業活用を担うデータテクノロジー統括部のビジネス担当、及びRPA推進グループの案件開発を担当中。

デジタルテクノロジー統括部 デジタルソリューション部 サーバサイド・インフラエンジニアグループ リードエンジニア 春日 善信の写真



春日 善信 Yoshinobu Kasuga

デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア

本来の専門は物性分子工学。材料分析を行う公益法人でのキャリアをスタート後、東日本大震災を機に気象庁や民間気象会社での防災関係の業務に従事。その後エンジニアリングやアナリティクスに軸足を移し、2018年にパーソルキャリアに入社。現在は、インフラ・Sparkアプリの開発や保守運用の業務を中心に担当。今後も掴みどころのないキャリア形成を目指す。気象予報士/気象防災アドバイザー。

デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア 佐藤 哲の写真



佐藤 哲 Tetsu Sato

デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア

独立行政法人通信総合研究所、株式会社国際電気通信基礎技術研究所、楽天株式会社、NHN Japan株式会社等を経て、2020年にパーソルキャリア株式会社入社。高機能ビッグデータ処理基盤開発、機械学習、時系列データ分析、数値シミュレーション等の研究に従事。 ACM/IEEE/情報処理学会/応用数理学会/日本VR学会/日本数学会/数式処理学会各会員 萌える研究テーマを探しています 。

デジタルテクノロジー統括部 デジタルソリューション部 CODグループ リードエンジニア 寺本 孝太の写真



寺本 孝太 Kota Teramoto

デジタルテクノロジー統括部 デジタルソリューション部 CODグループ リードエンジニア

家族でグランピングにハマり中なので、コロナ禍が収束したら色々なグランピングスポットに行きたいです。

※2021年12月現在の情報です。