各事業部ごとに、それぞれが担当する法人向けサービスのデータを保有しているパーソルキャリア。垣根を越えてデータ活用を実現すべく、顧客データ基盤を構築したプロジェクトがスタートし、前回は取り組みの全体概要について詳しく話を聞きました。
本プロジェクトでは、データ仮想化・統合ツール「Denodo」を採用してこれまでのデータ統合における課題を解決し、開発工数の削減や拡張性の向上を実現したのだといいます。
パーソルキャリアでは初となる「Denodo」活用の裏側には、どのようなポイントがあったのでしょうか。データとテクノロジーを司るデジタルテクノロジー統括部のエンジニアである寺本、井上、渡邉に話を聞きました。
ETL処理やトラブル時の調査にかかる時間・コストの削減を目指し、「Denodo」の導入を決断
――今回「データ仮想化方式」でデータ基盤の構築を行われたとのことですが、以前はどのようにデータの連携を行われていたのでしょうか。
寺本:従来の方法では、ETL処理(Extract:抽出、Transform:変換、Load:書き出し)を行ってデータを整形した上でデータの統合を行っていました。
具体的には、データベースや各種業務システムなどさまざまな場所に、さまざまな形で散在しているデータを整えるためにETL処理を行い、まず「データレイク」に格納。さらにもう一度ETL処理を行った上で「データウェアハウス」に格納して統合する、という流れです。
さらに、セキュリティの観点からもう一段階作業が必要になります。データウェアハウスに集まっている多様なデータはそれぞれに「どの範囲の事業部にまで閲覧・活用を許可するか」という権限の範囲が異なるため、データウェアハウスをそのまま各事業部に公開することはできません。
そこでデータを活用したい人たちに必要なデータだけを連携するために、該当データに再度ETL処理を行った上で、「データマート」というデータの一つの塊を作って権限分けを行っていたのです。
――従来の方式で課題になっていた点を教えてください。
寺本:まず、データレイク・データウェアハウス・データマートに格納する際、データをそれぞれの格納先に取り込みやすい形に整えるためのETL処理が必要で、そのETL処理を実装するために多くの開発工数がかかってしまっていたことが課題の一つです。
コスト削減のためにも、データを事業部の方々に提供するまでのリードタイムを短縮するためにも、改善が必要だと捉えていました。
井上:もう一つの大きな課題は、データマートに格納されたデータについて「元データはどこから持ってきたどのデータなのか」がわからなくなってしまっていたことです。
これが分からなければ、例えばデータマートのデータに問題が見つかった時などに、データの出どころの調査が問題解決のボトルネックになります。
今回データ基盤を作るにあたっても、データウェアハウスなどを管理している組織に調査をお願いしましたが、やはりそのやりとりや、実際に使われている処理を確認してデータ元を紐解いてもらう過程に相当な時間がかかってしまいました。
――Denodo導入前は、どのように対処しようとしていたのでしょうか?
寺本:それはもう……頑張るんです(笑)。半分冗談ですが、DWHを管理している組織に調査をお願いして、その方々がどんどん調査を進めていただきます。
事業がそれぞれで管轄しているデータマートの情報元は、その事業の皆さんしか知らないので、時間をかけて調査します。が、調査もすんなりいくとは限らないので、別の方法で再度探してもらったり……、ということは多い気がしますね。
井上:元データに対する理解や意識に対しても、それぞれの事業で異なっていたりするので、担当の方とコミュニケーションをとりながら丁寧に進めてきました。
――こういった課題や対処方法というのは、世の中的にもそうなっているのでしょうか?
渡邉:データレイクやDWH、データマートを物理で作って活用していく、ということが結構オーソドックスなので、近しい課題は起きやすいという印象です。
DXの推進レポートが出て以降、データマネジメントについても検討を進める企業は増えたと思います。これまで課題だったことが改めて表出し、「どこから発生したデータなのか」「何のデータなのか」という出所が可視化されていないこと、「データは集めたけど、どうやってくっつけるのか?」「どちらが正しいデータなのか?」といったデータ品質など、データにまつわる具体的な課題に直面して、さらに気づきが深まったと思います。
これはパーソルキャリアでも、課題ですし、他企業様でも同様の悩みを抱えているように感じます。
データを物理的に一元管理することも大切な一方で、データマネジメントの観点から考えると、一か所に集めることだけが正解ではないと思います。物理と仮想、双方で柔軟にデータを管理していく事が重要だと思います。
――そのような課題を抱えていた中で、今回「Denodo」を活用したデータ仮想化方式を採用された理由を教えてください。
寺本:まずはやはり、3段階のETL処理やデータに不整合があった際の調査などにかかるコストと時間を削減したい、というのが一つ目の理由です。「Denodo」を使ってデータを仮想的に統合すれば、ETL処理が1回で完結できるようになること、データリネージュというデータ元を視覚的に辿れる機能があることから、課題解決に有効だと判断しました。
また、今はまだ検討段階ではありますが……。現在基幹システムには1,000個以上のテーブルがあり、「何がどのように使われているのか」が分からない状態になっています。ここでデータ仮想化を利用することで、本当に必要なテーブルやカラムを抽出して不要なものを削除するなど、物理の部分をきれいにすることにもつなげられるのでは、という期待もありました。
渡邉:元々は、データを可視化してレポートを作成する業務にかかる時間を削減したい、というところからスタートしたプロジェクトですが、単にツールを活用した自動化によって表面的な業務改善をするのではなく、「Denodo」導入によって根本的な “業務改革” にしたいという思いが根底にありましたね。
“データマネジメントについて会話しやすい環境” ができ、次のステップに進めた
――システム構成を検討されるにあたり、特に留意・工夫されたポイントがあれば教えてください。
渡邉:「スモールスタートで、徐々に最適化していく」形にしたことが一番のポイントです。
データ取得・データ統合・データ提供という3つのレイヤーのうち、まずは「データ提供」について、プロジェクトの発端をふまえ「各種データを元に仮想上でレポートを加工・作成すること」と定義しフィックスさせました。
そして、このデータ提供の部分のあり方は変えずに、データ取得やデータ統合の部分の切り替え(例えば、従来は事業部の方々のPC内やファイルサーバー上にあるEvcel、CSVなどもデータとして利用していたが、データベースから直接データを取得する方法に切り替える など)を後から徐々に進めています。
このように、フロントのデータ提供部分に影響を与えずに、柔軟に裏側の仕組みを変えられるのも、データ仮想化方式ならではの良さだと言えます。
――導入後数ヶ月が経過しますが、現時点でどのような効果を実感されていますか?
井上:アウトプットとしてレポートを出す手前の部分でデータがしっかりと管理できているため、一度実装したBIを使っていく中で出てくる「違う切り口からのレポートも見たい」「この部分をこのように変えたい」といったニーズにも簡単に応えられるようになりました。
これにより、エンジニアリングのコストが削減できたこと、事業部の方々とのコミュニケーションが取りやすくなったことは、大きな効果だと思っています。
寺本:また仮想的なデータマートを用意する際、「Aの事業部には見せてよい」「Bの事業部にはこの部分の情報がマスキングされた状態で見せる」といった権限の変更も柔軟に行えるようになりました。各事業部用のデータマートを別々に用意する、というこれまで発生していた手間が省けるようになった点もよかったと思います。
――パーソルキャリアが取り組むデータマネジメント・ガバナンスについての検討や仕組みづくりに対して、今回の取り組みはどのような変化や影響を与えるものと思われますか?
渡邉:今回データが一元管理された見やすい状態になったことで、「今まで合っていると思っていたこのデータってよく見たら(情報が古いなど)正しくないのでは?」「今までこんなデータがあることを知らなかった」など、さまざまな課題が見つかりました。
データマネジメントの一歩目である「データ統合」がある程度形になって “データマネジメントについての会話がしやすい環境” ができ、ようやく次のステップに進めるようになったという感覚です。
寺本:そうですね。ここからは、今回見つかった課題をふまえて、データの品質の部分を改めて精査したり、「このデータの持ち主は誰なのか」といったルール決めをしたりしていく必要があります。まだまだ先は長いですが、まず一歩目を踏み出せたことはよかったなと思っています。
――ありがとうございます。それでは最後に、今後チャレンジしたいことをそれぞれお聞かせください。
井上:「Denodo」の構築によってさまざまなデータが見られるようになりましたが、やはりまだこれは一歩目だと思っています。
実際に使っていく中で「このようなデータが見たいけれど、今のDenodoのデータだけではまだ見られない」というケースも生まれているので、まずはデータの種類を増やしていきたいですね。また将来的には、他の事業部にもデータを提供できるようにすることなどにも挑戦していければと思います。
渡邉:データマネジメントの課題は根が深く大きなものではありますが、その解決を目指したいという思いがあります。「Denodo」によるデータ仮想化をその一つの手段として有効活用しながら、課題解決に寄与する取り組みに挑戦していけたらと思います。
寺本:現段階では、統合したデータが活用される場所は一部の部署に限られています。今後は、クロスオーバーディレクターとして、このデータの活用を他事業部に展開することに挑戦していきたいと思います。
――ありがとうございました!
(取材=伊藤秋廣(エーアイプロダクション)/文=永田遥奈/撮影=古宮こうき)
寺本 孝太 Kota Teramoto
デジタルテクノロジー統括部 デジタルソリューション部 CODグループ リードエンジニア
独立系SIerにてプログラマからキャリアをスタートし、B2C系のWebサービスを中心にサーバーサイドの開発に従事し、SE・PL・PMを経験。その後、ECサイト開発や販売管理システムの刷新に携わり、2020年4月にパーソルキャリアに入社。現在は、エージェント領域を中心とした複数プロジェクトのマネジメントやデータ利活用の推進を担当。
渡邉 裕樹 Yuki Watanabe
デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア
大学卒業後、SIerとしてキャリアスタートし、SCMやDWHのシステム刷新、企業合併に伴うシステム統合に従事し、要件PHから運用保守まで幅広い実務を経験。その後、小売業の社内SEに転職し、大規模なデータ基盤の刷新を構想企画から全社の展開まで実施。2022年6月より現職
井上 裕貴 Yuki Inoue
デジタルテクノロジー統括部 デジタルソリューション部 サーバーサイド・インフラエンジニアグループ リードエンジニア
専門学校卒業後、SIerを経て複数の業界でデータウェアハウスの運用保守やSalesforceの開発を担当。2022年4月より現職。
※2023年2月現在の情報です。