[Sansan 大島氏]MLOpsのエッセンスを取り⼊れて評価 pipelineを再構築している件 #データ負債解消

イベントレポート

2024-05-21

Sansan株式会社技術本部 Sansan Engineering Unit 副部長 / 研究開発部副部長

大島武徳

早稲田大学大学院理工学研究科情報科学専攻修了。新卒でゲーム機メーカー入社し、動画ライブラリやストリーミング技術を利用したアプリ開発やテクニカルサポート、声優など、多岐にわたる経験を積む。その後、自動車メーカーで自動運転AI学習環境開発などに携わり、2023年4月Sansanに入社し、現在はデータ利活用とグループマネジメントに従事。

Connpass詳細はこちら

アーカイブはこちら

資料はこちら

本日は、「MLOpsのエッセンスを取り入れて評価pipelineを再構築している件」というタイトルで発表します。私は、現在Sansan株式会社技術本部にあるSansan Engineering Unitと研究開発部を兼務しております。

研究開発部ではデータ基盤を作っており、Sansan Engineering Unitではデータ自体を作って、そのデータを活用するアプリを作っています。

現在は名刺管理などの働き方を変えるDXサービスを中心に、SansanやContract One、Bill One、Eightといったマルチプロダクトを展開しています。

こちらのプロダクトを活用すると、必要な情報の検索・管理・共有・分析・活用がしやすくなっていて、データに基づいて判断ができます。

「Offers」では、エンジニア・PM・デザイナー向けにキャリア、スキル、働き方についての役立つイベントを開催しています。無料登録・ログインで、人気のイベント動画は今すぐアーカイブ視聴可能です。動画を視聴して、最新の技術トレンドや実践的なノウハウを手に入れましょう！

→【限定配信】アーカイブ動画を今すぐ視聴する！

45本以上の人気テックイベントを見るまずは求人を見てみる

この記事の目次

Nayose Groupが開発する名寄せ技術によるサービス
名寄せ技術の課題と改善策
MLOps導入のために検討すべきこと
視聴者からの質問に答える質疑応答タイムへ

Nayose Groupが開発する名寄せ技術によるサービス

Sansan Enginerring UnitのNayose Groupではビジネスデータの収集、整理、データベース化を行って、そのデータを用いたビジネス価値の創出を担う機能を各プロダクトへ提供するのが役割となります。

Sansanは、オペレーションとデータとテクノロジーを掛け合わせてプロダクトを作っていくところが強みです。

その中でもデータを担っているのがNayose Groupで、名寄せ技術の開発を行っています。名寄せとは、同一人物や同一企業の単位でデータを統合することです。例えば、名刺やメール、署名、もしくは顧客管理の情報、公開情報に対して一意のIDを付けていろいろな価値を提供しています。

会社に対してIDが付いた場合は、この会社に所属している人がこうツリー構造で分かるようになります。

名寄せ技術の課題と改善策

名寄せはシステムの成長に伴って扱うデータと評価軸が複雑化してきて、クオリティーチェックに時間がかかることが課題でした。

先ほどもスライドで説明したように、名刺データだけではなく公開情報や請求書など、入ってくるデータが多岐にわたるようになっています。

そこでSansanの強みとしてクオリティーチェックをしっかりやって担保していましたが、どうしてもここに時間がかかってしまっていました。

以前は複雑な依頼でも対応可能で結果の信頼性が高いことがクオリティーチェックの強みでしたが、すべて人の手で行っていたのでどうしても時間がかかってしまうことが顕在化してきて、リリース回数が減ってしまいました。

そこで、なるべくクオリティーを落とさずに時間を短縮する方法を検討することにしました。開発サイクルは早くしたいですが、クオリティーの担保をしないとデータベース自体の価値が低下します。結果的にはプロダクトの価値低下につながるので、クオリティーの担保が何よりも重要でした。

ここでMLOpsが出てくるのですが、Machine Learningで作られたアルゴリズムを活用するのではなく、MLOpsそのもの（アルゴリズムを作成するための仕組み）を導入することが今回の計画です。

MLOpsは人が介在して評価データが作られて、この評価データを使ってCI/CDに組み込んで自動で評価される（評価データは評価プロセスで毎回再利用される）という流れです。

この流れを導入すると、Sansanの強みであるクオリティーチェックの良さを残したまま自動化が実現できそうだったんです。

MLOps導入のために検討すべきこと

現在もMLOpsのエッセンスを実際に取り入れて進行中なのですが、評価データの作成が課題となりました。1回評価データを作って終わりとなれば1番簡単ですが、複雑化していた要件をまずは解きほぐさないといけなかったんです。

何のためにチェックしているのかを整理して、そのために必要なデータを一つひとつ要件に沿って作っていく必要がありました。

まずはデータの作り方やサンプリングの方法を考えなければいけないですね。企業情報や人物といったデータの鮮度も大事で、古いデータをずっと使うわけにはいきません。

あとはデータの量です。クオリティーを担保するデータの量は一体何なのかも要件の段階で一から考える必要があります。

以上のことを考えていくと、オペレーションも問題となってきます。どうしても人が介在して時間がかかるので、評価データの作成においても結局は人の介在をどれだけ小さくできるかというオペレーションの改善が重要になりました。

まさに継ぎ足しで秘伝のタレを作るような工程を、評価データのところで行っています。今のところ未完成ですが、このような形でMLOpsを使って評価システム全体を再構築しています。

視聴者からの質問に答える質疑応答タイムへ

――ここからは、視聴者の方からの質問に回答していきます。まず1つ目は、「データ構造の負債を解消するために専用のメンバーを配置しているのでしょうか、それとも開発メンバーが機能アップデートと並行して進めているのでしょうか」という質問です。陳さんからご共有いただけますか。

陳：我々は全て同じメンバーがやっています。なぜなら、ここを分けると背景がわからないメンバーも入ってきてしまうからですね。基本的に解消する際は短期間で皆で一緒にやり切るという形で進めています。

――続いてtocknさん、お願いします。

tockn：弊社も同じで、特に負債解消の専門チームは置いていません。プロダクトを開発するメンバーが解消しています。クォーターの最初の2週間は非機能系の改善に当てるといった改善ウィークも設けたりして、色んな方法でプロダクト開発と共に並行できる施策を練っている感じですね。

――続いて大島さん、お願いします。

大島：Nayose Groupは歴史が長く大きいチームになっていて、その結果システムとしても大きくなってしまいました。そのため、チームを分割してより改善しやすくなる構造にしています。

――続いて森山さん、お願いします。

森山：弊社も機能アップデートと並行してやっていますね。開発を進めるか、負債を解消するかを天秤にかけていて、場合によっては負債の解消を優先しています。

――最後に弓場さんはお願いします。

弓場：フツパーもチームを分けてはいなくて、開発メンバーが担う体制で今はやっています。

――続けて、「どれぐらいの時間をかけて負債を解消してきましたか」とのことですが、陳さんからお願いできますか？

陳：基本的には2〜3週間でやりきることを徹底しています。何か行動的に問題が発覚した場合は一旦開発を止めて2〜3週間で全部やりきって、無理にその先に進まないという判断をしてきました。短期間で細かく、問題があるところだけ集中的にアタックする形ですね。

――続いてtocknさん、お願いします。

tockn：先ほどの回答と被りますが、改善ウィークみたいな形で1週間〜2週間を改善の期間に当てていますね。あとは、クォーター単位でプロダクトや非機能系の開発も含めて何をやるのかを整理する段階で期間を当てはめたりしています。

――続いて大島さん、お願いします。

大島：細かいところは2週間くらいの短期間でやって、どうしても歴史的経緯で大規模改修が必要なタイミングであれば半年〜1年ぐらいかけて、現在動いているものをリプレイスする形です。

――続いて森山さん、お願いします。

森山：大体メンバーは複数人いるので、一人が負債回収して、もう一人は機能開発という感じでやっていましたね。負債回収をやると大体1ヶ月ぐらいかかります。それぐらいで今回の課題などは対応していました。

――続いて弓場さん、お願いします。

弓場：今回発表したデータベースの移行に関してはいきなり全部を変えるのではなくて、ステップを区切って1ヶ月単位で行いました。

――本日のイベントはこちらで終了とさせていただきます。登壇者の皆さん、視聴者の皆さんありがとうございました。

見逃し無料配信！続々追加！
45本以上の人気テックイベントが見放題

業界トップクラスの開発者たちが"実践で使える"最新技術トレンドを徹底解説！React、Next.js、Go、TypeScript、セキュリティ、テスト設計まで幅広くカバーした45本の厳選イベントを見逃し配信中。すでに4,000人以上のエンジニアが視聴申込み！⇒ 全45本のイベント一覧をもっと見る

【2025年3月最新】Offersで人気のテックイベントランキングTOP3

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

最新TypeScriptバックエンドフレームワークの実運用比較と今後の展望

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

大規模サービスの開発現場が語るデザインシステム導入の実際

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

Go言語の第一人者たちが語る、実践的なテスト手法とベストプラクティス

45本の人気テックイベントを今すぐ見放題

※Next.js最新版解説、実践的なLLM活用法など旬のテーマも多数！期間限定見逃し配信中

この記事をシェア

あなたにおすすめの新着求人・案件

iOSエンジニア／急成長SaaS『jinjer』を支えるエンジニア募集

ｊｉｎｊｅｒ株式会社

雇用形態

正社員
勤務場所

週2-3回程度
稼働時間

裁量労働制
時給

年収 500万〜1,000万
技術スタック

iOS, Swift, AWS, Android, Kotlin, PHP

iOSエンジニア

[Sansan 大島氏]MLOpsのエッセンスを取り⼊れて評価 pipelineを再構築している件 #データ負債解消

Nayose Groupが開発する名寄せ技術によるサービス

名寄せ技術の課題と改善策

MLOps導入のために検討すべきこと

視聴者からの質問に答える質疑応答タイムへ

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞く バックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休 エンジニア視点で考えるデザインシステ

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

あなたにおすすめの新着求人・案件

iOSエンジニア／急成長SaaS『jinjer』を支えるエンジニア募集

【AI×エンタメ】大手テレビ局向けDX案件を推進する開発PM募集

AIボイスボット×金融 ｜ PMO・運用保守支援（週2〜3日 / リモート中心）

AIボイスボット×金融×LLM ｜ PM・PdM（ハイブリッド / 週3〜5日）

【製造業×AI】生成AI・LLM開発｜CTO直下で挑むAIエンジニア募集

（スタッフエンジニア）AIプロダクト開発

（シニアエンジニア）AIプロダクト開発

（アーキテクチャー）AIプロダクト開発

（チームリード）AIプロダクト開発

（テックリード）AIプロダクト開発

【キャリア採用】プロダクトデザイナー（UI/UX）

【フルリモート／年収〜1000万】ワークフローSaaSのUI/UXデザイナー募集

【フルリモート／年収〜1600万】コード調査で顧客の問題を解決するCRE募集

【フルリモート／年収〜1600万】社内業務をAIで効率化するマネージャー募集

【フルリモート／年収〜1600万】承認ワークフローSaaSのAIエンジニア募集

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2025年版】エンジニア転職で年収アップに直結する資格選びと取得戦略

エンジニア 転職 30代で成功するための戦略と市場価値向上のポイント

AIエンジニアの年収は？AIエンジニアの稼ぎ方やなり方、収入アップまで徹底解説

AIエンジニアに向いている人の特徴とは？現役エンジニアが語る適性判断ガイド

【2024年11月最新】デザイナーの転職志望動機の書き方は？成功例とともにご紹介

【2024年11月最新】デザイナーの転職理由の例文を紹介！面接での答え方や伝え方のポイントも解説

【2024年11月最新】グラフィックデザイナーの副業事情とは？必要なスキル・経験から案件獲得方法まで徹底解説

【2024年11月最新】デザイナーの転職理由とは？よくある5つの理由と面接での伝え方を解説

Salesforce関連の自社製品開発で昨対150％成長！エンジニアがApexやLWCを学ぶ先にあるものとは？

毎月拡大を続ける「スニダン」開発組織。VPoE林氏が見据える次の打ち手と、OffersMGRへの期待とは

確認工数が1/10も削減に! OffersMGRで開発効率を改善し、数値を意識した組織にしていきたい。

Webエンジニアから「Salesforceエンジニア」へ。求められるスキルと理想の人物像とは

【2024年11月最新】スクラム採用とは何か？基本から成功事例までを紹介

【キャリア別】エンジニアが後悔しない転職タイミングと市場価値を高めるポイント

【2024年11月】コンピテンシー自己評価の例文の書き方。評価向上のための具体例を紹介

【2024年12月最新】リファラル採用による人材獲得の秘訣とは？成功事例と導入手順を解説

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2025年最新】エンジニア転職の面接攻略法！技術面接から年収交渉まで完全ガイド

【2025年最新】エンジニアが転職で年収アップを実現する5つの戦略と成功事例

【2025年最新】エンジニアが転職で失敗する5つの理由と成功への具体的対策

【2025年版】エンジニア転職で年収アップに直結する資格選びと取得戦略

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

AIボイスボット×金融｜ PMO・運用保守支援（週2〜3日 / リモート中心）

エンジニア転職 30代で成功するための戦略と市場価値向上のポイント