[High Link CTO 野川氏]香りECスタートアップにおけるデータの更新によって生まれたデータ負債事例と学び #データ負債解消2

イベントレポート

2024-06-12

株式会社High Link CTO

野川賢二郎

大学・大学院在学中に複数社でインターンを経験後、LINE株式会社にてサーバーサイド開発に従事。2018年よりHigh Linkに参画し、「カラリア」の初期開発に従事。組織・技術の観点から「香り×テクノロジー」をリードしている。

Connpass詳細はこちら

アーカイブはこちら

資料はこちら

今日は弊社で開発している「カラリア」におけるデータの更新によって生じたデータ負荷とその原因、そしてどのように解消を進めていったかを中心に紹介していきます。

さらに、どうしたら負債が発生したり大きくなったりすることを防げたか、弊社が取り組んでいる負債とうまく付き合うための取り組みも合わせて紹介できたらと思います。

見逃し無料配信！続々追加！
45本以上の人気テックイベントが見放題

業界トップクラスの開発者たちが"実践で使える"最新技術トレンドを徹底解説！React、Next.js、Go、TypeScript、セキュリティ、テスト設計まで幅広くカバーした45本の厳選イベントを見逃し配信中。すでに4,000人以上のエンジニアが視聴申込み！⇒ 全45本のイベント一覧をもっと見る

【2025年3月最新】Offersで人気のテックイベントランキングTOP3

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

最新TypeScriptバックエンドフレームワークの実運用比較と今後の展望

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

大規模サービスの開発現場が語るデザインシステム導入の実際

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

Go言語の第一人者たちが語る、実践的なテスト手法とベストプラクティス

45本の人気テックイベントを今すぐ見放題

※Next.js最新版解説、実践的なLLM活用法など旬のテーマも多数！期間限定見逃し配信中

45本以上の人気テックイベントを見るかんたん無料登録で転職相談する

この記事の目次

毎月の定期便で様々な香りを楽しめる「カラリア」
定期便ステータスのデータの不備と分析の複雑さが顕在化
定期便ステータスの定義を見直して負債を解消
どうすれば負債の発生を防げたのか？
どうすれば負債が大きくなることを防げたのか？
設計レビューやデータ品質の管理で負債を予防する
視聴者からの質問に答える質問タイムへ

毎月の定期便で様々な香りを楽しめる「カラリア」

まずは弊社のプロダクト「カラリア」ですが、理想の香りの香りと出会う場所というコンセプトの香り関連のプロダクトです。中でも主軸なのが、「カラリア香りの定期便」という香水を中心とした商品のサブスクリプションサービスです。

約1000種類の商品から毎月ユーザーが好きなものを選べます。目に見えないからこそ難しい香りとの出会いをテクノロジーの活用によって身近に楽しんでもらうのが目的です。 2019年にサービスを開始して、現在はユーザー数が50万人以上いるサービスになっています。

ユーザー規模が大きくなってきているのでデータ分析の重要性が高いのが特徴で、今回紹介する負債も関連したものになっています。

本サービスのユーザー体験は、まずユーザーが定期便カレンダー（商品カート）にアイテムを追加します。毎月ユーザーごとに決められた注文日に、自動でカレンダー内の商品が注文されてお届けするという形です。

毎月の自動注文が体験の基本の流れですが、定期注文のスキップや停止ができます。つまり、注文の継続性に関する状態を持ちます。

この状態を定期便ステータスと呼んでいますが、これが今回紹介する負債の発生箇所になります。

定期便ステータスのデータの不備と分析の複雑さが顕在化

サービス開始から4年後の2023年に、定期便ステータスに関するデータ分析で問題が顕在化していきました。

問題は2つあって、1つ目はデータが不完全だったことです。事業計画を立てる上で定期便ステータスは売り上げに関連するので重要度が高いのですが、注文した人が次の月にどういうステータスだったかを正確に出せませんでした。

もう1つの問題が、分析がかなり複雑化して難しいというところでした。データ基盤である程度吸収できたものの、データ基盤のメンテナンスコストが高く、高度な分析をする時には複雑なクエリを書く必要が生じてデータチームのリソースを圧迫していました。

この問題はデータの更新によって過去の情報が失われる実装になっていたことが原因だったんです。

スキップ、決済エラーといったサービスの開発初期からあるイベントを既存カラムの更新によって実装していました。

実際には定期便契約というテーブルに次回決済日を表すカラムがあります。スキップ機能を実現するにあたって次回の注文日を飛ばすために、注文日を1ヶ月後倒しにする実装になっていました。

これは当時の機能要件を満たすために工数を少なく実現できる実装方法でしたが、ずっとそのままにしていました。

こうすると全ての履歴情報が残らないので、過去情報の喪失を補うために途中からイベントログを出力していましたが、過去の状態をSQLで100パーセント復元するのが難しいログになっていました。

定期便ステータスの定義を見直して負債を解消

負債解消にあたって、まずは目的を2つ設定しました。

1つ目は、分析者やデータ利用者のニーズに答えられる状態にすることです。今後発生するデータの分析や、分析しやすいデータの持ち方を100%の精度でできるようにします。

もう1つが、上記の状態を維持しやすいデータにすることです。事業計画を作成するのにも重要なデータなので、一時的ではなく長期的に正しいデータが維持されやすいデータの持ち方にする必要があります。

2つの目的を達成するために、2つの方針を重視して進めました。

1つが、定期便ステータスや定期便に関するイベント、ステータス間の遷移についての定義と紐づくデータをドキュメント化することです。スキップやエラー、停止のようなステータス・イベントは時間をかけて少しずつ追加した関係で、仕様や遷移の発生については明文化されていませんでした。なので、改めて定義して社内で共通認識を持つことで、分析チームや開発チームで齟齬が生まれないようにしました。

2つ目が、ログ出力をただ改善するだけではなく、機能要件と分析要件を共に満たすデータの持ち方に完全に直すことです。データの完全性を一時的に満たすためだけならログの修正だけでも良いです。しかし、ログ出力にバグが入り込んでデータが欠損する可能性があるので、データの持ち方を直して機能要件と分析要件を共に満たせるデータ設計にしました。

そして、ステータスとイベントの定義を明確にした上で状態遷移図を作成していきました。

このデータ仕様を基にバックエンド側の自動テストとデータ基盤側のテストを組めば、仕様に合致しているかどうかを継続的に確かめられるのでデータを維持しやすくなります。

実際のテーブルとは厳密には異なりますが、先ほどの定期便契約テーブルに紐づく形でイベントテーブルが存在していて、スキップやエラーといったイベントが書き込まれます。

これによって状態遷移が発生して、ステータステーブルに新規レコードがインサートされ、既存のレコードが更新されるという形です。

データの完全性は状態とイベントの両方に履歴情報が保持されるようになって解決しました。データの完全性の維持に関しても、RDBのUNIQUE制約によって各定期便契約が単一の状態を持つことを保証しているので、実装にバグが生じてもDBレイヤーで弾けます。

分析の複雑性も分析状態の履歴が保持されているので、過去の状態を復元するのにログを参照する必要がありません。副次的に状態が単一のテーブルに集約されてデータ仕様が理解しやすくなり、開発や分析のメンバーも容易に分析できるようになりました。

どうすれば負債の発生を防げたのか？

今回はデータの持ち方を完全に変えて負債を解消するまで3か月以上期間を要したので、今後は負債の発生を防いでいきたいです。

どうやって防げたかというと非常にシンプルで、データの更新を避ければ良かったと思います。

今回の負債発生の根本原因は、レコードの更新によって履歴情報が失われることにありました。

イベントを明示的に扱って、レコードの更新ではなく新しいレコードの作成で表現すると履歴が残るので、こういった問題は起きなかったと思います。

本サービスの開発初期の段階で全ての変更やアップデートに関する履歴情報を保持するのは、実装スピードの兼ね合いで難しかったのですが、特に売り上げや売り上げの予測に関連する情報のみはレコードの更新を避けるポリシーがあれば、実装スピードも落とさずに負債を回避できたと思います。

もう1つ別の切り口で見ると、機能追加の際に最適なデータの持ち方を考え直すのが大事だったと思います。

カラリアの場合、スキップ機能は後から追加されたので、最初の頃はスキップを前提とした作りではありませんでした。このように機能要件が変化すると、どうしても既存のモデルやデータの持ち方に引きずられて考えてしまいます。

しかし、既存のデータの持ち方でどう要件を満たせるかを考えるのではなく、要件を実現するのに最適なデータの持ち方は何かを考えるのが理想ですね。継続的にデータモデリングをやり続ける心持ちが大事だと思います。

どうすれば負債が大きくなることを防げたのか？

もう1つ重要なのが、事業に大きな影響が出始める前にどうすれば負債が大きくなるのを防げたかだと思います。

サービス開発初期はどうしても負債が生まれやすいです。初期は開発リソースも時間もないですし、パフォーマンス要件はサービスが成長してから発生する傾向にあります。そのため、ある程度は負債が生まれる前提で、生まれた負債とうまく向き合い続けることが重要です。

負債が大きくなるのを防ぐには、対処療法ではなく根本治療ですね。今回は過去情報が欠損している箇所で分析要件が挙がってきた時に、対処療法的にログを追加しました。しかし、元のデータの移行を検討すべきだったと思います。

あとはデータ移行を恐れずにやると、データ移行がチームとして習熟していきます。データの移行はサービスの規模が小さいほどコストが低いので、早い段階でガンガンデータを移行していくべきですね。

サービスを停止せずに行うデータ移行は手間になりますが、何度かやっているうちにチームが慣れていくので、根本治療もやりやすくなるでしょう。

負債を小さいうちに倒す→データ移行に習熟する→小さいうちに負債を倒す...という好循環を生み、大きなデータ負債も生みづらい環境を作るのが大事ですね。

設計レビューやデータ品質の管理で負債を予防する

最後にチームや組織として、データ負債を生みにくくする、あるいは大きくしないための取り組みを紹介します。

1つ目はDesign Docによる設計レビューです。我々の場合は2週間以上かかる比較的粒度の大きい開発プロジェクトについて、設計ドキュメントを記述して実装前の相互レビューをしています。

特に、継続的なデータモデリングを重点的にレビューして致命的なデータ負債の発生を防いでいます。

2つ目がデータチームと連携した継続的なデータ品質向上です。早い段階でのデータ課題の発見と解消を継続的に行うために、開発エンジニアとアナリティクスエンジニアでDevData定例と呼ばれるミーティングを実施しています。これによってデータに関する問題や要望をいち早くキャッチして改善するサイクルを繰り返しています。

最後は、組織全体でエンジニアリソースの20%程度をデータ含む技術的負債の解消やライブラリアップデート、新しい技術の検証などに当てられる仕組みを取っています。

これによってビジネスサイドとの合意形成なしで、エンジニアが優先度を付けて負債解消を積極的に進められます。

スタートアップにおいては特に負債を生まないのも大事ですが、負債を大きくしないのも大事です。

視聴者からの質問に答える質問タイムへ

――ここからは視聴者の質問に答えていきます。まず一つ目は「データモデリングの観点で、どのようにDesign Docsによるレビューを行っているのでしょうか」とのことですが、いかがでしょうか。

データモデリングの件では、要件を満たすためにエンティティの抽出をしっかりやることです。要件を切り出した時、ユーザーは定期便の注文をスキップできますが、スキップという概念をどう表現するかをエンティティで明示的に表現します。テーブル設計ではどうしても既存テーブルから入りがちですが、モデリングの概念から行います。

また、データ移行をどうやるかもDesign Docsに含めるようにしています。こういったレビューの事例として、定期便の注文に対して普通の商品と比べてオプションをつけられる機能をリリースしようとしているのですが、それと定期便ステータスの紐付けが名前に引っ張られるというのは最近ありました。

定期ステータスと定期便のオプションエラーステータスみたいな感じで紐付ける形がぱっと思いつきますが、よく考えてみると全然性質が違います。そのため、違う形で定義した方が良いというのはモデリングの段階で気付けるはずです。このように既存のテーブル名に引っ張られがちなケースが結構あります。

――続いて、「テーブル変更前のデータの扱いについて、ログを活用してデータ加工を行って新テーブルに移行したのか、あるいは過去データは今まで通りの対応で分析しているのでしょうか」とのことですが、いかがでしょうか。

ログを活用してデータ加工をして、新テーブルにぶち込んで移行しました。データが欠損していた関係上、100%の精度では移行できてないのですが、「こういうログはこういう形で新テーブルに移行できる」という感じで事前に対応ルールを仕様として書いて、その詩を元にワンショットのバッチで移行する形で行いました。

――最後の質問です。「20%ルールやDevData定例は素敵だなと思いました。これらはいつどのようなきっかけで始めたのでしょうか」とのことですが、いかがでしょうか。

20%ルールは数年前からあるルールです。技術的負債に限らず新しい技術の検証の必要性は、解像度が一番高く見えているのはエンジニアなので、エンジニアが優先度を決めて進めた方が良いという背景から導入しています。

DevData定例は今回の負債が顕在化してきて、早期の課題抽出や改善サイクルを繰り返した方が良いという背景から、去年辺りから始まりました。

見逃し無料配信！続々追加！
45本以上の人気テックイベントが見放題

【2025年3月最新】Offersで人気のテックイベントランキングTOP3

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

最新TypeScriptバックエンドフレームワークの実運用比較と今後の展望

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

大規模サービスの開発現場が語るデザインシステム導入の実際

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

Go言語の第一人者たちが語る、実践的なテスト手法とベストプラクティス

45本の人気テックイベントを今すぐ見放題

※Next.js最新版解説、実践的なLLM活用法など旬のテーマも多数！期間限定見逃し配信中

この記事をシェア

あなたにおすすめの新着求人・案件

機械学習エンジニアの方必見！AIプロジェクトの学生PMインターンを大募集！

株式会社Almondo

雇用形態

副業転職(業務委託から正社員)
勤務場所

フルリモート
稼働時間

96時間 ~ 160時間（週24 ~ 40時間）
時給

時給 1,750円〜3,000円
技術スタック

-

機械学習エンジニア
リモートOK

[High Link CTO 野川氏]香りECスタートアップにおけるデータの更新によって生まれたデータ負債事例と学び #データ負債解消2

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞く バックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休 エンジニア視点で考えるデザインシステ

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

毎月の定期便で様々な香りを楽しめる「カラリア」

定期便ステータスのデータの不備と分析の複雑さが顕在化

定期便ステータスの定義を見直して負債を解消

どうすれば負債の発生を防げたのか？

どうすれば負債が大きくなることを防げたのか？

設計レビューやデータ品質の管理で負債を予防する

視聴者からの質問に答える質問タイムへ

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞く バックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休 エンジニア視点で考えるデザインシステ

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

あなたにおすすめの新着求人・案件

機械学習エンジニアの方必見！AIプロジェクトの学生PMインターンを大募集！

AI Agentを社会実装する、第二創業の仲間を募集！

エンタメ・TV局×toB特化のTech企業 Webエンジニア募集

【Vue.js経験者歓迎】人事DXプラットフォームのフロントエンドエンジニア

フルリモート｜福利厚生など充実した上場企業で、フルスタックに活躍しませんか？

MotionBoardとSnowflakeを活用したデータプラットフォーム構築

【フルリモート可】Ansibleを利用した自動化環境の再構築をお任せ◎

データ分析基盤の新規立ち上げ案件にご参画いただける方募集！

【リモート可】災害情報専門会社にてFlutterアプリエンジニア募集！

【6.5億円調達済/月間300万ユーザ】SaaSスタートアップ◎CDO候補を募集

週3日~ | フルリモート | 現場業務効率化アプリのバックエンドエンジニア

UIデザイナー業務委託｜eKYCサービスやアプリのUIデザイン

【PM候補/フルリモフルフレ】プログラミング学習サービスを支えるPM候補募集！

【半年で売上8倍】グローバルで急成長する飲食テックの検索エンジニアを募集！

プロジェクトマネージャー（システム開発）

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2024年11月最新】バックエンドエンジニアの将来性はどうなる？キャリアパスも解説

【2024年11月最新】AIの将来性は？ディープラーニングの進化と医療事務への影響

黎明期から使ってきたC＃の将来性について考える。キャリアを広げるために意識すること

【2024年11月最新】BigQueryとは？使い方や料金、特徴を徹底解説

【2025年最新】エンジニアが転職する理由ランキングと理想的な転職方法を実現する方法

AIエンジニア転職ガイド｜年収相場と求められるスキル体系

【2024年11月最新】主婦もエンジニアに転職できる？具体的なステップやおすすめの職種を紹介

【2024年11月最新】エンジニアが転職を成功させるための志望動機の書き方や注意点を徹底解説

Salesforce関連の自社製品開発で昨対150％成長！エンジニアがApexやLWCを学ぶ先にあるものとは？

毎月拡大を続ける「スニダン」開発組織。VPoE林氏が見据える次の打ち手と、OffersMGRへの期待とは

確認工数が1/10も削減に! OffersMGRで開発効率を改善し、数値を意識した組織にしていきたい。

Webエンジニアから「Salesforceエンジニア」へ。求められるスキルと理想の人物像とは

【2024年11月最新】デザイナーの転職志望動機の書き方は？成功例とともにご紹介

【2024年11月最新】デザイナーの転職理由の例文を紹介！面接での答え方や伝え方のポイントも解説

【2024年11月最新】グラフィックデザイナーの副業事情とは？必要なスキル・経験から案件獲得方法まで徹底解説

【2024年11月最新】デザイナーの転職理由とは？よくある5つの理由と面接での伝え方を解説

業務委託の場合に交通費はどうする？請求や仕訳のポイント

業務委託における経費精算の方法。負担の考え方や認められる経費

フリーランスの税金事情。種類からおすすめの本まで丁寧に解説

フリーランスで月40万円稼げる職種とは。知っておくべき税金の知識

【2024年11月】コンピテンシー自己評価の例文の書き方。評価向上のための具体例を紹介

【2024年12月最新】リファラル採用による人材獲得の秘訣とは？成功事例と導入手順を解説

【2024年11月最新】スタートアップ採用で重要な人材戦略。採用成功のための実践方法を解説

【2024年11月】ダイレクトリクルーティングが中途採用に効く理由とは？採用手法のメリットを解説

エンジニアの最適な転職時期は？ベストなタイミングと転職を成功させるポイントを紹介

40代エンジニア 転職で年収アップするには？｜年収アップを叶える人の共通点と失敗しない進め方

エンジニア転職で年収アップは本当？「年収バグ」の実態と賢いキャリア戦略

【2024年11月最新】エンジニアの転職における志望動機の書き方と例文を紹介

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

40代エンジニア転職で年収アップするには？｜年収アップを叶える人の共通点と失敗しない進め方