[Luup 河野氏]位置情報データをコスト最適化しつつ分析に活かすためのデータ管理と運用方法について #データ負債解消2

イベントレポート

2024-06-12

株式会社Luup COO室 Data Engineering Team

河野匠真

2022年に株式会社Luupに入社し、データエンジニアとしてデータ基盤の構築から運用を主に担当しつつ、データ活用領域の拡大にも取り組んでいる。

Connpass詳細はこちら

アーカイブはこちら

資料はこちら

位置情報データをコスト最適化しつつ分析に生かすためのデータ管理と運用方法についてというタイトルで話していきます。

【Excelテンプレート】開発組織の採用計画とコスト管理シート

効果的な採用戦略と予算管理は、開発組織の成功に不可欠です。この課題に対応するため、具体的な数値と実践的なガイドラインを盛り込んだExcelファイルを作成しました。本ファイルには、採用戦略の立案から予算配分まで、具体的な数値とモデルケースを盛り込んでいます。ぜひ本テンプレートをご活用ください。

▼ この資料でわかること
✅ 精密な採用予算の策定
✅ 人材ニーズの的確な把握と計画立案
✅ コスト効率の高い採用プロセスの設計

\ コスト効率を高める採用計画がこれ1つで実現！ /

今すぐダウンロードする（無料） ▶

まずは無料で資料ダウンロード！成功事例集をダウンロード（無料）

この記事の目次

全国各地の都市で乗り降りできるライドシェアサービス「LUUP」
アプリと車両から様々なデータを取得
データ量の増加に伴って収集したデータの分析・活用が高コストに
テーブルを分けることで負債の解決を図る
データのスキャンコストを軽視しない
視聴者からの質問に答える質問タイムへ

全国各地の都市で乗り降りできるライドシェアサービス「LUUP」

まず、LUUPの概要について簡単に説明します。

アプリ内で好きな電動マイクロモビリティを選択して、好きなポートで乗り降りできるシェアリングサービスを展開しています。

お客様には以下の流れでサービスをご利用していただいています。

STEP1：専用アプリをダウンロード。利用登録後、ライドしたいポートを探します。

STEP2：ポートを見つけて、電動キックボードや電動アシスト自転車を選びます。

STEP3：車両のQRコードを読み取りロックを解除します。

STEP4：降りるポートを予約、ライド開始。

現状は電動アシスト自転車と電動キックボードの2種類の車両を展開しています。

基本的にはこの車両の進化を目指しながら、今後は他の種類の車両を展開していく予定で研究・開発を進めています。

展開エリアとしては、2024年3月時点で6400カ所以上のポートを設置しています。場所は東京と大阪をメインに開始して、2024年の2月末に仙台をリリースしました。そして、3月27日に福岡を新しくリリースします。

アプリと車両から様々なデータを取得

主にユーザー向けアプリと車両の2つから様々なデータが取得できます。

アプリからは主に位置情報や走行情報などのデータを取れます。車両では位置情報を始めとするIoTデータを取得しています。

スライドに記載しているもの以外にも、サードパーティー系のツールや社内のオペレーション用に展開している社内向けアプリから取れるデータなどもあります。

今回は位置情報のデータ取得にフォーカスします。

位置情報はユーザー向けアプリと車両の両方から取得しています。

ユーザー向けアプリでは、ライド中(ユーザーの乗車)の時のみに位置情報データをかなりの頻度で取得しています。取得したデータはFirestoreに格納して、そこからストリーミングでBigQueryに流していく形です。車両では、ライド中と非ライド中(ポートに車両が置いてある時)の両方で位置情報データを取得しています。

取得頻度については、ライド中は非常に高頻度で、非ライド中はライド中よりも低頻度でデータを取得しています。格納先は同じくFirestoreを基準にBigQueryに流しています。

今回は特にライド中の時のデータの流れについて話します。

ライド開始から終了まで高頻度にFirestoreに位置情報データが流れています。

FirestoreがNoSQLのデータベースなので、1レコードずつ入ってきたデータがBigQueryにどんどん流れていくという仕組みです。

データ量の増加に伴って収集したデータの分析・活用が高コストに

位置情報データを分析・活用する時にコストが高くなってしまうのが当初の課題でした。

単純にスキャンするデータ量が多すぎたのが原因でした。データが続々と1つのテーブルに入るので、ある日のあるライド経路を見たいだけの時も多くのスキャン量が必要になっていました。

また、経路以外のライド料金の支払いやクーポンの使用の実績だけを見たい場合でも同様のスキャン量が発生していました。

データ基盤で言うと、Firestoreにまずデータが入っていきます。

FirestoreからFirestoreのExtensionsという拡張機能を使ってBigQueryにデータがリアルタイムで流れます。そこからData Warehouse層に別途テーブルを用意して、生データから過去3日分だけ取得して既存のテーブルにマージしていき、DWHテーブルを基準にそれぞれファクトテーブルをどんどん量産していく構造でした。

問題なのが、2つのテーブル「rides_raw」と「rides_latest」の容量です。1つのテーブルに位置情報のレコードが増えて入っていくので、特定の日の特定のデータを取る時も数百GBから数TB級のスキャン量が必要でした。

弊社のビジネスモデル的には、1つのライドで多くの位置情報が入ってくるので、ライド数が増えるにつれてデータ量が爆発的に増えていきます。

データ量が増えていくとスキャン量も増えて、分析するのにコストが増えていくのが課題でした。

当時のチーム内ではあまり良い解決策が見つかりませんでした。当時は200GBくらいだったので大丈夫だと思っていましたが、それだとダメだよねという話になりました。

ライドによって得られるデータは会社を成長させる最もコアなデータなので、問題になった時に対処していたら負債が膨れ上がった時に手遅れになる可能性がありました。

そうならないために早めにコスト最適化を検討して、テーブル構造を作り変えていくことにしました。

テーブルを分けることで負債の解決を図る

対応方法のポイントは2つです。

ライド終了時にライド経路の位置情報データのみをBigQueryに送るAPIを作ったのが一つ目です。そして、ライド経路の位置情報を除いてライド実績のみを見れるテーブルを別途用意したのが二つ目です。

既存のFirestoreから取れるライドの生データの他に、ライドが終了したタイミングで位置情報データのみを取得するAPIをCloud Pub/Sub経由で流して、APIで取得したデータを格納するために「rides_routepoints」というテーブルをBigQueryのSourceテーブルに追加で用意しました。

既存のFirestore Extensionsで取れるテーブル「rides_raw」ではルートポイントを除いて、レコード数をかなり削減するData Lakeのテーブル「except_routepoints_rides_raw」を用意しました。そこからライドの実績とライドの経路を別々にするDWHテーブルを用意しました。

結果的に、数GB程度のスキャン量でデータが取得できました。また、ライドの実績と位置情報でテーブルを分割できたので、データの可視化や分析がしやすくなりました。

データのスキャンコストを軽視しない

今回の事例を踏まえて、実装当初でもコストを軽視しない方が良いと学びました。リリース時点で問題が無くても、事業成長も視野に入れた長期的な目線で考えた上で、将来も対応できる最適なテーブル構造を作っておくのが重要です。

あとは、手のつけられない負債になる前に対処しましょう。負債が積もってから対応するのではなくて、前もって最適解を見つけて、取り返しがつかなくなる前に対処することがポイントです。

視聴者からの質問に答える質問タイムへ

――ここからは視聴者の方からの質問に回答していきます。まず一つ目は「コストや負債への対応の意思決定は誰がどのように進めていかれたのでしょうか」とのことですが、いかがでしょうか。

僕の入社当時のデータエンジニアリングチームは2人しかいなくて、基本的にはサーバーやアプリ側と密に連携できていたので、僕が旗振り役として先頭に立ちました。

――続いて、「今回のデータでは、手がつけられなくなる負債の判断基準は具体的に何かあったのでしょうか」とのことですが、いかがでしょうか。

今回の事例ではライドデータだったことがポイントですね。ライドデータは我々にとって最重要データなので、事業成長に伴ってスキャン量も増えて分析ができなくなる状態はNGだったんです。なので、時間をかけてでもコスト削減して分析できるようにするという決断に至りました。

――続いて、「BigQueryのテーブルを分ける以外に出た案はありますか」とのことですが、いかがでしょうか。

特に無かったですね。当時は改善案がチームでも出てこなくて、サーバーチームと議論してようやく出てきた結論でした。

――続いて、「既に保存されてるデータは分割後のテーブルに入れ直しましたか」とのことですが、いかがでしょうか。

基本的には過去データも全部マイグレーションする形で入れ直しました。

「 Offers 」は、優秀な人材を獲得したい、でも採用になるべく工数をかけたくない、そんな企業・担当者の皆さまにぴったりのサービスです。

いくつもの転職媒体を使って、人材を探し回るのはもう終わり。「副業」から始まる新しい採用のカタチを実現します！

転職サイトには出てこない、あのCTO、VPoEも絶賛登録中！

\ 700社以上が導入 /

まずは無料で資料ダウンロード！

【Excelテンプレート】開発組織の採用計画とコスト管理シート

効果的な採用戦略と予算管理は、開発組織の成功に不可欠です。この課題に対応するため、具体的な数値と実践的なガイドラインを盛り込んだるExcelファイルを作成しました。本ファイルには、採用戦略の立案から予算配分まで、具体的な数値とモデルケースを盛り込んでいます。ぜひ本テンプレートをご活用ください。

▼ この資料でわかること
✅ 精密な採用予算の策定
✅ 人材ニーズの的確な把握と計画立案
✅ コスト効率の高い採用プロセスの設計

\ コスト効率を高める採用計画がこれ1つで実現！ /

今すぐダウンロードする（無料） ▶

この記事をシェア

あなたにおすすめの新着求人・案件

【時給2500円〜/◎フルリモート】ソフトウェアテストのQAエンジニア募集！

DAIJOBU株式会社

雇用形態

業務委託
勤務場所

フルリモート
稼働時間

120時間 ~ 160時間（週30 ~ 40時間）
時給

時給 2,500円〜3,500円
技術スタック

-

QAエンジニア
リモートOK

[Luup 河野氏]位置情報データをコスト最適化しつつ分析に活かすためのデータ管理と運用方法について #データ負債解消2

全国各地の都市で乗り降りできるライドシェアサービス「LUUP」

アプリと車両から様々なデータを取得

データ量の増加に伴って収集したデータの分析・活用が高コストに

テーブルを分けることで負債の解決を図る

データのスキャンコストを軽視しない

視聴者からの質問に答える質問タイムへ

あなたにおすすめの新着求人・案件

【時給2500円〜/◎フルリモート】ソフトウェアテストのQAエンジニア募集！

データ基盤構築からデータマート設計｜データ活用を加速させるデータエンジニア

ドメイン駆動開発｜モダン技術｜エンジニア主導で事業成長させるWebアプリ開発

n8nを用いた業務自動化・AIエージェントワークフロー設計・開発経験者募集！

【フルリモ】実務経験3年以上、n8n/AI開発経験者歓迎!

【リモート可】業務用Webシステム × AI基盤｜バックエンドエンジニア

【時給3500円〜/◎フルリモート】セキュリティエンジニア（脆弱性診断）募集！

【時給3500円〜/◎フルリモート】ソフトウェアテストの自動化エンジニア募集！

【在宅/～週3日/高単価】プロジェクトマネージャー｜データ基盤構築・BI開発

【フルリモ相談可】クレジットカードシステムのPM経験者を大募集！

【フルリモ】製造業向けDX案件でデータ可視化（Power BI）支援をお任せ！

【フルリモ＆週４日～】ServiceNow 開発・保守運用エンジニア大募集！

【ほぼリモート】SAP導入/PP領域におけるコンサルタントを募集！

【週3～5/フルリモ】大手ガス会社のグループ企業にてWEBアナリスト！

【在宅可】大手製薬会社のデータ基盤設計プロジェクトでバックエンド開発リーダー！

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

AIエンジニアの仕事内容とは？仕事の種類や他エンジニアとの違いを解説

AIエンジニアに必要なスキルとは？未経験からの転職ロードマップ・役立つ資格を徹底解説

【2024年11月最新】バックエンドエンジニアの将来性はどうなる？キャリアパスも解説

【2024年11月最新】AIの将来性は？ディープラーニングの進化と医療事務への影響

未経験からエンジニアに転職するステップやポイントを詳しく紹介

【2025年版】エンジニア転職で年収アップに直結する資格選びと取得戦略

エンジニア 転職 30代で成功するための戦略と市場価値向上のポイント

AIエンジニアの年収は？AIエンジニアの稼ぎ方やなり方、収入アップまで徹底解説

Salesforce関連の自社製品開発で昨対150％成長！エンジニアがApexやLWCを学ぶ先にあるものとは？

毎月拡大を続ける「スニダン」開発組織。VPoE林氏が見据える次の打ち手と、OffersMGRへの期待とは

確認工数が1/10も削減に! OffersMGRで開発効率を改善し、数値を意識した組織にしていきたい。

Webエンジニアから「Salesforceエンジニア」へ。求められるスキルと理想の人物像とは

【2024年11月最新】デザイナーの転職志望動機の書き方は？成功例とともにご紹介

【2024年11月最新】デザイナーの転職理由の例文を紹介！面接での答え方や伝え方のポイントも解説

【2024年11月最新】グラフィックデザイナーの副業事情とは？必要なスキル・経験から案件獲得方法まで徹底解説

【2024年11月最新】デザイナーの転職理由とは？よくある5つの理由と面接での伝え方を解説

業務委託の場合に交通費はどうする？請求や仕訳のポイント

業務委託における経費精算の方法。負担の考え方や認められる経費

フリーランスの税金事情。種類からおすすめの本まで丁寧に解説

フリーランスで月40万円稼げる職種とは。知っておくべき税金の知識

【2024年11月最新】スクラム採用とは何か？基本から成功事例までを紹介

【キャリア別】エンジニアが後悔しない転職タイミングと市場価値を高めるポイント

【2024年11月】コンピテンシー自己評価の例文の書き方。評価向上のための具体例を紹介

【2024年12月最新】リファラル採用による人材獲得の秘訣とは？成功事例と導入手順を解説

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2025年最新】エンジニア転職の面接攻略法！技術面接から年収交渉まで完全ガイド

【2025年最新】エンジニアが転職で年収アップを実現する5つの戦略と成功事例

【2025年最新】エンジニアが転職で失敗する5つの理由と成功への具体的対策

【2025年版】エンジニア転職で年収アップに直結する資格選びと取得戦略

エンジニア転職 30代で成功するための戦略と市場価値向上のポイント