[GEOTRA 森山氏]ビッグデータ生成処理の失敗と挑戦 #データ負債解消

イベントレポート

2024-05-21

株式会社GEOTRA CTO

森山拓洋

九州大学大学院理学府化学専攻卒。大学では量子化学を学ぶ。人と人をつなげるITに興味を持ち、KDDIに2014年に新卒入社。入社後は法人向けの事業本部に所属し、DX関連のフロントSEとしてシステムの設計・構築に従事。現在は技術責任者としてGEOTRAのプロダクト開発をリードし、自らも実装に従事する傍ら、データサイエンティストとして活動中。ETL処理、GISアプリ、交通シミュレーション環境などさまざまなシステムを運用してます。

Connpass詳細はこちら

アーカイブはこちら

資料はこちら

本日はビッグデータ処理でデータ量で苦しめられた経験を発表させていただきます。

まずGEOTRAはGEOTRA Activity Dataというサービスをメインでやっています。このデータ自体は一般的に人の位置情報のデータを提供していて、街中の生活者1人1人の動線が分かる人流データを販売しております。

データフォーマットにある通り、Machine Learningで秘匿化の問題をクリアしつつ、1人1人の移動がわかる非集計のトリップデータを提供しています。

データはIDで識別します。例えばID034の方が朝の時間帯に通勤で車を使ってある場所からある場所に移動しました。その方が8時にどこへ行った、というデータを持っています。

そして地図アプリ自体もGEOTRAで提供していまして、こちらは日比谷公園に来訪された方の人流データです。黄色の範囲が日比谷公園にいらっしゃる方の出発地の多い場所で、近隣が多めです。

左側のグラフはそこにいらっしゃる方のトリップの情報や属性情報、性別、年代を出しつつ、どこから来ているかといったデータになります。

見逃し無料配信！続々追加！
45本以上の人気テックイベントが見放題

業界トップクラスの開発者たちが"実践で使える"最新技術トレンドを徹底解説！React、Next.js、Go、TypeScript、セキュリティ、テスト設計まで幅広くカバーした45本の厳選イベントを見逃し配信中。すでに4,000人以上のエンジニアが視聴申込み！⇒ 全45本のイベント一覧をもっと見る

Offersで人気のテックイベントランキングTOP3

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

最新TypeScriptバックエンドフレームワークの実運用比較と今後の展望

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

大規模サービスの開発現場が語るデザインシステム導入の実際

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

Go言語の第一人者たちが語る、実践的なテスト手法とベストプラクティス

45本の人気テックイベントを今すぐ見放題

※Next.js最新版解説、実践的なLLM活用法など旬のテーマも多数！期間限定見逃し配信中

45本以上の人気テックイベントを見るかんたん無料登録で転職相談する

この記事の目次

GEOTRA Activity Dataによる移動目的の推定
データの増加により処理時間が膨大に
視聴者からの質問に答える質疑応答タイムへ

GEOTRA Activity Dataによる移動目的の推定

GEOTRA Activity Dataには移動目的という項目を追加していて、トリップエージェント(IDが付いている方 )が移動した時の移動目的をデータの中に付与しております。

付与するロジックは基本的に到着地点です。例えば、病院に行っていればHospital(通院)が目的だと判断します。

先ほどのHospitalのようなデータはPoint of Interstデータと呼ばれるのですが、建物が何かで移動目的を切り替えています。例えば、ラーメン屋→Eat、会社→Work、小売事業者→Retail、病院→Hospitalといったデータをトリップデータとは別に日本中の様々な建物情報を持っています。

移動目的を紐付ける際はトリップデータとPoint of Interestデータを掛け合わせて、トリップデータに対してPoint of Interestデータのどれが1番近いのかを処理しています。

そうすると、トリップデータ数がn個でPoint of Interestデータがm個あったら単純計算でn×m通りのパターンが存在するので、数が膨大になればどんどん増えていくのは容易に想像できるでしょう。

データの増加により処理時間が膨大に

その後、想像通り処理時間が雪だるま式に増えていくという課題にぶち当たりました。

元々事業を開始した際は基本的に街や市単位のデータだったので、ある程度お客さんの方で対応できていました。しかし、お客様に色々データを提供していくと、今度は都道府県でデータを欲しいというお客さんもいて処理時間が伸びていきました。

複数の都道府県になると処理時間もさらに増えていって、最終的には2週間経っても処理が終わらない状態になりました。

以降は試行錯誤の日々で、まずはクラウドのインスタンスサイズを4倍くらいに変えても全然変わりませんでした。

他にもトリップを64分割して分散処理したりしてもまだ変わりませんでした。

そして、最終的にトリップデータとPoint of Interestデータの両方を分割してようやく短縮できました。それぞれ64分割して並列処理で回していくと、現実的な処理時間となったんです。

今回のように対応エリアが増えた数だけ、Point of Interestデータは増えます。処理をある程度早くするためにエリア単位でくくって、ここに来た人の2分の1の確率でこの人は病院に来た、3分の1で仕事に来た、といった処理を入れていました。

この移動の確率分布を複数の都道府県全部で見ていましたが、例えば、東京の千代田区にいる方のPOIを見つけたいのに、全然違う埼玉県のある市のデータの処理をやっていて時間がかかっていたりしました。なのでしっかりと分割して処理することが大事だと分かりました。

視聴者からの質問に答える質疑応答タイムへ

――ここからは、視聴者の方からの質問に回答していきます。まず1つ目は、「データ構造の負債を解消するために専用のメンバーを配置しているのでしょうか、それとも開発メンバーが機能アップデートと並行して進めているのでしょうか」という質問です。陳さんからご共有いただけますか。

陳：我々は全て同じメンバーがやっています。なぜなら、ここを分けると背景がわからないメンバーも入ってきてしまうからですね。基本的に解消する際は短期間で皆で一緒にやり切るという形で進めています。

――続いてtocknさん、お願いします。

tockn：弊社も同じで、特に負債解消の専門チームは置いていません。プロダクトを開発するメンバーが解消しています。クォーターの最初の2週間は非機能系の改善に当てるといった改善ウィークも設けたりして、色んな方法でプロダクト開発と共に並行できる施策を練っている感じですね。

――続いて大島さん、お願いします。

大島：Nayose Groupは歴史が長く大きいチームになっていて、その結果システムとしても大きくなってしまいました。そのため、チームを分割してより改善しやすくなる構造にしています。

――続いて森山さん、お願いします。

森山：弊社も機能アップデートと並行してやっていますね。開発を進めるか、負債を解消するかを天秤にかけていて、場合によっては負債の解消を優先しています。

――最後に弓場さんはお願いします。

弓場：フツパーもチームを分けてはいなくて、開発メンバーが担う体制で今はやっています。

――続けて、「どれぐらいの時間をかけて負債を解消してきましたか」とのことですが、陳さんからお願いできますか？

陳：基本的には2〜3週間でやりきることを徹底しています。何か行動的に問題が発覚した場合は一旦開発を止めて2〜3週間で全部やりきって、無理にその先に進まないという判断をしてきました。短期間で細かく、問題があるところだけ集中的にアタックする形ですね。

――続いてtocknさん、お願いします。

tockn：先ほどの回答と被りますが、改善ウィークみたいな形で1週間〜2週間を改善の期間に当てていますね。あとは、クォーター単位でプロダクトや非機能系の開発も含めて何をやるのかを整理する段階で期間を当てはめたりしています。

――続いて大島さん、お願いします。

大島：細かいところは2週間くらいの短期間でやって、どうしても歴史的経緯で大規模改修が必要なタイミングであれば半年〜1年ぐらいかけて、現在動いているものをリプレイスする形です。

――続いて森山さん、お願いします。

森山：大体メンバーは複数人いるので、一人が負債回収して、もう一人は機能開発という感じでやっていましたね。負債回収をやると大体1ヶ月ぐらいかかります。それぐらいで今回の課題などは対応していました。

――続いて弓場さん、お願いします。

弓場：今回発表したデータベースの移行に関してはいきなり全部を変えるのではなくて、ステップを区切って1ヶ月単位で行いました。

――本日のイベントはこちらで終了とさせていただきます。登壇者の皆さん、視聴者の皆さんありがとうございました。

見逃し無料配信！続々追加！
45本以上の人気テックイベントが見放題

【2025年3月最新】Offersで人気のテックイベントランキングTOP3

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

最新TypeScriptバックエンドフレームワークの実運用比較と今後の展望

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

大規模サービスの開発現場が語るデザインシステム導入の実際

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

Go言語の第一人者たちが語る、実践的なテスト手法とベストプラクティス

45本の人気テックイベントを今すぐ見放題

※Next.js最新版解説、実践的なLLM活用法など旬のテーマも多数！期間限定見逃し配信中

この記事をシェア

あなたにおすすめの新着求人・案件

Java開発エンジニア／案件選択制/前職給与保証/フルリモートも可/ブランク歓迎

株式会社コアシンク

雇用形態

正社員
勤務場所

相談の上決定する
稼働時間

09:00 ~ 18:00
時給

年収 300万〜999万
技術スタック

-

サーバーサイドエンジニア
リモートOK

[GEOTRA 森山氏]ビッグデータ生成処理の失敗と挑戦 #データ負債解消

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞く バックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休 エンジニア視点で考えるデザインシステ

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

GEOTRA Activity Dataによる移動目的の推定

データの増加により処理時間が膨大に

視聴者からの質問に答える質疑応答タイムへ

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞く バックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休 エンジニア視点で考えるデザインシステ

【3位】「テストしやすいコードとは？tenntenn氏、渋川氏、zoncoen氏に聞くGoテスト設計最前線」

あなたにおすすめの新着求人・案件

Java開発エンジニア／案件選択制/前職給与保証/フルリモートも可/ブランク歓迎

【フルリモート／副業歓迎】【React】ヘアカラー専門店向けポイントサービス開発

【フルリモート／副業歓迎】【Flutter 経験者歓迎】医療業界向けアプリ開発

【フルリモート／副業歓迎】【C#, .NET】医療機関向け電子カルテの開発

【フルリモート】【Ruby on Rails】医療機関向け予約システムの開発

【フルリモート】【Node.js】ヘアカラー専門店向けポイントサービス開発

【フルリモート／副業歓迎】【Laravel】美容業界向けのシステム開発

【フルリモート】【Angular】タレントマネジメントサービスの UI/UX

【1人目UIUX・すごいベンチャー100選出】AI SaaSのUIUXデザイナー

WEB開発エンジニア／案件選択制/前職給与保証/フルリモートも可/ブランク大歓迎

フルスタックエンジニア◢◤JAXA発スタートアップで不動産業界を変える挑戦

JAXA発スタートアップ◢◤アプリをグロースさせる、データサイエンティストを募集

フロントエンドエンジニア◢◤JAXA発スタートアップ！宇宙×AI×不動産で世界へ

バックエンドエンジニア◢◤JAXA発スタートアップで不動産業界を変える挑戦

JAXA発スタートアップ◢◤世界を目指すアプリをグロースさせるGISエンジニア

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2024年11月最新】バックエンドエンジニアの将来性はどうなる？キャリアパスも解説

【2024年11月最新】AIの将来性は？ディープラーニングの進化と医療事務への影響

黎明期から使ってきたC＃の将来性について考える。キャリアを広げるために意識すること

【2024年11月最新】BigQueryとは？使い方や料金、特徴を徹底解説

【2024年11月最新】主婦もエンジニアに転職できる？具体的なステップやおすすめの職種を紹介

【2024年11月最新】エンジニアが転職を成功させるための志望動機の書き方や注意点を徹底解説

【2024年11月最新】子持ちエンジニアの転職は可能？AWSソリューションアーキテクトの勉強方法

【2024年11月最新】技術顧問エンジニアの副業事情とは？必要なスキル・経験から案件獲得方法まで徹底解説

Salesforce関連の自社製品開発で昨対150％成長！エンジニアがApexやLWCを学ぶ先にあるものとは？

毎月拡大を続ける「スニダン」開発組織。VPoE林氏が見据える次の打ち手と、OffersMGRへの期待とは

確認工数が1/10も削減に! OffersMGRで開発効率を改善し、数値を意識した組織にしていきたい。

Webエンジニアから「Salesforceエンジニア」へ。求められるスキルと理想の人物像とは

【2024年11月最新】デザイナーの転職志望動機の書き方は？成功例とともにご紹介

【2024年11月最新】デザイナーの転職理由の例文を紹介！面接での答え方や伝え方のポイントも解説

【2024年11月最新】グラフィックデザイナーの副業事情とは？必要なスキル・経験から案件獲得方法まで徹底解説

【2024年11月最新】デザイナーの転職理由とは？よくある5つの理由と面接での伝え方を解説

業務委託の場合に交通費はどうする？請求や仕訳のポイント

業務委託における経費精算の方法。負担の考え方や認められる経費

フリーランスの税金事情。種類からおすすめの本まで丁寧に解説

フリーランスで月40万円稼げる職種とは。知っておくべき税金の知識

【2024年11月】コンピテンシー自己評価の例文の書き方。評価向上のための具体例を紹介

【2024年12月最新】リファラル採用による人材獲得の秘訣とは？成功事例と導入手順を解説

【2024年11月最新】スタートアップ採用で重要な人材戦略。採用成功のための実践方法を解説

【2024年11月】ダイレクトリクルーティングが中途採用に効く理由とは？採用手法のメリットを解説

【後編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【前編】Node、Deno、Bun?Node代表古川さんと学び直す JS Runtimeの歴史とこれから #フロントエンドの未来

【後編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【前編】MIT、GPL、BSL？何をしたら違反になる？ケースから学ぶ OSSライセンス講座 #DeepDive

【2025年最新】エンジニアが転職する理由ランキングと理想的な転職方法を実現する方法

40代エンジニアが転職で年収アップするには？｜年収アップを叶える人の共通点と失敗しない進め方

AIエンジニア転職ガイド｜年収相場と求められるスキル体系

エンジニアの最適な転職時期は？ベストなタイミングと転職を成功させるポイントを紹介

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ

【1位】「どこまで安定してる？Express/NestJS/Hono運用者に聞くバックエンドTSのイマ」

【2位】なぜ今必要？Figma×SmartHR×DMM.com×一休エンジニア視点で考えるデザインシステ