データドリブンするために最低限必要なサンプル数は?

n=1だとそりゃ信憑性ないよねってなるが、n=いくつになれば信憑性を持ってデータドリブンできるのか気になってます。。 (編集済み)
3年前
view数 531
  • 2
  • 2
  • 2
  • 2
  • 4

回答を投稿して企業にアピールしましょう!

Q&Aで投稿された回答は、
企業側に表示されるプロフィールにも投稿履歴として表示されます。

Offersにログイン・新規登録して、気になるテーマやトピックを話してみよう!

\回答があります!/

  • 池田徳正

    エンジニア

    3年前

    それは分析の手法にもよるし、データの性質にもよる、さらには実際にデータを取ってみないといけないというのが分析のおもしろいところだと思います。

    たとえば、ボタンのA/Bテストを考えます。クリック率が30% - 60%だったら、100サンプルもあれば結論が出ますが、クリック率が3% - 5%だったら、100サンプルだと何も分かりません。これは単純なカイ二乗検定の話なので、必要サンプル数が比較的明確に出ます。

    一方、2つのデザインの最適化でも、ユーザの属性や流入経路を元に、勾配ブースティング決定木で最適化しようと思ったら、1000サンプルでうまくいく感じはしません。ただ、たしかにうまくいく感じはしないのですが、もしですよ、特定のユーザ属性だけクリック率が10倍になっていたら、少ないサンプル数でも大きな改善につながることはあります(そういうことはまずないと思いますが)。

    こんな感じで、分析に必要なサンプル数は事前に得られる知識によっても大きく変わり、実際に得られるデータによっても大きく変わります。結局、明確な答えがないというのが正しい答えではないかと思います。
    view数 22
    • 3
    • 2
    • 2