本記事は『紙と鉛筆で身につける データサイエンティストの仮説思考』の「第3章:データを説明する力を身につける」から「3-2 データを比較するとは?」を抜粋したものです。掲載にあたって一部を編集しています。
データを比較するとは?
データサイエンティストはデータを比較することによって、対象となる事象の優劣やギャップ、計画値に対する達成状況を確認します。たとえば、コンビニの各店舗の売上データを比較することによって、売上が好調な店舗や反対に不振な店舗を見つけ出し、売上を向上させるための施策を検討します。また、事業の売上実績と予算目標を比較することによって、計画値に対する達成度合いを確認し、計画の修正や見直しを実施します。
ここでは、データサイエンティストがどのようにデータを比較しているのか確認してみましょう。データサイエンティストの思考過程を体験するために、次のクイズを考えてみてください。
クイズ:適切な比較対象の設定について学ぶ
ここに通算150勝の野球投手がいます。この野球投手の成績を比較する対象として、最も適切なものを選択肢の中から選びなさい。
解説
通算150勝の野球投手の比較対象を選ぶクイズです。誰と比較するのが適切なのか考えてみましょう。
比較対象①は、通算2,000本安打の打者です。野球において打者(バッター)と投手(ピッチャー)では役割が異なるため、単純に数字だけを見て比較することはできません。
比較対象②は、通算200勝の投手です。こちらは同じ投手なので、どちらの成績が良いか比較できます。
比較対象③は、指導経験20年のコーチです。投手とコーチも役割が異なるため、打者と同様に単純に数字だけで比較することはできません。よって、通算150勝の野球投手の適切な比較対象としては②となります。
【答え:②】
適切な比較対象の設定
クイズで見たように、データを比較する際は同じ性質を持っているもの同士の比較となるように比較対象を設定する必要があります。野球の投手の成績を比較するのであれば、比較対象は同じ投手にする必要があります。これを「Apple to Appleの比較」といいます。同じ性質を持つりんご同士を比べることから転じて、同一条件の比較を意味します。
一方で、投手と打者や、投手とコーチのように異なる性質のものを比較することを「Apple to Orangeの比較」といいます。りんごとオレンジといった異なる性質のものを比較しても意味がないことを指します。
データサイエンティストがデータを比較する際は、Apple to Appleの比較となるように比較対象を設定します。正しく比較対象が設定できていないと、適切に物事を判断できません。
たとえば、次の表はA予備校とB予備校の難関校合格率を示しています。子供を予備校に1年間通わせようとした場合、どちらの予備校を選ぶのが良いでしょうか。A予備校は難関校への合格率が70%とチラシに書かれています。一方、B予備校は難関校への合格率が75%です。単純に合格率だけを見ると、B予備校に通わせるのが良さそうに思えます。
しかし、詳しく調べてみるとA予備校は年間コース(1年間)の生徒数をもとに合格率を計算していることがわかりました。これに対し、B予備校では、年間コース(1年間)を受講した生徒と、特別講習会(5日間)を受講した生徒を混ぜて合格率を計算していました。普段は他の予備校に通っているが特別講習会だけ受講した生徒の合格率が非常に高かったため、B予備校全体として合格率が高く見えています。B予備校の年間コース(1年間)の難関校合格率は、生徒30名のうち15名しか合格していないので50%しかありません。
今回は、子供を1年間予備校に通わせようとしているので、「年間コース(1年間)」の合格率を見て判断する必要があります。このように、同じ「合格率」という言葉が使われていても、Apple to Appleの比較とならない場合もあるため注意が必要です。言葉の定義を確認しながら慎重に比較対象を設定する必要があります。
データを比較する4つの視点
データサイエンティストはデータを比較することによって、意思決定や判断の材料としています。データサイエンティストが、よく使うデータを比較するための4つの視点を確認しておきましょう。
視点1:ある時点との比較
基準となる時点からの変化(変化率、成長率)を確認するための視点です。たとえば、2021年の売上が、2020年と比べて伸びているのか、落ち込んでいるのかを確認するために、前年との比較を行います。前年比を計算することで、2020年と比較して売上が133%伸びていることが確認できます。
視点2:計画値との比較
計画値に対する実績値の達成度合い(達成率)を確認するための視点です。たとえば、各事業で設定した予算目標が達成できているか確認するために、計画値との比較を行います。予実差(売上実績-売上予算)を計算することによって、A事業は予算を達成しているが、B事業は予算を達成していないことがわかります。
視点3:他者との比較
同じ性質を持つもの同士の差異(優劣、ギャップ)を確認するための視点です。たとえば、各店舗の売上に順位(ランキング)を付け、どの店舗の売上が多いか確認します。売上トップ10やワースト5など、好調店舗や不振店舗を明らかにすることで、売上向上施策を検討します。また、好調店舗(A店舗)と各店舗の売上の差を計算することによって、好調店舗の売上にどれだけ足りていないか確認できます。
視点4:全体との比較
全体の中での構成比(貢献度、影響度、占有率)を確認するための視点です。たとえば、利用者全体における各プランの割合を計算することで、それぞれのプランのシェアを確認できます。ここでは、Aプランのシェアが大部分(70%)を占めていることがわかります。
データサイエンティストがデータを比較する際の4つの視点を紹介しましたが、ここでもうひとつ「視点1:ある時点との比較」に関するクイズを考えてみてください。
クイズ:ある時点との比較について学ぶ
あるコンビニの売上データを分析しています。上司から「2021年11月1日の売上が、前年(2020年)と比較してどうだったか報告してほしい」と依頼されました。この2021年11月1日の売上を比較する対象として、最も適切なものを選択肢の中から選びなさい。
解説
コンビニの売上データの比較対象を選ぶ問題です。今回対象としているのが2021年11月1日なので、前年の2020年11月1日と比較すれば良いかというと、そう単純ではありません。
2021年11月1週目の売上データを見ると、このコンビニでは平日の売上は好調ですが、週末はあまり売上が伸びないことがわかります。コンビニやスーパーなどの小売業では、平日と休日で売上が大きく変わることが知られています。コンビニやスーパーの立地によって、平日の売上が多いのか、休日の売上が多いのかは異なりますが、曜日で売上に差があることがほとんどです。
そこで小売業では、売上データを前年比較する際は、同週同曜日で比較する考え方が用いられています。前年の同じ週の同じ曜日と比較しようという考え方です。
よって、2021年11月1日(月曜日)の比較対象としては、②2020年11月2日(月曜日)が答えとなります。
【答え:②】
次に、もうひとつ「視点3:他者との比較」に関するクイズを考えてみてください。
クイズ:他者との比較について学ぶ
2021年10月のA店舗とB店舗の売上はそれぞれ100万円でした。A店舗とB店舗を比較した考察結果として、最も適切なものを選択肢の中から選びなさい。
解説
A店舗とB店舗を比較した考察として、最も適切なものを選ぶ問題です。両店舗の2021年10月の売上は100万円で同じです。売上だけを比較するとA店舗とB店舗に違いがないように感じますが、売上を分解して考えてみると、顧客構成や購入傾向に違いがあることがわかります。
売上=顧客数×顧客単価の数式に当てはめて分解してみると、A店舗は売上100万円=顧客数1,000人×顧客単価1,000円、B店舗は売上100万円=顧客数4,000人×顧客単価250円であることがわかります。選択肢の考察を確認してみましょう。
A店舗とB店舗で顧客単価が異なるため、考察①は不適切です。また、B店舗は新規顧客の割合が多いため、考察②も不適切です。考察③は、A店舗とB店舗の顧客構成や購入傾向を適切に表現しているため正解となります。
【答え:③】
小売業では売上データを分析する際、売上を顧客数と顧客単価に分解して考えます。分解して考えることによって、売上を伸ばすための施策を具体的に検討できます。顧客数が少ないのであれば、チラシ配布やスタンプラリーの導入など来店を促す施策を検討します。顧客単価が低いのであれば、アップセルやクロスセルなど1回当たりの購入金額を増やす施策を検討します。
このように、数字を分解して比較することによって、適切な打ち手を考えることができます。データサイエンティストは「この数字は分解できないのか?」ということを常に考えながらデータに向き合っています。データサイエンティストがよく使う数字の分解パターンを確認しておきましょう。
掛け算による分解
数字を掛け算で分解するパターンです。たとえば、売上は顧客数×顧客単価に分解できます。また、顧客単価は商品単価×購入点数に分解できます。このように数字を掛け算で分解し、それぞれの数字を伸ばすための施策を検討します。
足し算による分解
数字を足し算で分解するパターンです。たとえば、顧客数は新規顧客数+既存顧客数に分解できます。また、既存顧客数は活動顧客数+休眠顧客数に分解できます。活動顧客とは、直近での活動実績(購入や利用など)がある顧客を指し、アクティブ顧客ともいわれます。一方、休眠顧客とは、直近での活動実績がない顧客を指します。
比較対象を適切に設定するためには、対象とするデータの定義や特性をしっかりと把握しておく必要があります。また、対象とする業界におけるドメイン知識(小売業では曜日によって売上が異なるや、売上は顧客数×顧客単価に分解できるなど)も知っておく必要があります。