目次
- 統計学はどんな分野で役に立つ?
- 統計学はそもそもどのような学問なのか
- 標本を母集団の精巧なミニチュアにする方法
2021.04.12
データを用いて確立や期待値を導き出す統計学の存在感がビジネスのシーンでどんどん高まってきていることをみなさんはご存じでしょうか? 数字は苦手だからといって統計学を忌避すれば、仕事に活かせる武器を一つ失うことになります。
統計家/著述家の高橋信先生は『マンガでわかる統計学』『マンガでわかるベイズ統計学』(いずれもオーム社)などで誰にでもわかりやすく統計学の手法について解説してきました。Schooでは「文系でもわかる『統計学』超入門」と題し、高橋先生から統計学のキホンのキについて伺いました!
「本日ほとんど式は出てきません」と高橋先生は最初に断言します。数字や数式は苦手だという方も、ぜひご一読ください!
続いての「話題は、そもそも統計学はどのような学問なのか」。説明にあたって先ほど取り上げられた内閣支持率が使われます。2021年2月「支持する」の下に四角囲みで「38」という数字が記載されていますが、「実はこの数字、嘘なんです」と高橋先生。一体、どういうことなのでしょうか?
その理由は、「NHKは内閣を支持しているかどうかを私(高橋先生)に聞いていないから」。有権者の一人である高橋先生の意見を取り上げていない以上、「38」という数値は真実ではない、ということになるのです。では、でたらめかというと「そうでもありません」と高橋先生。統計学では、調査対象差全員からなる集団を「母集団」といいます。
この母集団は内閣支持率において“有権者全員”にあたります。内閣支持率の真の値を知るためにはこの母集団遠因の意見を聞くしか方法はありません。とはいえ、日本の有権者約1億人に答えをいちいち聞いて回るのは現実的ではありませんね。そこでNHKは母集団から選び出した一部の人から意見を聞くことにしたのです。このときの一部の人を選び出す作業を「抽出」といい、抽出された一部の人々の塊を「標本」と表現します。
統計学では「母集団から偏りなく抽出された標本の内閣支持率が38%であったなら、母集団のそれもだいたい38%くらいであろう」と推測します。このように、標本のデータから母集団を推測する学問こそ、統計学なのです。
ここで注意すべきなのが“偏りなく”という点。例えば産経新聞の読者2,000人からとった内閣支持率、朝日新聞の読者2,000人からとったというアンケートは偏りないものとはいえません。データの件数がいくら多くても偏りがあれば、推測を正確に行うことはできないということです。
統計学には「推測統計学」と「記述統計学」の2種類があります。先生が先ほど紹介したのは推測統計学。記述統計学は、「『推測する』という発想がなく、データを整理することで集団の状況をできるだけ簡潔に表現するという観点の統計学」です。例えば官公庁がある年の倒産件数を調べ、発表するのは記述統計学にあたります。あるいは、テストの後に平均点を算出するのは記述統計学です。このように、ある集団について割合や平均といった事実を記述するのが記述統計学なのです。
推測統計学において、標本は母集団の精巧なミニチュアでなければなりません。母集団に丸・三角・四角などの形が大量に含まれるならば、標本にも同じ割合でそれらの図形が含まれている必要がある、というイメージで考えてみてください。ここでカギとなるのが「無作為抽出法」です。これは母集団に属する人々が等しい確率で選ばれることを目指した方法の総称であり、以下のような方法を含みます。
・単純無作為抽出法
・層別抽出法(層化抽出法)
・2段抽出法
・層別2段抽出法(層化2段抽出法)
授業ではそれらの方法について「日本全国から1,800人を抽出する」という例をもとに具体的な解説がなされました。その内容が知りたい方はぜひ、実際に授業動画にアクセスしてみてください。また、この授業は第1回。2回目の授業では『ビジネスパーソンのナビゲーターとなる統計解析』と題して実用的な分析手法が紹介されました。
統計学をもっと知りたいという意欲が湧いてきたら、その勢いのままにそちらもチェックしてみてください!
文=宮田文机
ペンシルからのプッシュ通知を設定しておくと、新着記事のお知らせなどをブラウザ上で受信できて便利です。
通知を受信しますか?
本日のテーマは「要するに、統計学って何?」ということ。まずは統計学が使われている分野として、以下の4つの例が紹介されました。
・メディア
・マーケティングリサーチ
・医学
・心理学
メディア×統計学の例としてスライドに表示されたのが「世論調査」。以下の折れ線グラフはNHKによる内閣支持率の調査結果を示しています。
つづいて話題はマーケティングリサーチへ。効果的な宣伝のために下図では、「Twitter・InstagramなどSNSのうち最も利用しているものは何ですか?」という調査の結果を回答者の年代と紐づけて表示しています。
このグラフを見ればある年代に訴求したい場合、どのSNSで働きかければ効果的だと考えられるのかが一目瞭然。例えばFacebookの場合、30代や40代に訴求したい商品がある場合にベターな選択肢だといえるでしょう。Twitterならば20代への訴求が期待できますね。ここではコレスポンデンス分析やクラスター分析といったデータの分析手法が用いられる傾向にあるということです。
次は医学と統計学。ここで示されているのは薬剤の効果を比較するために統計学が使われている例です。試験飲料とプラセボ飲料の改善度を比較することで、統計学的に意味のある差があるかを調べています。ここでは統計的仮設検定という分析手法が用いられる傾向にあります。
最後が心理学における統計学の活用例です。心理学では人々の行動における因果関係の模索や懸賞のために統計学が用いられます。下記のスライドでは、原因・結果を示す矢印によって「話しかけやすさ」「ナースコールの迅速さ」といった変数が看護師総合満足度に影響を与えるという仮説が示されており、統計学ではそれらの因果関係の検証が行えます。ここでは因子分析や構造方程式モデリングなどの分析手法が用いられる傾向があります。
リアルタイム受講生からは「心理学と統計学……まったく関連性がなさそうなものでも説明できるのですね」と感想が。高橋先生は心理学において統計学はかなり難しいことに用いられているとコメント。関連性がなさそうに見えて、その結びつきは我々が考えている以上に強いようです。
受講生代表の徳田さんからの質問は「たくさんのデータがあるほど統計学の正確性は上がるのでしょうか?」というもの。これには先生は「そうではないですね」と笑顔で返答します。このような統計学に関する誤解は高橋先生の講義を受けることでどんどん解かれていきます!