統計でなんとかしてゼロを扱う

統計のお話ですが、今日提出の宿題をやっていて思ったんですが、統計学ってデータに(とくにカテゴリーのデータに)1コでもゼロが入ってしまうとすごく苦しいものなんですね。だからすごく偏りやすいデータを扱うと、分析がかなり苦しくなります。
たとえば例題としては、えーっと、遺伝子組み替え食品を積極的に食事に取り入れたいですか?とかいう質問をしたとして答えを「はい」と「いいえ」にしたとして、まぁ日本だと普通に考えていいえのほうが圧倒的に多いと思うんですが、まあ極端な話、全体数を10人としたとして、10人が「いいえ」とこたえてだれも「はい」と答えなかった場合、それはもうほんとに困ったことになってしまうんです。


レポートの仕方としては、こういう場合は、%表示しかできない、というのが殆ど現実。100%でした、といって納得させるしかない。その他の統計処理はほぼ無理です。どうしてかというと、統計というのはあくまでもサンプルなので、たとえば100万人いる都市からランダムに100人を選んで同じ質問をして、その都市の人びとの代表になってもらう場合、100人が「いいえ」とこたえて誰も「はい」と言わなかったとき、統計の論理でいくと、100万人全員が「いいえ」と思っている、という結果を出すしかないですからね。そんなわけはない。そんな結論は書けない。
で、実際そういうときどうやって統計をやるのか、というのを勉強したわけです。ちょっと長いタイトルになりますが”Analysis when sampling zeros appear in contingency tables”というのがそのトピック。
どうするかというと、なんと!全てのデータに定数を加えるのです。乱暴なやり方ですねぇ。たとえば上の例なら、「はい」が0.025人、「いいえ」が100.025人、とか、「はい」が1人、「いいえ」が101人とか。なーんだ、と思われるかもしれませんが(私ももちろん授業中にな〜〜〜んだ、なにそれ?インチキじゃん、と思いました)、実は結構そんなことはないんです。先日私のデルちゃんに入れたばかりのSASという統計処理ソフトを使っていろんなコンスタントを加えてやってみたんですが、あまり小さすぎる数字を加えても結果はでないし、大きな数字を加えても結果はでない。全部で8通りのバリエーションでやってみたんですが、カウントに0.25から2くらいの間の数字を加えるのが一番すんなり行きそうなんです。面白いなぁ。
私はハンバーガーを作るときに温度計を使おうという、結構無茶なキャンペーンのプロジェクトをやっているので、「ハンバーガーを作るときに温度計を使いますか?」という答えがあまりにも明らかに偏ってしまう質問をするはずなので、こういう統計処理はかなり使えるのです。もう少し頑張って勉強しようと思います。

Leave a Reply

Your email address will not be published. Required fields are marked *