難しすぎる確率のクラス

今日、プロブレムセットの提出日だったんですけど、久しぶりに余裕のある提出でした。見直しまでしちゃったもんね(いつもしてないのがバレますね)。
前にも書きましたが、今2コ統計っていうか数学のクラスをとっていて、その2コがすっごく対照的なんですね。ひとつは、ANOVAっていう基本的な統計処理のやりかたを学ぶという感じのクラスなんですけど、見た目はモデリングが面倒なので(Fixed effectsとかRandom effectsとかtwo-factor factorialとかlatin squareとか、聞こえが難しそうなんです)おおっと思うんですが、やってることはすっごい簡単なんですね。
もうひとつは私が落ちこぼれている方で、逆に見た目は確率なので(色の違うボールを選ぶとか、コイントスとか)簡単にみえるんですけど実はそんなことはない(少なくとも私にとっては)クラスなんです。


今日も、ノーマリティーチェックといってやってたんですけど、データを統計処理するときには、そのデータが「ノーマルに」分布しているかどうかをチェックしなきゃいけないんですね。ほとんどすべての統計処理方法は、データの分布がノーマルであることを前提にしているからです。でなきゃ統計なんかやってられないですもんね。ここでノーマルに分布しているっていう意味が分からないかもしれないので説明すると、たとえばクラス50人くらいいて、身長を統計にとるとしますね。
一番低いひとがまぁ152センチくらいだったとして、一番高いひとが188センチくらいだったとして、それをグラフに低い順に左から描いていったときに、そのラインが、ベルシェイプ(山なり)になるのがノーマルな分布ってことです。
そのノーマルさ(ノーマリティ)をチェックする方法を、今日先生が説明していたんですけど、プロッティング(グラフ化)することによってチェックする方法として、QQ プロットという方法があるんですね。クアンタイルっていうんですけど、パーセンタイルを数値化したもの。パーセンタイルっていうのは、たとえば25thパーセンタイルっていえば全員のうちの下から数えて25パーセントが含まれる部分ですね。クアンタイルはそれを数値化したもの。グラフ化すると、パーセンタイルとあまり変わりません。
で、当然、たとえば50人のうち下から数えて10人が152センチから160センチくらいの間に入る、次の10人が160から165、その次が。。。とやっていくと、今度はそのグラフの形は右上がりの線グラフになるわけです。人数が蓄積されていくから。そして最後にそのグラフを見た時に、ほぼ直線になれば、そのデータはノーマルに分布されている、ということになります。クラスにバスケ選手とかが10人くらいいたら、最後に右がぐぐぐっと上がってしまうのでもはやノーマルな分布ではないというわけですね。
それを説明していたときに、まぁ単純なトピックなので、ふんふんと気楽に聞いていたんですが、後ろで数学専攻らしい学生が手を挙げて「Jave(先生の名前)、じゃあエクスポネンシャルディストリビューションのときはナチュラルログの数値でプロットするの?」と聞きました。エクスポネンシャルはいわゆるeのk乗っていうあれですね。もはやあたしは電卓でしか計算できませんが。で、それが移項されるとナチュラルログになるのは数Iの常識ですね。その分布のプロットがノーマルかどうかをチェックするだなんて。。。。あたしその時ぜんっぜん考えてませんでした。
そしたら周りからみるみる手があがり、じゃあエクスペクティッドバリューのスクエアのときはどうなるのか、とか
(注:E(X)というのとE(X^2)というのと[E(X)]^2というのは違うんです)
こみいった質問が出て、ノーマリティチェックのトピックで10分くらいみんなで熱く議論してました。結果的にはプロッティングには数値がストレッチされるだけで特に影響はないってことだったんですけど([E(X)]^2のときは影響あり)、私はねぇ。。。ノーマリティチェックなんて基本基本、と気楽にしていた自分にばかばかばかーー!と思いました。数学専攻の学生おそるべしです。
それに比べると、もうひとつのほうは、ちょっとおバカな生徒さんがいてくれて、その人がいつもおバカな質問で先生を困らせているので微笑ましいほどです。
この日記に毎学期、クラスのこと書いていますが、こういう記録って最近大事だなぁと思ったので書いてみました。前の学期とか微生物のラボにハマっていた自分がかいてあって、しかもそれを忘れかけている私を発見して、自省します。ほんとに。

Leave a Reply

Your email address will not be published. Required fields are marked *