saitei.net

2018年センター追試2B第5問「確率・統計」も指導要領の範囲外

2018年センター追試2B第5問「確率・統計」も指導要領の範囲外

はじめに

2018年センター試験追試での数学2Bの選択問題第5問「確率・統計」を解説する。本試と違うテーマで本試より少し難しいという,追試にありがちな作り方になっている。うまいなぁ。

ただし,指導要領の範囲外の内容が扱われている部分がある。追試なら仕方ないかもしれないし,受験生は気にしなかっただろうが,模試でこんなの出したら苦情殺到でやばい。大学入試センターはやり放題でうらやましい。

問題を見ていない人が大半であろうからまずは問題を見てもらおう。

2018年センター試験追試数学2B第5問「確率・統計」の問題

以下の問題を解答するにあたっては,必要に応じて29ページの正規分布表を用いてもよい。

ある菓子工場で製造している菓子1個あたりの重さ(単位はg)を表す確率変数を\(X\)とし,\(X\)は平均\(m\),標準偏差\(\sigma\)の正規分布\(N(m,\sigma)\)に従っているとする。

(1) 平均\(m\)が\(50.2\)で,標準偏差\(\sigma\)が\(0.4\)のとき,この菓子工場で製造される菓子1個あたりの重さが\(50\)g未満となる確率は,\(\displaystyle Z=\frac{X-m}{\sigma}\)が標準正規分布に従うので
$$
P(X< 50)= P(Z < [ア]. [イ])=0.[ウエ]
$$
である。

(2) 標準偏差\(\sigma\)が0.4のとき,製造される菓子1個あたりの重さが50g未満となる確率が0.04となるように\(m\)の値を定めることを考える。まず,標準正規分布に従う確率変数\(Z\)について,\(P(Z < z)\)が最も0.04に近い値をとる\(z\)を正規分布表から求めると\(P(Z< -[オ].[カキ])=0.0401\)であることがわかり,\(z=-[オ].[カキ]\)となる。よって
$$
P(Z < -[オ].[カキ])=P(X<50)
$$
と考えることにより,\(m\)を[クケ].[コ]とすればよい。

(3) この菓子工場では,製造された菓子を無作為に9個選び箱に詰めて1個の商品としている。9個の菓子の重さ(単位はg)を表す確率変数を\(X_1\),\(X_2\),\(\cdots\),\(X_9\)とし,平均\(m\)は50.2,標準偏差\(\sigma\)は0.4,また箱の重さはすべて同じで80gとする。商品1個当たりの重さ(単位はg)を表す確率変数を\(Y\)とすると,\(Y\)の平均は[サシス].[セ],\(Y\)の標準偏差は[ソ].[タ]である。

\(X_1\),\(X_2\),\(\cdots\),\(X_9\)の標本平均\(\bar{X}\)が50未満である確率を求めよう。標本平均の分布が正規分布であることを利用すると,\(\bar X\)の標準偏差が\(\displaystyle \frac{0.4}{[チ]}\)であるので,確率は0.[ツテ]となる。

(4) この菓子工場では,新しい機械を導入した。新しい機械については,標準偏差\(\sigma\)は0.2であるが,平均\(m\)はわかっていない。\(m\)を推定するために,この機械で100個の菓子を試験的に製造したところ,それらの菓子の重さの標本平均は50.10g であった。このとき,\(m\)に対する信頼度95%の信頼区間は
$$
50.[トナ] \leq m \leq 50.[ニヌ]
$$
となる。

平均\(m\)に対する信頼区間\(A\leq m \leq B\)において,\(B-A\)をこの信頼区間の幅とよぶ。信頼度と標準偏差\(\sigma\)は変わらないものとして,上で求めた信頼区間の幅を半分にするには標本の大きさを[ネ]にすればよい。[ネ]に当てはまるものを,次の【0】〜【5】のうちから一つ選べ。

\(【0】\ 25\)
\(【1】\ 50\)
\(【2】\ 150\)
\(【3】\ 200\)
\(【4】\ 300\)
\(【5】\ 400\)


(これがいつもの「p.29の正規分布表」)

解答と解説

以下,黄色い背景の部分が解答・解説です。

(1)正規分布表の基本的な使い方/配点4点

ある菓子工場で製造している菓子1個あたりの重さ(単位はg)を表す確率変数を\(X\)とし,\(X\)は平均\(m\),標準偏差\(\sigma\)の正規分布\(N(m,\sigma)\)に従っているとする。

(1) 平均\(m\)が\(50.2\)で,標準偏差\(\sigma\)が\(0.4\)のとき,この菓子工場で製造される菓子1個あたりの重さが\(50\)g未満となる確率は,\(\displaystyle Z=\frac{X-m}{\sigma}\)が標準正規分布に従うので
$$
P(X< 50)= P(Z < [ア]. [イ])=0.[ウエ]
$$
である。

正規分布表の基本的な使い方だ。\(\displaystyle Z= \frac{X-m}{\sigma}=\frac{X-50.2}{0.4}\)であるから
$$
X < 50 \iff Z< \frac{50-50.2}{0.4}= -[0].[5]
$$
となる。

この確率\(P(Z< -0.50)\)は,標準正規分布の次の図1の斜線部の面積で表される。こういう「左側の部分」をセンター試験で聞いたのは今回が初めてだ。

fig.1
図1

それは「\(y\)軸より右側の部分(図2の斜線部)の面積=0.5」から,図3の斜線部の面積を引いたものになる。

fig.2
図2
fig.3
図3

図3の斜線部の面積は「p.29の正規分布表」から次のようにして0.1950とわかる。

z=0.50
z=0.50

以上より
$$
P(X< -0.50)=0.5 – 0.1950=0.3050=0.[31]
$$

いきなり正規分布表を使わせることから始めるのは,追試特有の出題の仕方だ。本試では確率を求めさせることから始める。指導要領以外の出題をしてきたクソひどい2017年の本試でさえ,確率から始めていた。

だから,いかにも追試という感じの問題。

以上各2点。

(2)正規分布表の面白い使い方/配点4点

(2) 標準偏差\(\sigma\)が0.4のとき,製造される菓子1個あたりの重さが50g未満となる確率が0.04となるように\(m\)の値を定めることを考える。まず,標準正規分布に従う確率変数\(Z\)について,\(P(Z< z)\)が最も0.04に近い値をとる\(z\)を正規分布表から求めると\(P(Z< -[オ].[カキ])=0.0401\)であることがわかり,\(z=-[オ].[カキ]\)となる。

標準偏差と確率を与えて,そこから正規分布表を読ませようという面白い問題。こういう聞き方もあるのだなと感心した。

受験生は驚いたかも知れないが誘導に従えば大丈夫だ。

\(P(Z< z)\)が最も0.04に近い値をとるとき,0.04は0.5=「正規分布曲線で\(y\)軸より左側の面積」より小さいのだから,\(z\)はマイナスだ。次の図4の斜線部の面積が0.04なんだから「\(z< 0\)」は当たり前だ。

fig.4
図4

この\(z\)を求めるのは(1)の問題で使った方法が参考になる。つまり図4の斜線部の面積は,図2の斜線部の面積0.5から次の図5の斜線部の面積\(P(0< Z< -z)\)を引いたものである。

fig.5
図5

これが0.0401となるには
$$
0.5 – P(0< Z< -z) =0.0401
$$
$$
P(0< Z< -z) = 0.4599
$$

この\(-z\)は「p.29の正規分布表」から次のようにして

P=0.4599
P=0.4599

$$
-z= 1.75
$$
とわかり
$$
z=-[1].[75]
$$
である。

これで2点。

よって
$$
P(Z < -[オ].[カキ])=P(X<50)
$$
と考えることにより,\(m\)を[クケ].[コ]とすればよい。

この問では\(\sigma = 0.4\)であったから
$$
Z= \frac{X-m}{\sigma}= \frac{X-m}{0.4}
$$
である。
よって
\begin{align*}
& Z<-1.75\\
\iff & \frac{X-m}{0.4} <-1.75\\
\iff & X< m -0.7
\end{align*}

これが「\(X< 50\)」となるには
$$
m= [50].[7]
$$
とすればよい。これで2点。

この菓子工場の機械は菓子の重さをどれぐらいにするか設定しても,必ず同じ程度のばらつき(標準偏差\(\sigma =0.4\))で作ってしまう,というのだな。面白い。

(3)平均,分散,標準偏差の基本公式の問題/配点7点

(3) この菓子工場では,製造された菓子を無作為に9個選び箱に詰めて1個の商品としている。9個の菓子の重さ(単位はg)を表す確率変数を\(X_1\),\(X_2\),\(\cdots\),\(X_9\)とし,平均\(m\)は50.2,標準偏差\(\sigma\)は0.4,また箱の重さはすべて同じで80gとする。商品1個当たりの重さ(単位はg)を表す確率変数を\(Y\)とすると,\(Y\)の平均は[サシス].[セ],\(Y\)の標準偏差は[ソ].[タ]である。

平均,分散,標準偏差の基本公式を確認する問題だ。このテーマは数学B「確率・統計」の範囲なのだが数学I,数学I・A「データの分析」でも聞かれる(ひどいなぁ)から要注意。
$$
Y=X_1+X_2+\cdots +X_9 +80
$$
となるが,一般に確率変数\(x\)の平均を\(E(x)\)と表すことにすると
$$
E(x+y)=E(x)+E(y)
$$
が成り立つ。
したがって,\(Y\)の平均\(E(Y)\)は
\begin{align*}
E(Y)&= E(X_1 +X_2 +\cdots +X_9 +80)\\
&=E(X_1)+E(X_2)+\cdots +E(X_9)+E(80)
\end{align*}
となる。
$$
E(X_k)= m= 50.2 \quad (1\leq k \leq 9)
$$
$$
E(80)=80 \quad (定数80の平均は80だ)
$$
となるから
\begin{align*}
E(Y)&= 9\times 50.2 + 80 \\
&= [531].[8]
\end{align*}

これで2点。

\(Y\)の標準偏差を求めるには,まず\(Y\)の分散を考える。一般に確率変数\(x\)の分散を\(V(x)\)と表すと,独立な(互いに影響しないと言うこと)確率変数\(x\),\(y\)については
$$
V(x+y)=V(x)+V(y)
$$
が成り立つことを使おう。

\(X_1\)〜\(X_9\)は独立であるから(注.\(X_1\)の値がどうであろうが\(X_2\)などの値に影響しないでしょ),\(Y\)の分散は
\begin{align*}
V(Y)&= V(X_1 +X_2 +\cdots +X_9 +80)\\
&= V(X_1 +X_2 +\cdots +X_9)\\
&\quad (定数80を加えるのは分散に影響しないから,なくてよい)\\
&=V(X_1)+V(X_2)+\cdots +V(X_9)
\end{align*}

$$
V(X_k)= \sigma^2 = 0.4^2 \quad (1\leq k \leq 9)
$$
となるから
$$
V(Y)= 9\times 0.4^2
$$

よって,\(Y\)の標準偏差は
$$
\sqrt{V(Y)}= 3\times 0.4 = [1].[2]
$$

これで2点。

\(X_1\),\(X_2\),\(\cdots\),\(X_9\)の標本平均\(\bar{X}\)が50未満である確率を求めよう。標本平均の分布が正規分布であることを利用すると,

ここで「あれ?」と思った人はよく勉強しています。この部分は実は指導要領の範囲外。出題してはいけないはずのテーマだ。後で解説するのでとりあえず解こう。

\(X_1\),\(X_2\),\(\cdots\),\(X_9\)の標本平均\(\bar{X}\)が50未満である確率を求めよう。標本平均の分布が正規分布であることを利用すると,\(\bar X\)の標準偏差が\(\displaystyle \frac{0.4}{[チ]}\)であるので,確率は0.[ツテ]となる。

\(\bar{X}\)の平均\(E(\bar{X})\)と標準偏差\(\sqrt{V(\bar{X})}\)を求めよう。標本平均\(\bar{X}\)の平均は,母平均\(m= 50.2\)に等しいので
$$
E(\bar{X})=50.2
$$

$$
\bar{X}= \frac{X_1+X_2+\cdots +X_9}9=\frac{Y-80}9
$$
であり,一般に
$$
V(ax+b)= a^2 V(x)\quad (a,bは定数)
$$
が成り立つから
\begin{align*}
V(\bar{X})&= \frac{V(Y)}{9^2}\\
&= \frac{9\times 0.4^2}{9^2}\\
&=\frac{0.4^2}9
\end{align*}

したがって
$$
\sqrt{V(\bar{X})}= \frac{0.4}{[3]}
$$

これで1点。

正規分布表を使うために,いつものように
\begin{align*}
Z&= \frac{\bar{X}-(\bar{X}の平均)}{\bar{X}の標準偏差}\\
&= \frac{\bar{X}-50.2}{\frac{0.4}3}
\end{align*}
と置こう。

\begin{align*}
& \bar{X}< 50\\
\iff & Z<\frac{50 -50.2}{\frac{0.4}3}\\
\iff & Z< -1.5
\end{align*}

したがって
$$
P(\bar{X}< 50)= P(Z< -1.5)
$$
となる。これは次の図6の斜線部の面積である。

fig.6
図6

図6の斜線部の面積は,図2の斜線部の面積0.5から次の図7の斜線部の面積\(P(0< Z< 1.5)\)を引いたものである。

fig.7
図7

この面積は「p.29の正規分布表」から次のように0.4332と分かる。

z=1.500
z=1.500

以上より
$$
P(\bar{X}< 50)=0.5 -0.4332 = 0.0668 =0.[07]
$$

これで2点。

この部分が指導要領の範囲外

それでは先ほど述べた「指導要領の範囲外」と言うことを解説しよう。次の問題文だった。

\(X_1\),\(X_2\),\(\cdots\),\(X_9\)の標本平均\(\bar{X}\)が50未満である確率を求めよう。標本平均の分布が正規分布であることを利用すると,

「母集団がどんな分布をしていても,標本の大きさが十分大きければ,標本平均は正規分布に近似的に従う」という中心極限定理が統計の基本だ。
ところが本問では標本の大きさはわずか9個である。これでは標本が少なすぎて,標本平均\(\bar{X}\)が正規分布に従うとは言えないのではないか・・・というのが,ちゃんと勉強した受験生が抱く当然の疑問だろう。

この場合の「標本平均\(\bar X\)が正規分布に従う」(「近似的に従う」ではなく正確に従う!)を保証するのは,高校の範囲にある中心極限定理ではないのだ。

これは
「独立な確率変数\(x\)と\(y\)がどちらも正規分布に従うとき,\(x+y\)も正規分布に従う」
という正規分布の性質が根拠になっている。この性質は「正規分布が再生性をもつ」と呼ばれ,完全に高校数学の範囲外だ。

本問では

  • \(X_1\)〜\(X_9\)が正規分布に従う(と第5問の冒頭で宣言している)
  • \(X_1\)〜\(X_9\)は独立である(普通の標本調査では当然だ)

ということから,「正規分布の再生性」により\(X_1+X_2+\cdots +X_9\)が正規分布に従う。
よって,その定数倍である確率変数も正規分布に従うから
$$
\bar{X}=\frac{X_1+X_2+\cdots +X_9}9
$$
が正規分布に従うと分かるのだ。

高校の範囲外の内容を問題文に書くのは反則だろうが,大学入試センターはそれでもよいと思っているようなので,言われたことを鵜呑みにして解きましょう。

10分程度で解く問題で教科書にない内容を書くのは,おかしいとオレは思うよ。

2025年になると共通テストではほぼ全員が数学II・Bで確率統計(と数列)を選択するはずだ(数学Bの残りの単元は「数学と社会生活」)。そうなったら受験者数が膨大になるからこういうことはやめてくれるはず,と信じている。

(4)母平均の推定と信頼区間の幅/配点5点

(4) この菓子工場では,新しい機械を導入した。新しい機械については,標準偏差\(\sigma\)は0.2であるが,平均\(m\)はわかっていない。\(m\)を推定するために,この機械で100個の菓子を試験的に製造したところ,それらの菓子の重さの標本平均は50.10g であった。このとき,\(m\)に対する信頼度95%の信頼区間は
$$
50.[トナ] \leq m \leq 50.[ニヌ]
$$
となる。

「統計的な推測」の一番重要なテーマである「母平均の推測」だ。
菓子1個当たりの重さ\(X\)の平均が\(m\),標準偏差が\(\sigma =0.2\)であり,菓子100個の重さの平均\(\bar{X}\)については平均が\(m\),標準偏差が
$$
\frac{\sigma}{\sqrt{標本の大きさ}}=\frac{0.2}{\sqrt{100}}=0.02
$$
となる。そして100個は十分多いので,\(\bar{X}\)は正規分布に従うとしてよい。

したがって
$$
-1.96 \leq \frac{\bar{X}-m}{0.02}\leq 1.96
$$
となる確率が95%である。(正規分布表から1.96を読み取る作業は大丈夫だろう。)

\(\bar{X}= 50.10\)を代入して整理すると,
$$
50.[06]\leq m \leq 50.[14]
$$
となる。これが起きる確率が95%と言うことであり,\(m\)に対する信頼度95%の信頼区間である。これが各1点。

平均\(m\)に対する信頼区間\(A\leq m \leq B\)において,\(B-A\)をこの信頼区間の幅とよぶ。信頼度と標準偏差\(\sigma\)は変わらないものとして,上で求めた信頼区間の幅を半分にするには標本の大きさを[ネ]にすればよい。[ネ]に当てはまるものを,次の【0】〜【5】のうちから一つ選べ。

\(【0】\ 25\)
\(【1】\ 50\)
\(【2】\ 150\)
\(【3】\ 200\)
\(【4】\ 300\)
\(【5】\ 400\)

センター試験の確率統計で定番となった「信頼区間の幅の変化」がテーマだ。
信頼区間の求め方から,信頼度が同じ場合は「信頼区間の幅は,標本平均の標準偏差に比例する」と分かる。

したがって,信頼区間の幅を半分にしたければ標本平均の標準偏差を半分にすればよい。
$$
(標本平均の標準偏差)=\frac{母標準偏差}{\sqrt{標本の大きさ}}=\frac{\sigma}{\sqrt{標本の大きさ}}
$$
であるから,これを半分にするには
$$
\sqrt{標本の大きさ}を2倍
$$
すなわち「標本の大きさを4倍」にすればよい。

本問では元々の標本の大きさは100であったから,標本の大きさを400にすればよい。

よって,【ネ】に当てはまるのは【5】である。これで3点。

理屈がわかっていれば瞬殺できる。時間がなくて信頼区間自体は求めていなくても,ここだけ答えれば3点取れるのだ。おいしいねぇ。

終わりに

「正規分布が再生性を持つ」という高校数学の範囲外のことを使っているのはどうかとおもう。標本の大きさを9個ではなく100個にすれば,標本が十分大きいから高校数学の範囲に収まるし,問題としてもそれで同じテーマが聞ける。(\(\bar{X}<50\)の部分は適当な数値に変えればよい)

統計の問題作成チームは「高校の教科書の範囲を守る」という出題者として当然の規範を守る意識がないのは,絶対おかしい。「標本の大きさが9個?」で手が止まる受験生の方が大学の教官としては好ましいはずなのに,そういう子が不利になるぞ。いいのか?

センター試験の前身である共通一次試験が始まった理由の1つは「大学入試の難問奇問を廃す」だったはずだ。教科書の範囲は守れよ。

それを言っても直す気がないのが過去の例で分かるから,受験生を指導する側は対処するしかないと覚悟している。

この点以外はよい問題だと思う。これぐらいが一番難しいレベルではないかな。

2018年の本試が本来のレベルで,追試になるとこれぐらいの難しさになるよ,というのがセンター試験のあるべき難易度だと思う。

この記事は参考になりましたか?

0
コメント0件
URL :
TRACKBACK URL :

Leave a reply

*
*
* (公開されません)

CAPTCHA


Return Top