saitei.net

2018年センター試験数2B第5問「確率・統計」

2018年センター試験数2B第5問「確率・統計」

はじめに

2018年センター試験本試での数学2の選択問題第5問「確率・統計」を解説する。物議を呼んだ2017年の「確率・統計」と異なり,教育的な良問だ。信頼区間の幅の大小を比較させる問が工夫されている。

問題を見ていない人が大半であろうからまずは問題を見てもらおう。

2017年センター試験追試数学2B第5問「確率・統計」の問題

以下の問題を解答するにあたっては,必要に応じて29ページの正規分布表を用いてもよい。

(1) \(a\)を正の整数とする。2,4,6,・・・,\(2a\)の数字がそれぞれ一つずつ書かれた\(a\)枚のカードが箱に入っている。
この箱の中から1枚のカードを無作為に取り出すとき,そこに書かれた数字を表す確率変数を\(X\)とする。このとき,
\(X=2a\)となる確率は\(\displaystyle \frac{[ア]}{[イ]}\)である。

\(a=5\)とする。\(X\)の平均(期待値)は\([ウ]\),\(X\)の分散は\([エ]\)である。
また,\(s\),\(t\)は定数で\(s>0\)のとき,\(sX+t\)の平均が20,分散が32となるように\(s\),\(t\)を定めると,
\(s=[オ]\),\(t=[カ]\)である。このとき,\(sX+t\)が20以上である確率は\(0.[キ]\)である。

(2)  (1)の箱のカードの枚数\(a\)は3以上とする。この箱から3枚のカードを同時に取り出し,それらのカードを横1列に並べる。この試行において,カードの数字が左から小さい順に並んでいる事象を\(A\)とする。
このとき,事象\(A\)の起こる確率は\(\displaystyle \frac{[ク]}{[ケ]}\)である。

この試行を180回繰り返すとき,事象\(A\)が起こる回数を表す確率変数を\(Y\)とすると,\(Y\)の平均\(m\)は\([コサ]\),\(Y\)の分散\(\sigma^2\)は\([シス]\)である。ここで,事象\(A\)が18回以上36回以下起こる確率の近似値を次のように求めよう。

試行回数180は大きいことから,\(Y\)は近似的に平均\(m=[コサ]\),標準偏差\(\sigma =\sqrt{[シス]}\quad \)の正規分布に従うと考えられる。
ここで\(\displaystyle Z=\frac{Y-m}{\sigma}\)とおくと,求める確率の近似値は次のようになる。
\begin{align*}
& P(18 \leq Y \leq 36)\\
=& P(-[セ].[ソタ] \leq Z \leq [チ].[ツテ])\\
=& 0.[トナ]
\end{align*}

(3) ある都市での世論調査において,無作為に400人の有権者を選び,ある政策に対する賛否を調べたところ,320人が賛成であった。この政策の賛成者の母比率\(p\)に対する信頼度95%の信頼区間を求めたい。

この調査での賛成者の比率(以下,これを標本比率という)は\(\displaystyle 0.[ニ]\)である。標本の大きさが400と大きいので,二項分布の正規分布による近似を用いると,\(p\)に対する信頼度95%の信頼区間は
$$
0.[ヌネ]\leq p \leq 0.[ノハ]
$$
である。

母比率\(p\)に対する信頼区間\(A \leq p \leq B\)において,\(B-A\)を信頼区間の幅とよぶ。以下,\(R\)を標本比率とし,\(p\)に対する信頼度95%の信頼区間を考える。

上で求めた信頼区間の幅を\(L_1\),
標本の大きさが400の場合に\(R=0.6\)が得られたときの信頼区間の幅を\(L_2\),
標本の大きさが500の場合に\(R=0.8\)が得られたときの信頼区間の幅を\(L_3\)
とする。

このとき,\(L_1\),\(L_2\),\(L_3\)について\([ヒ]\)が成り立つ。\([ヒ]\)に当てはまるものを,次の【0】〜【5】のうちから一つ選べ。

\(【0】\quad L_1\) < \(L_2\) < \(L_3\)
\(【1】\quad L_1 < L_3 < L_2\)
\(【2】\quad L_2 < L_1 < L_3\)
\(【3】\quad L_2 < L_3 < L_1\)
\(【4】\quad L_3 < L_1 < L_2\)
\(【5】\quad L_3 < L_2 < L_1\)

p.29の正規分布表

解答と解説

以下,黄色い背景の部分が解答・解説です。

(1)基本的な確率/配点7点

(1) \(a\)を正の整数とする。2,4,6,・・・,\(2a\)の数字がそれぞれ一つずつ書かれた\(a\)枚のカードが箱に入っている。
この箱の中から1枚のカードを無作為に取り出すとき,そこに書かれた数字を表す確率変数を\(X\)とする。このとき,
\(X=2a\)となる確率は\(\displaystyle \frac{[ア]}{[イ]}\)である。

びっくりするほど簡単な確率。
\(a\)枚のカードの中から\(2a\)と書かれたカードを取り出す確率だから\(\displaystyle \frac{[1]}{[a]}\)

これで2点。

\(a=5\)とする。\(X\)の平均(期待値)は\([ウ]\),\(X\)の分散は\([エ]\)である。

平均と分散の定義を用いるだけの基本問題。

\(a=5\)であるから,カードに書かれている数字は
$$
X=2,4,6,8,10
$$

よって,\(X\)の平均は
$$
E(X)=\frac{2+4+6+8+10}5=[6]
$$

\(X\)の分散は
$$
V(X)=\frac{(2-6)^2 +(4-6)^2 +(6-6)^2 +(8-6)^2 +(10-6)^2}5=[8]
$$

各1点。センター試験はこういう問題から始まるべきだよな。

また,\(s\),\(t\)は定数で\(s>0\)のとき,\(sX+t\)の平均が20,分散が32となるように\(s\),\(t\)を定めると,
\(s=[オ]\),\(t=[カ]\)である。このとき,\(sX+t\)が20以上である確率は\(0.[キ]\)である。

センター試験の数I・数IA「データの分析」でもよく出題される「変数変換をしたときの平均と分散」がテーマだ。ただし,このテーマは数B「確率・統計」の範囲であり,数I・数IAで出すのは範囲外だ。困ったもんだ。

\(s\),\(t\)が定数のとき
$$
E(sX+t)=sE(X)+t,\quad V(sX+t)=s^2 V(X)
$$
となるのが基本公式だ。

したがって
$$
20=E(sX+t)=sE(X)+t= 6s +t
$$

$$
32=V(sX+t)=s^2 V(X)= 8s^2
$$

\(s>0\)より
$$
s=[2],\quad t=[8]
$$

あっという間に解けて各1点。

\(sX+t=2X+8\geq 20\)となるのは\(X\geq 6\)となるときであるから
$$
X=6,8,10
$$
のときである。この確率は\(\displaystyle \frac{3}{5}=0.[6]\)だ。これも瞬殺で2点。

(2)二項分布の基本問題/配点8点

(1)の箱のカードの枚数\(a\)は3以上とする。この箱から3枚のカードを同時に取り出し,それらのカードを横1列に並べる。この試行において,カードの数字が左から小さい順に並んでいる事象を\(A\)とする。
このとき,事象\(A\)の起こる確率は\(\displaystyle \frac{[ク]}{[ケ]}\)である。

取り出した2枚のカードの数字を「大」「中」「小」と表すと,この3枚の並び方は
大中小 大小中 中大小 中小大 小大中 小中大
の6通りあり,すべて同様に確からしいから「小中大」の順に並んでいる確率は
$$
\frac{[1]}{[6]}
$$

これで2点。

この試行を180回繰り返すとき,事象\(A\)が起こる回数を表す確率変数を\(Y\)とすると,\(Y\)の平均\(m\)は\([コサ]\),\(Y\)の分散\(\sigma^2\)は\([シス]\)である。

二項分布の基本的な問題だ。まずは二項分布について確認しておこう。

1回ごとに事象\(A\)が起きる確率が\(p\)であるという独立試行を\(n\)回行うとき,事象\(A\)が起きる回数を\(Y\)と表すとき,「\(Y\)は二項分布に従う」という。

このとき,\(Y\)の平均\(E(Y)\)と分散\(V(Y)\)は
$$
E(Y)=np,\quad V(Y)=np(1-p)
$$
になる・・・というのが基本公式だ。

本問は\(\displaystyle p=\frac16\),\(n=180\)の場合であるから
$$
m=E(Y)=180\cdot \frac16 =[30]
$$
$$
\sigma^2 =V(Y)=180\cdot \frac16 \cdot\frac 56 =[25]
$$

公式を当てはめるだけで各1点。

ここで,事象\(A\)が18回以上36回以下起こる確率の近似値を次のように求めよう。

試行回数180は大きいことから,\(Y\)は近似的に平均\(m=[コサ]\),標準偏差\(\sigma =\sqrt{[シス]}\quad \)の正規分布に従うと考えられる。

「事象\(A\)が18回以上36回以下起こる確率」は「反復試行の確率」の公式から
$$
\sum_{k=18}^{36} {}_{180}\mathrm{C}_{k}\left(\frac16\right)^k \left(\frac56\right)^{180-k}
$$
と表されるが,これを計算するのは大変だ。だから,正規分布を利用して正規分布表から近似値を求めよう・・・というのが問題の主旨だ。

どういう正規分布を考えればよいかというと,平均が\(m=30\),標準偏差が\(\sigma =\sqrt{\sigma^2}=\sqrt{25}=5\)だよ,と問題文が教えてくれているのだ。親切だなぁ。

ここで\(\displaystyle Z=\frac{Y-m}{\sigma}\)とおくと,求める確率の近似値は次のようになる。
\begin{align*}
& P(18 \leq Y \leq 36)\\
=& P(-[セ].[ソタ] \leq Z \leq [チ].[ツテ])\\
=& 0.[トナ]
\end{align*}

$$
Z=\frac{Y-m}{\sigma}=\frac{Y-30}{5}
$$
と置けというから置こう。
$$
18\leq Y \leq 36
$$
から
$$
\frac{18-30}5 \leq \frac{Y-30}5 \leq \frac{36-30}5
$$
つまり
$$
-[2].[40]\leq Z \leq [1].[20]
$$
これで2点。

この\(Z\)が標準正規分布に従うというのが,正規分布の基本だ。
$$
確率 P(-[2].[40]\leq Z \leq [1].[20])
$$
は次の図1の斜線部の面積だ。グラフはもちろん標準正規分布の分布曲線だ。

図1

これは次の図2と図3の斜線部の面積の和になる。

図2
図3

図2の斜線部の面積は正規分布表で\(z_0=2.40\)として次のようにして\(0.4918\)と分かる。

z0=2.40

図3の斜線部の面積は正規分布表で\(z_0=1.20\)として\(0.3849\)と分かる。

z0=1.20

以上より求める確率は
$$
0.4918+0.3849=0.8767=0.[88]
$$

これで2点。

(3)母比率の推定と信頼区間の幅/配点5点

(3) ある都市での世論調査において,無作為に400人の有権者を選び,ある政策に対する賛否を調べたところ,320人が賛成であった。この政策の賛成者の母比率\(p\)に対する信頼度95%の信頼区間を求めたい。

ここから標本比率\(R\)から母比率\(p\)を正規分布を利用して推定する問題になる。このテーマは昨年の追試と同じだ。

この調査での賛成者の比率(以下,これを標本比率という)は\(\displaystyle 0.[ニ]\)である。標本の大きさが400と大きいので,二項分布の正規分布による近似を用いると,\(p\)に対する信頼度95%の信頼区間は
$$
0.[ヌネ]\leq p \leq 0.[ノハ]
$$
である。

標本比率は
$$
\frac{320}{400}=0.[8]
$$
これで1点。

標本比率\(R\)は二項分布に従い,標本の大きさ(この場合は調査した人数)が400と大きいので,\(R\)は正規分布に従うとして良い。

さらに
$$
平均E(R) = (母比率p)
$$
であり,分散\(\sigma^2\)については調査で求めた\(R\)の値\(r\)(この場合は0.8)を用いて
$$
\sigma^2 = \frac{r(1-r)}{(標本の大きさ)} \qquad \cdots (☆)
$$
と近似してよく,
$$
\sigma^2= \frac{0.8(1-0.8)}{400}=\frac{0.16}{400}
$$
標準偏差は
$$
\sigma = \sqrt{\sigma^2}=\sqrt{\frac{0.16}{400}}= \frac{0.4}{20}=0.02
$$
となる。

以上から
$$
z=\frac{R-p}{0.02}
$$
とおくと\(z\)は標準正規分布に従う。

「\(p\)に対する信頼度95%の信頼区間」を求めるには
\[
P(-z_0\leq z \leq z_0)=0.95 \quad (=95%)
\]
となる\(z_0\)を正規分布表から求める・・・というおなじみの作業を行う。

\[
2P(0\leq z \leq z_0)=P(-z_0\leq z \leq z_0)=0.95
\]
より
\[
P(0\leq z \leq z_0)=0.475
\]

「29ページの正規分布表」から次の図のようにして
\[
z_0= 1.96
\]
となる。

確率が0.475となるz0

つまり
$$
-1.96\leq z=\frac{R-p}{0.02} \leq 1.96
$$
となる確率が95%であるとわかった。本問では調査の結果が\(R=0.8\)であったから,代入して変形すると
$$
0.8-1.96\cdot 0.02 \leq p \leq 0.8 +1.96 \cdot 0.02
$$
$$
0.7608 \leq p \leq 0.8392
$$
よって,「\(p\)に対する信頼度95%の信頼区間」は
$$
0.[76]\leq p \leq 0.[88]
$$

これで2点。定番の作業だ。

母比率\(p\)に対する信頼区間\(A \leq p \leq B\)において,\(B-A\)を信頼区間の幅とよぶ。以下,\(R\)を標本比率とし,\(p\)に対する信頼度95%の信頼区間を考える。

上で求めた信頼区間の幅を\(L_1\),
標本の大きさが400の場合に\(R=0.6\)が得られたときの信頼区間の幅を\(L_2\),
標本の大きさが500の場合に\(R=0.8\)が得られたときの信頼区間の幅を\(L_3\)
とする。

このとき,\(L_1\),\(L_2\),\(L_3\)について\([ヒ]\)が成り立つ。\([ヒ]\)に当てはまるものを,次の【0】〜【5】のうちから一つ選べ。

\(【0】\quad L_1\) < \(L_2\) < \(L_3\)
\(【1】\quad L_1 < L_3 < L_2\)
\(【2】\quad L_2 < L_1 < L_3\)
\(【3】\quad L_2 < L_3 < L_1\)
\(【4】\quad L_3 < L_1 < L_2\)
\(【5】\quad L_3 < L_2 < L_1\)

センター試験ではおなじみになった「信頼区間の幅の大小」を問う問題だ。上で求めた信頼区間を計算ミスしていても,理屈がわかっていればあっという間に解けるお得な問題だ。

信頼区間の求め方から,同じ信頼度(この場合は95%)で考えている場合は「標準偏差の大きさと,信頼区間の幅は比例する」と容易に分かる。

つまり,標準偏差が大きいほど信頼区間の幅も大きい。これが重要。わざわざ信頼区間を求めなくても,標準偏差の大小を考えれば良いということだ。

(☆)から標準偏差は
$$
\sigma =\sqrt{\frac{R(1-R)}{(標本の大きさ)}}
$$
である。

(3)の前半での標準偏差を\(\sigma_1\)とすると
$$
\sigma_1=\sqrt{\frac{0.8\cdot 0.2}{400}}=\sqrt{\frac{0.16}{400}}
$$

標本の大きさが400の場合に\(R=0.6\)が得られたときの標準偏差を\(\sigma_2\)とすると
$$
\sigma_1=\sqrt{\frac{0.6\cdot 0.4}{400}}=\sqrt{\frac{0.24}{400}}> \sigma_1
$$

標本の大きさが500の場合に\(R=0.8\)が得られたときの標準偏差を\(\sigma_3\)とすると
$$
\sigma_3=\sqrt{\frac{0.8\cdot 0.2}{500}}=\sqrt{\frac{0.16}{500}}< \sigma_1
$$

したがって\(\sigma_3 < \sigma_1 < \sigma_2\)となるから
$$
L_3 < L_1 < L_2
$$

つまり,選択肢は【4】である。これで2点。

終わりに

センター試験らしい標準的な良い問題だよね。最後の信頼区間の大小は統計の感覚が身に付くから,問題集を大改訂するときには扱おうと思う。

第3問数列,第4問ベクトルに比べてこれが一番簡単だと思う。特に最後の設問の計算量は断然少ない。

この記事は参考になりましたか?

0
コメント2件
URL :
TRACKBACK URL :

Comments & Trackbacks

  • コメント ( 2 )
  • トラックバック ( 0 )
  1. 改訂を心待ちにしております。「バームクーヘン積分」について知りたくて、
    初めてパソコンにソフトを入れて、ダウンロードで本を買ったのですが、
    残念でした。

    • ukokouさん,こんにちは。
      担当している予備校生たちが今が山場なので,正規の仕事以外のことをする時間がありません。
      申し訳ないですが,あてにしないでお待ち下さい。

      「バームクーヘン公式」と呼ばれるものについては,
      「細長い長方形を回転させて・・・」
      というようなよくある解説は証明になっていないことに気をつけて下さい。

      普通に\(y\)軸まわりの回転体の体積を表す積分の式を作って,\(\displaystyle dy= \frac{dy}{dx}dx\)により置換積分して部分積分をすれば,バームクーヘン公式が導かれます。バームクーヘン公式はこの手間を省略出来ると言うことだけがメリットです。

Leave a reply

*
*
* (公開されません)

CAPTCHA


Return Top