% 基本事項I5.1.1:データの整理(One More)
(1)変量$\cdots$ある特性を数量的に表したもののこと. (2)データ$\cdots$調査や実験などから得られた変量の観測値や測定値をまとめたもののこと. (3)度数分布表$\cdots$データの区間を設定し,その区間に入るデータの値の個数を表したもののこと. (4)階級$\cdots$度数分布表で設定される区間のこと.区間の幅を階級の幅,階級の中央の値を階級値という. (5)度数$\cdots$各階級に含まれる値の個数のこと. (6)相対度数$\cdots$各階級における度数の全体に対する割合のこと. (7)累積度数$\cdots$各階級に対し,最初の階級からその階級までの度数を合計したもののこと. (8)累積相対度数$\cdots$最初の階級からその階級までの相対度数を合計したもののこと. (9)ヒストグラム 度数分布表をもとに,縦軸に度数をとり,各階級の度数を柱状のグラフで表したもののこと.
% 基本事項I5.1.2:データにおける代表値(One More)
(1)平均値$\cdots$変量$x$のとる値が$n$個で,その値が,$x_1,x_2, \ldots ,x_n$であるとき,それらの総和を$n$で割った値を平均値といい,$\overline{x}$で表す. $$\overline{x}=\frac{x_1+x_2+\cdots+x_n}{n}$$ (2)中央値(メジアン)$\cdots$変量$x$の$n$個の値を小さい方から順に並べたとき,中央に位置する値のこと. (3)最頻値(モード)$\cdots$データの値の中で,度数が最も大きい値のこと.
% 基本事項I5.1.3:四分位数(One More)
データを大きさの順に並べて,4等分に位置する3つの値のことを四分位数という. 第1四分位数$Q_1\cdots$最小値を含む$n$個のデータの中央値のこと. 第2四分位数$Q_2\cdots$中央値のこと. 第3四分位数$Q_3\cdots$最大値を含む$n$個のデータの中央値のこと. データの個数が偶数($2n$)個の場合 データの個数が奇数($2n+1$)個の場合
% 基本事項I5.1.4:箱ひげ図(One More)
(1)範囲$=$最大値$-$最小値 (2)四分位範囲$=$第3四分位数$-$第1四分位数 (3)四分位偏差$=$四分位範囲$\div 2$ (4)5数要約(最小値,第1四分位数,中央値,第3四分位数,最大値)を表すグラフを箱ひげ図という. (5)外れ値$\cdots$他の値から極端にかけ離れた値のこと.外れ値の目安は,第1四分位数から小さい方(または第3四分位数から大きい方)へ四分位範囲の$1.5$倍以上離れていることである.
% 基本事項I5.1.5:分散と標準偏差(One More)
変数$x$についてのデータの値が$n$個の値$x_1,x_2, \cdots, x_n$であり,$x_1,x_2, \cdots, x_n$の平均値を$\overline{x}$とする. (1)偏差$\cdots$各データの値から平均値を引いた値のこと. (2)偏差平方$\cdots$偏差を2乗した値のこと. (3)分散$s^2\cdots$偏差平方の平均値のこと. (4)標準偏差$s\cdots$分散の正の平方根のこと. (5)$$ \begin{array}{ll} \text { 分散 } &s^2=\frac{\left(x_1-\overline{x}\right)^2+\left(x_2-\overline{x}\right)^2+\cdots+\left(x_n-\overline{x}\right)^2}{n} \\ \text { 標準偏差 } &s=\sqrt{\frac{\left(x_1-\overline{x}\right)^2+\left(x_2-\overline{x}\right)^2+\cdots+\left(x_n-\overline{x}\right)^2}{n}} \end{array}$$ 分散は,$s^2=(x^2\text{の平均値})-(x\text{の平均値})^2$により求めることもできる.
% 基本事項I5.1.6:変量の変換(One More)
変量$x$のデータに基づき$y=ax+b$によって新たな変量$y$のデータが得られるとき,$x, y$のデータの平均値をそれぞれ$\overline{x},\overline{y}$,分散をそれぞれ${s_x}^2,{s_y}^2$,標準偏差をそれぞれ$s_x,s_y$とすると$$ \overline{y}=a\overline{x}+b,{s_y}^2=a^2 {s_x}^2,s_y=|a| s_x$$このように,関係式$y=ax+b$により変量$x$を別の変量$y$に変換することを,変量の変換という.
% 基本事項I5.1.7:データの相関(One More)
対応する2つの変量$x,y$があり,$x,y$はそれぞれ$n$個の値$x_1,x_2, \ldots, x_n$および$y_1,y_2, \ldots, y_n$をとり,その平均値をそれぞれ$\overline{x},\overline{y}$とする. (1)散布図$\cdots$平面上に,$(x_1,y_1),(x_2,y_2), \ldots ,(x_n,y_n)$を座標とする点をとった図のこと. (2)相関$\cdots$対応する2つの変量$x,y$の間において,一方が増加するときに他方も増加(または他方が減少)する傾向が見られる場合,この2つの変量$x,y$の間には正の相関関係(減少する場合は負の相関関係)があるという. 散布図において,データの分布が直線に近づくほど相関関係が強いといい,広く散らばるほど相関関係が弱いという. (3)共分散$\cdots$2つの変量$x,y$のそれぞれの偏差の積の平均値のこと.$$s_{x y}=\frac{1}{n}\left\{\left(x_1-\overline{x}\right)\left(y_1-\overline{y}\right)+\left(x_2-\overline{x}\right)\left(y_2-\overline{y}\right)+\cdots+\left(x_n-\overline{x}\right)\left(y_n-\overline{y}\right)\right\}$$(4)相関係数$\cdots$共分散を2つの変量$x$と$y$の標準偏差で割った値のこと.$$\begin{aligned} {r} & {=\frac{s_{x y}}{s_x s_y}} \\ & {=\frac{\frac{1}{n}\left\{\left(x_1-\overline{x}\right)\left(y_1-\overline{y}\right)+\cdots+\left(x_n-\overline{x}\right)\left(y_n-\overline{y}\right)\right\}}{\sqrt{\frac{1}{n}\left\{\left(x_1-\overline{x}\right)^2+\cdots+\left(x_n-\overline{x}\right)^2\right\}} \sqrt{\frac{1}{n}\left\{\left(y_1-\overline{y}\right)^2+\cdots+\left(y_n-\overline{y}\right)^2\right\}}}} \\ & {=\frac{\left(x_1-\overline{x}\right)\left(y_1-\overline{y}\right)+\cdots+\left(x_n-\overline{x}\right)\left(y_n-\overline{y}\right)}{\sqrt{\left\{\left(x_1-\overline{x}\right)^2+\cdots+\left(x_n-\overline{x}\right)^2\right\}\left\{\left(y_1-\overline{y}\right)^2+\cdots+\left(y_n-\overline{y}\right)^2\right\}}}}\end{aligned}$$相関係数$r$は常に$-1 \leqq r \leqq 1$を満たし,正の相関関係が強いほど相関係数は$1$に近づき,負の相関関係が強いほど相関係数は$-1$に近づく.
% 基本事項I5.1.8:相関関係と因果関係(One More)
ある調査で,子供の読書時間と学業成績の間に正の相関関係(相関係数0.85)が見られたとする.この2つのデータの間には正の相関関係が認められる.しかし,読書が直接成績を向上させるのか,または成績が良い子供が読書を好むのかは明確ではない.親の教育レベルや家庭の教育環境など,他の要因も影響しているかもしれない. 一方が原因となりもう一方が結果となるような関係を因果関係という.一般に,上の例からもわかるように,2つのデータの間に相関があるからといって,必ずしも因果関係があるとはいえない.
% 基本事項I5.1.9:仮説検定(One More)
(1)仮説検定の考え方 得られたデータをもとにして母集団に対する仮説を立て,それが正しいかどうかを判断する統計的手法を仮説検定という. (2)仮説検定の手順 ある主張が正しいかどうか判断するための仮説検定は,次のような手順で行う. [1]正しいかどうか判断したい主張に対し,その主張に反する仮説を立てる. [2]立てた仮説のもとで,得られたデータがどの程度の確率で起こるかを求める. [3]仮説が正しいかどうかをもとに,主張が正しいかどうかを判断する.
% 基本事項I5.1.10:統計的探求プロセス(One More)
実社会では,多様な社会問題に応じて,統計的手法を用いた問題解決が行われている.そのときには,次のような統計的探求プロセスを考えることが大切である. [1]問題の発見$\cdots$解決が必要な事項を明確にし,統計で扱える問題を設定する. [2]調査の計画$\cdots$設定された問題に対して,集めるべきデータとその集める方法を考える. [3]データの収集$\cdots$計画に従いデータを集め,表やグラフなどに整理する. [4]分析$\cdots$目的やデータの種類に応じてグラフにまとめたり,データに関する数値を計算したりして,特徴や傾向を把握する. [5]結論$\cdots$見出した特徴や傾向から結論をまとめ,さらなる課題や改善点を見いだす.