統計@関数および統計用語理解のために 【データの種類】 ◎定量(量)的データ 計数値・・・・離散データ( 0 または正の整数。個数など ) 計量値・・・・連続データ( 測って得られるデータ。重量など ) 間隔尺度・・順序の差に等価性があるが、四則演算に意味がない。 例)温度 30°Cと20°Cを足しても50°Cにはならない。(25°C) 比例尺度・・差の等価性があり、かつ四則演算に意味がある。 例)重さ 30g + 20g = 50g ◎定性(質)的データ・・コード化することにより数字に置き換える(カテゴリー化) 名義尺度・・単なるコード。 例)男 = 1、女 = 2 順序尺度・・順序に意味がある。 例)可 = 1、良 = 2、優 = 3 【データ要約の基本的手法】 全体の傾向を把握し、異常値をチェックする。 ◎質的データ 頻度 構成比率(クロス集計) ◎量的データ データ群の中心位置 平均値( mean ) 中央値( median ) 最頻値( mode ) データ群のばらつき 偏差・・・・・・・・・・・・・・平均値からの距離( 総計は 0 ) 偏差平方和・・・・・・・・偏差の2乗の和 _ 分散 ( V )・・・・・・・・偏差平方和 / n Σ( X - X )^2 / n _ 2乗の平均 - 平均の2乗 (ΣX^2)/n - X^2 不偏分散 ( S*S )・・偏差平方和 / ( n-1 ) 標準偏差 (σ) ・・・・分散の平方根 データ群の範囲 レンジ・・・・・・・・・・・・最大値 - 最小値 データの標準化 Z スコア・・・・・・・・・・偏差 / 標準偏差 個々のデータが平均値からどれくらいはなれているかを、 標準偏差( σ )を尺度としてあらわす。 ここでの標準偏差は不偏分散の平方根ではなく通常の分散 (偏差平方和 / n)の平方根を使う。 偏差値・・・・・・・・・・・・( Zスコア * 10 ) + 50 【データ解析の手法】 連続量・・正規分布に従う。 離散量・・二項分布もしくはポアソン分布に従う。 ◎仮説の発見(探索的データ解析) 記述統計・・・・幹葉表示 五数要約 箱ひげ図 ◎仮説の検証(確証的データ解析) 統計的推測(推定)・・相関分析、回帰分析 実験計画法 分散分析 直交配列 直交多項式 多変量解析 重回帰分析 判別分析 主成分分析 因子分析 正準相関分析 数量化(I類、II類、III類、IV類) クラスター分析 多次元尺度法(MDS) 【統計的関係の分析】 相関分析・・・・(量 x 量) 判別分析・・・・(量 x 質) クロス集計・・(質 x 質) 【Quattro Pro for Windows 1.02J による統計量の計算】 データの個数 n ・・ @COUNT(セル範囲) 総計 Σ ・・ @SUM(セル範囲) _ 平均 X ・・ @AVG(セル範囲) 最大値 ・・ @MAX(セル範囲) 最小値 ・・ @MIN(セル範囲) 偏差平方和 ・・ @SUM((データ値 - 平均値)^2) 分散 V ・・ @VAR(セル範囲) 偏差平方和 / @COUNT(セル範囲) に等しい※1 不偏分散 S*S ・・ @VARS(セル範囲)※1 @(COUNT / (@COUNT(セル範囲) -1 ) * @VAR(セル範囲) に等しい 標準偏差 σ ・・ @STD(セル範囲) @SQRT(@VAR(セル範囲) 不偏標準偏差 S ・・ @STDS(セル範囲)※1 @SQRT(@(COUNT / (@COUNT(セル範囲) -1 ) * @VAR(セル範囲)) に等しい 順位 ・・ @RANK(対象セル,セル範囲,0) |-> 昇順なら 1 頻度 ・・ 階級範囲にあてはまるデータ数を @COUNT 「データ|度数分布」コマンドを実行すると得られる このデータをグラフ化したものがヒストグラム 範囲 ・・ @MAX - @MIN ※1 Excel では VAR関数および STDEV関数は、それぞれ、データを母集団から抽出し た標本としてとらえ、母集団の推定値として計算する仕様であるため、1-2-3 と 等価な関数は、データ群そのものの分散ならびに標準偏差を求める関数は VARP および STDEVP となる。 また、QPW の @VARS は Excel の VARPと、@STDS は STDEVP にそれぞれ等しい。 五数要約(データ群を四等分したときのそれぞれのポイントを表す数) 最小値 ・・ @MIN(セル範囲) 下側 25% 点 ・・ @INT(1+(n-1)*1/4) 番目のデータと @ROUND((1+(n-1)*1/4)+0.5, 0)番目のデータの平均値 |->小数点以下の桁数 中央値(median) ・・ @INT(1+(n-1)*2/4) 番目のデータと @ROUND((1+(n-1)*2/4)+0.5, 0)番目のデータの平均値 Excel の場合は MEDIAN(セル範囲) 上側 25% 点 ・・ @INT(1+(n-1)*3/4) 番目のデータと @ROUND((1+(n-1)*3/4)+0.5, 0)番目のデータの平均値 最大値 ・・ @MAX(セル範囲) 4分位差 ・・ 上側 25%点 - 下側 25%点 外れ値 ・・ 平均値から標準偏差の k 倍以上離れているデータを外れ値 とみなす( k = 2, 2.5 ,3 ) 【自由度】 10 個の標本の平均値をMとすると、各々の標本の値 X と平均値Mとの距離(偏差) の合計は 0 となる。 また、平均値Mは直線上に散らばった 10 個の標本との偏差の2乗の合計(=偏差平 方和)が最も小さくなるような点となる。 そこで、この直線上に標本の値をランダムにプロットしようとすると、9 個目までは 自由にプロットできるが、10 個目の標本の位置(逆の見方をすれば 10個目の偏差) は平均値Mとの偏差の合計が 0 になるという制約から、計算上自動的に決定されて しまう。 このように、平均値がわかっているときに自由な値を持ちうる標本(変数)の数、別 の言い方をすれば自由な値を持ちうる偏差のことを「自由度」という概念で表わす。 つまり、n 個の標本に対しての自由度は n-1 となる。 上記の例は直線上にプロットされた標本であったが、これが平面上にプロットされた 場合を考えてみる。 10 個の標本の値はそれぞれ(X,Y)という座標で表現され、こうした標本の座標関係 の「平均値」が「回帰直線(Y = a + bX)」ということになる。 また各々の標本は回帰直線からの偏差(回帰分析では残差とよぶ)e を含んでいるの で Y = a + bX + e と表すことができる。 そしてこの直線と標本との残差の合計は 0 となる。 また、この回帰直線は X の平均値MX と Y の平均値MY を座標としてもつ点(MX, MY)を必ず通る。 そこで、この平面上に標本の値をランダムにプロットしようとすると、9 個目までは 自由にプロットできるが、10 個目の標本の位置は平均値Mxと平均値Myを座標とす る点に計算上自動的に決定され、なおかつY軸上の切片も固定されてしまう。 したがって、回帰分析においては一般に、 自由度 = 標本数 - 独立変数の数 - 1 となる。 また、回帰直線が Y = bX のときは平均値Mxと平均値Myを座標とする点だけが固定 されるため 自由度 = 標本数 - 独立変数の数 となる。 【統計的推定】 標本数・・・・・・ n _ 標本平均・・・・ X 母平均・・・・・・・・μ(ミュー) 標本分散・・・・ V 母分散・・・・・・・・σ^2 不偏分散・・・・ S*S 母標準偏差・・・・σ(シグマ) ◎標本平均から母平均を区間推定する。 ~~~~~~~~ 1:母集団が正規分布で母標準偏差が既知の場合 _ _ X - 1.95996(σ/ @SQRT(n)) < μ < X + 1.95996(σ/ @SQRT(n)) ( 95% ) 1.64485 ( 90% ) 2:母集団の分布が任意で母標準偏差が未知、n >= 30 の場合 _ _ X - 1.95996( S / @SQRT(n)) < μ < X + 1.95996( S / @SQRT(n)) 3:母集団が正規分布で母標準偏差が未知、 n < 30 の場合 _ _ X - t0( S / @SQRT(n)) < μ < X + t0( S / @SQRT(n)) t0・・ t値表で、自由度(n-1)と適用する信頼水準の交差するポイントの値 【統計的検定】 ◎2つの母平均の違いの検定 「対応がない」・・各々独立した2グループのデータ 「対応がある」・・1グループに対して2つの方法で測定して得られた2組のデータ 元は同じサンプル 1:対応がない場合の検定手順 1、仮説をたてる・・ H0 : 2グループの母平均は等しい (帰無仮説) H1 : 2グループの母平均は等しくない(対立仮説) _ 2、2グループ各々の平均値( X )と分散( V )、不偏分散( S*S )を算出 3、平均値の差を算出 4、検定統計量( t0 )を算出 ・母分散が等しいと仮定した場合の検定 ( Student の t 検定 ) 自由度 = 第1グループの標本数 + 第2グループの標本数 - 2 _ _ _ _ _ _ t0 = @ABS(X1-X2)/@SQRT((1/X1+1/X2)*((X1*V1)+(X2*V2))/自由度) |->絶対値 |->分散1|->分散2 ・母分散が等しくないと仮定した場合の検定 (Welch の t 検定 ) 自由度 = @INT( @INT( (S1*S1/n1)+(S2*S2/n2) )^2 / ( (S1*S1/n1)^2/(n1-1) + [不偏分散1] (S2*S2/n2)^2/(n2-1) ) ) [不偏分散2] _ _ _ _ t0 = @ABS(X1-X2)/@SQRT((S1*S1/X1+S2*S2/X2) 5、t0 と t分布表の 5% or 1% 点の値を比較する |-> 有意水準 6、t0 > t( 1% or 5% )ならば有意 つまり2グループの母平均は等しくなく、その差に意味がある t0 < t( 1% or 5% )ならば2グループの母平均の差は、誤差の範囲である 2:対応がある場合の検定手順 1、検定統計量( t0 )を算出 t0 = @AVG(測定値1 - 測定値2) / @SQRT( ( @SUM(測定値^2) - ( @SUM(測定値)^2 )/n ) / n*(n-1) ) 2、t0 と t分布表の 5% or 1% 点の値を比較する |->有意水準 3、t0 > t( 1% or 5% )ならば有意 つまり2グループの母平均は等しくなく、その差に意味がある t0 < t( 1% or 5% )ならば2グループの母平均の差は、誤差の範囲である 【相関分析】 量的データ同士の関係を調べる 相関係数 ( r ) = ( X と Y の共分散 ) / ( X の標準偏差 ) * ( Y の標準偏差 ) _ _ = (@SUM((Xi-X)*(Yi-Y))/n) / @STD(X)*@STD(Y) = (@SUM((Xi-X)*(Yi-Y))/n) / (@SQRT(@VAR(X)*@VAR(Y)) 決定係数[寄与率] ( r*r ) 自由度 = (X の個数 + Y の個数) - 2 ※「ツール|各種計算|回帰分析」コマンドを実行することで分析結果が得られる。 Excel の場合は LINEST 関数を「補正 TRUE」で使用すれば必要な係数が得られる。 ◎相関係数の検定 r 表を利用する方法 r 表で、自由度( n - 2 )と適用する有意水準が交差する点から得られた値と 計算結果を比較し、表の値より大きければ相関ありと判断する 計算による検定 t0 = r * @SQRT( (n-2)/(1-r*r) ) t0 を、自由度(n - 2)・有意水準(5% or 1%)の t 表値と比較し、表の値よ り大きければ相関ありと判断する 【順位相関分析】 順位として与えられたデータの相関関係を調べる ◎スピアマン順位相関係数 順位相関係数 r = 1 - ( 6 * @SUM( (X-Y)^2 ) / n(n*n -1) ) 自由度 FD = n - 2 t 値 t0 = (r * @SQRT(n-2)) / @SQRT(1-r*r) t0 を、自由度(n - 2)・有意水準(5% or 1%)の t 表値と比較し、表の値よ り大きければ相関ありと判断する ◎ケンドール順位相関係数 ex) | X | Y -----+------+------ 項目1| 4 | 5 項目2| 3 | 1 項目3| 5 | 2 表の値は X および Y の順位 項目4| 1 | 3 項目5| 2 | 4 | X | Y | 得点 -------------+--------+-------+------ 項目1 & 項目2| (4,3) | (5,1) | 1 項目1 & 項目3| (4,5) | (5,2) | -1 ・ | ・ | ・ | ・ ・ | ・ | ・ | ・ ・ | ・ | ・ | ・ 項目4 & 項目5| (1,2) | (3,4) | 1 X および Y について項目ごとの順位の組み合わせをつけ、2項目の順位 の大小関係が同じならば +1 逆ならば -1 を得点とする。 順位相関係数 r = @SUM(得点) / ( n(n-1)/2 ) 自由度 FD = n - 2 t 値 t0 = (r * @SQRT(n-2)) / @SQRT(1-r*r) t0 を、自由度(n - 2)・有意水準(5% or 1%)の t 表値と比較し、表の値よ り大きければ相関ありと判断する 【クロス集計(分割)表分析】 質的データ同士の関係を調べる 独立性の検定 ◎χ(カイ)2乗統計量の計算 項目 A のアイテム | A1 | A2 | ・・・ | An | ----+-------+-------+-------+-------+------- B1 | | | | |行合計1 B2 | | | | |行合計1 項目B の | | | | | アイテム ・ | | | | | ・ ・ | | | | | ・ ・ | | | | | ・ | | | | | Bm | | | | |行合計m ----+-------+-------+-------+-------+------- |列合計1|列合計2| ・・・ |列合計n|総合計 χ(カイ)2乗統計量 = @SUM( ((行合計i * 列合計j / 総合計) - データij)^2 / (行合計i * 列合計j / 総合計) ) 自由度 = (m-1) * (n-1) ◎χ(カイ)2乗統計量と、χ2乗分布の自由度( (m-1)*(n-1) )での %点の値を比 較し、χ(カイ)2乗統計量が大きければこれらのデータは関係がある(独立性が ない)と判断する 【時系列分析】 ◎指数曲線 Y = a*b^T logY = loga + T*logb Y = a + b*T についての最小2乗法 ◎修正指数曲線 Y = k - a*b^T a>0, 00 еは自然対数の底(2.7182818...) 1 + a*е^(-b*T) ◎ゴンペルツ曲線 Y = k*exp( -a*е^(-b*T) ) logY = logk - a*е^(-bT) Y = k - a*b^T ◎単純移動平均 与えられた n期分のデータを i個ずつ連続して取り出し、その平均値をもとに 傾向線を描く ex)3項移動平均 t1 t2 t3 T4 t5 tn-4 tn-3 tn-2 tn-1 tn ~~~~|~~~~~ ~~~~~~|~~~~~~~~~ |~~~~|~~~~~ |~~~~~~|~~~~~~~~ | |~~~~|~~~~ | |~~~~~|~~~~~~~ | | |->(t3+t4+t5)/3 | | |->(tn-2 + tn-1 + tn)/3 | |->(t2+t3+t4)/3 | |->(tn-3 + tn-2 + tn-1)/3 |->(t1+t2+t3)/3 |->(tn-4 + tn-3 + tn-2)/3 求まる移動平均値の個数は n-(i-1)個となる ◎反復移動平均 単純移動平均で得られたデータをさらに移動平均する ex)3項反復移動平均 t1 t2 t3 T4 t5 ~~~~|~~~~~ |~~~~|~~~~~ | |~~~~|~~~~ | | |->(t3+t4+t5)/3 | |->(t2+t3+t4)/3 |->(t1+t2+t3)/3 ~~~~~~~~|~~~~~~~~~~~~~~ |->( (t1+t2+t3)/3 + (t2+t3+t4)/3 + (t3+t4+t5)/3 )/3 = (t1 + 2*t2 + 3*t3 + 2*t4 + t5)/9 ~ ~ ~ 重み 1期 (3*t1 + 2*t2 + t3)/6 2期 (2*t1 + 3*t2 + 2*t3 + t4)/8 3期 (t1 + 2*t2 + 3*t3 + 2*t4 + t5)/9 t-2期 ( (ti-4) + 2*(ti-3) + 3*(ti-2) + 2*(ti-1) + ti )/9 t-1期 ( (ti-3) + 2*(ti-2) + 3*(ti-1) + 2*ti )/8 t期 ( (ti-2) + 2*(ti-1) + 3*ti )/6 ・単純移動平均法による両端の欠項を補う ・当期の重みが最大である「加重平均」となるため、変動が激しい時系列データ には適している ◎指数平滑法 ◎対移動平均法による季節変動指数 ◎連環比率法による季節変動指数 これらXYの両軸によって与えられる平面上に分布するサンプルに関する、傾向線 のあてはめによる分析手法のうち、 移動平均 回帰直線 指数曲線 3つは、Quattro Pro for DOS 5.0J では「Gグラフ|S系列|A分析」コマンドを用いて XYグラフ(散布図)上に容易に表現することができる。 また、傾向線を描くために計算された値は「Gグラフ|S系列|A分析|系列 1〜6、X軸系 列|Tテーブル」コマンドによって、ワークシート上に展開することも可能。 【多変量解析の手法】 大別していくつかの変量をもとにある事柄の予測を目的としたものと、いくつかの 変量同士の関係を探ることである事柄を分類することを目的としたものがある。 前者の場合は、外的基準変量(目的変量) Y が存在する。 なお、判別分析はサンプルの分類を目的としたものであるが、そのサンプルがどの グループに所属するかあてはめることから、目的変量が名義尺度データである予測 のための手法であるといえる。 重回帰分析 目的・・・・・・・・・・・・内部変量 X1〜Xn と外的基準変量(予測変量) Y との相関関係 の分析による Y の予測 内部変量・・・・・・・・量的 X1〜Xn 外的基準変量・・・・量的 Y 経営分野適応例・・需要予測、販売予測 需要構造の分析 判別分析 目的・・・・・・・・・・・・内部変量 X1〜Xn と外的基準変量(分類) Y との相関関係の分 析による Y の判別(分類) 内部変量・・・・・・・・量的 X1〜Xn 外的基準変量・・・・質的(分類) Y 経営分野適応例・・需要者の判別分類、販売予測 立地条件分析 数量化I類 目的・・・・・・・・・・・・内部変量 X1〜Xn と外的基準変量(予測変量) Y との相関関係 の分析による Y の予測 内部変量・・・・・・・・質的 X1〜Xn 外的基準変量・・・・量的 Y 経営分野適応例・・質的データによる需要予測、販売予測 質的データによる需要構造の分析 数量化II類 目的・・・・・・・・・・・・内部変量 X1〜Xn と外的基準変量(分類) Y との相関関係の分 析による Y の判別(分類) 内部変量・・・・・・・・質的 X1〜Xn 外的基準変量・・・・質的(分類) Y 経営分野適応例・・質的データによる需要者の判別分類 正準相関分析 目的・・・・・・・・・・・・内部変量 X1〜Xn と外的基準変量(予測変量) Y1〜Yn との相関 関係の分析による Y の総合的予測 内部変量・・・・・・・・量的 X1〜Xn 外的基準変量・・・・量的 Y1〜Yn 経営分野適応例・・財務診断、店舗診断などにおける評価と診断 主成分分析 目的・・・・・・・・・・・・内部変量 X1〜Xn に共通する変動(主成分)の抽出とそれによる 内部構造の解明 内部変量・・・・・・・・量的 X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・販売力指標、品質指標などの作成 因子分析 目的・・・・・・・・・・・・内部変量 X1〜Xn の背後にある因子f1〜fpの抽出とそれによる 内部構造の解明 内部変量・・・・・・・・量的・質的 X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・需要構造の分析、需要者の分類 人事データの解析 潜在構造分析 目的・・・・・・・・・・・・内部変量 X1〜Xn の背後に潜在する潜在クラスの抽出とそれに よる測定対象の分類 内部変量・・・・・・・・質的(二値反応) X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・世論調査、意見調査の分析 数量化III類 目的・・・・・・・・・・・・内部変量 X1〜Xn の相互関連による測定対象と変量の同時数量 化とそれによる空間へのプロット 内部変量・・・・・・・・質的 X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・商品あるいは需要者の分類 新製品開発評価 数量化IV類 目的・・・・・・・・・・・・測定対象あるいは変量の数量化とそれらのプロット 内部変量・・・・・・・・量的・質的 X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・商品あるいは需要者の分類 新製品開発評価 クラスター分析 目的・・・・・・・・・・・・測定対象のクラスター化(セグメント分類あるいは系統分類) 内部変量・・・・・・・・量的・質的 X1〜Xn 外的基準変量・・・・なし 経営分野適応例・・需要者のセグメンテーション 【(重)回帰分析】 Y = aX + b へのあてはめ(最小2乗法) Y ・・ 目的( 従属 )変数 X ・・ 説明( 独立 )変数 X が1つ・・・・・・単回帰分析 X が2つ以上・・重回帰分析 ◎QPW の場合 「ツール|各種計算|回帰分析」コマンドを実行することで分析結果が得られる。 結果 Y 切片(定数)・・・・・・・・・・・・・・・・ b ( 定数項 ) Y 評価値(予測値)の標準誤差 R2乗(相関係数の2乗)・・・・・・ 寄与率 標本数(観察したデータ数) 自由度 ・・・・・・・・・・・・・・・・ 標本数 - 説明(独立)変数の数 - 1 X 係数(偏回帰係数)・・・ 一番左 a1 の値( X1の係数 ) その右 a2 の値( X2の係数 ) ・ ・ i 番目 ai の値( Xiの係数 ) X 係数の標準誤差 ・・・・・・ 一番左 a1 の標準誤差 その右 a2 の標準誤差 ・ ・ i 番目 ai の標準誤差 F 値 ・・・・・・・・・・・・・・・・・・ この統計量は回帰分析コマンドでは得られないが、 回帰分析の検定に際して必要となる ( X係数の値 / X係数の標準誤差 )^2 F 値が高いものほど Y に対する寄与率(影響度) が大きい F 値検定 F 値表から第1自由度(Xの数)、第2自由度(標本数 - Xの数 - 1)で有意水準 α(5% or 1%)のときの値を求め、出力結果と比較する。 大きければ分析結果に統計的意味がある。 ◎Excel の場合 LINEST( Yの範囲, Xの範囲, 定数, 補正 ) |-----|----->ともに TURE を指定 (出力例) ai ai-1 ・・ a2 a1 b 標準誤差i 標準誤差i-1 ・・ 標準誤差2 標準誤差1 定数の標準誤差 r2 Yの標準誤差 F 自由度 回帰平方和 残余平方和 1:単回帰モデルの検定 ・相関係数 r の検定 ・残差( Y の予測値と実際の Y の差 )の検定 @SUM(残差) = 0 となるが、符号の数は必ずしも一致しない。 + - の数が極端に違うときは回帰モデルの妥当性に疑問がある。 ※2次曲線が予測される場合でもデータ変換をすることにより直線回帰に持ち込む ことができる。 ex) Y = ae^bX еは自然対数の底(2.7182818...) log Y = (log a) + b(log X) log Y = Y, log X = X とすると Y = (log a) + bX Y = a + b(log X) Y = a + bX ただし Y = a + bX + cX^2 は Y = a + bX1 + cX2 として 重回帰分析する 2:重回帰モデルの検定 ・全体の F 値を検定 ・重相関係数を検定 ・各々の X について、その係数(偏回帰係数)と F 値をチェックする F 値の最も小さい変数を取り除き、残りの変数で再分析する。 F < 2 が目安 ◎標準化偏回帰係数 ・各説明変数の計測単位が異なり、各々のレンジが極端に違う場合などは偏回帰 係数の絶対値の大きさで、その変数の影響力を判断することは危険である。 そのため、偏回帰係数の標準化を行うことが必要。 標準化偏回帰係数1=(説明変数1の標準偏差/目的変数の標準偏差)*偏回帰係数1 ・事前に各サンプルの各説明変数について、Zスコア( 偏差/標準偏差 )を計算 しておき、これを分析のためのデータとして扱うようにすれば、測定単位の違 いなどを吸収することが出来る。(データの標準化という) これは、他の多変量分析手法についても共通である。 ◎多重共線性をチェックする 説明(独立)変数同士に強い相関関係(多重共線性)があると重回帰分析が無意 味となる。 各々の X について Y との単回帰分析をおこない、そこで得られた回帰係数お よび相関係数を重回帰分析の結果と比較する。 ・単回帰での係数と重回帰の偏回帰係数の符号に矛盾はないか? ・単回帰での相関係数と重回帰の偏回帰係数に矛盾はないか? 【判別分析】 Yi = a0 + a1Xi1 + a2Xi2 + ... + arXir ( i = 1,2, ... , n1+n2) により、Yi の値で第1グループか第2グループかを判断する。 _ 全体の Yi 平均を Y とすると _ _ Yi >= Y なら第1グループ Yi < Y なら第2グループ という判断基準が得られる。 【実験計画法】 ◎実験の計画 問題とする特性に対する要因の効果ができるだけ少ない実験回数で、より多くの 情報が得られるような実験を考える。 計画に基づく実験で得られたデータを分散分析法で分析する。 実験の計画と分析はセットで考えなければ解析結果は無意味である。 ◎用語 因子・・・・・・ある結果(特性)に影響を与えている多くの要因の中から、特に実験に 取り上げた要因のこと 水準・・・・・・因子における条件 ex) 温度 20℃ |->因子 |->水準 n 元配置・・因子が1つ → 一元配置 因子が2つ → 二元配置 因子が3つ以上 → 多元配置 交互作用・・因子 A もしくは因子 B 単独では起こらないが、 A と B が組み合わ さった時に初めて起こる効果のこと。 ◎実験計画法の適用目的 ・ある結果を引き起こしている原因として想定されるもののなかから、真の原因 を見つける。 ・ある結果を引き起こしている原因として想定されるもののなかから、結果に対 して寄与率の高い( 重要な )因子を見つける。 ・より良い結果を得るための最適な条件( 水準 )を探る。 ◎分散分析の基礎概念 平方和の分解・・因子による変動と誤差変動を分離する 因子 A 水準 1 水準 2 10 90 30 70 -------------------------------------------- 平均 20 80 全体平均 50 ↓ 水準 1 水準 2 水準 1 水準 2 水準 1 水準 2 --------------- ----------------- ---------------- 10 90 = 20 80 + -10 +10 30 70 20 80 +10 -10 --------------- ----------------- ---------------- 平方和=4000 平方和=3600 平方和=400 ↓ ↓ 因子 A 誤差 修正項 = ( データの合計 )^2 / データ数 平方和 = ( 個々のデータの2乗の合計 ) - 修正項 = ( 個々のデータの2乗の合計 ) - ( データの合計 )^2 / データ数 1:一元配置 因子・・・・・・ 1 水準・・・・・・ n くり返し・・ m 因子 A の水準 | L1 L2 ・・ Ln ----+---------------------------- 1 | 2 | ・ | くり返し ・ | ・ | m | 全データの基本統計量と各水準毎の基本統計量から分散分析表を作成する。 ex) 水準1 水準2 水準3 1回目 68 70 72 2回目 68 72 73 3回目 67 74 75 4回目 69 76 80 全体の統計量 n 12 平均 72 MAX 80 MIN 67 範囲 13 分散 13.666666 標準偏差 3.6968455 不偏分散 14.909090 各水準の統計量 水準1 水準2 水準3 平均 68 73 75 MAX 69 76 80 MIN 67 70 72 範囲 2 6 8 分散 0.5 5 9.5 標準偏差 0.7071067 2.2360679 3.0822070 不偏分散 0.6666666 6.6666666 12.6666666 平均−全体平均 -4 +1 +3 分解表 | 因子 水準毎の平均値 | 誤差 全体平均との差 |---------------------------+----------------------- | 水準1 水準2 水準3 | 水準1 水準2 水準3 -----+---------------------------+----------------------- 1回目| 68(-4) 73(+1) 75(+3) | 0 -3 -3 2回目| 68(-4) 73(+1) 75(+3) | 0 -1 -2 3回目| 68(-4) 73(+1) 75(+3) | -1 +1 0 4回目| 68(-4) 73(+1) 75(+3) | +1 +3 +5 ( )内の値は全体平均との差 分散分析表 全体 平方和 164 ・・ @SUM((個々のデータ)^2) - (@sum(個々のデータ))^2/n (変動) ~~~~~~~~↓~~~~~~~ 修正項 自由度 11 ・・ n -1 因子について 平方和 104 ・・ @SUM((分解表の個々のデータ)^2)-(全体平均^2*n) (変動) @SUM(分解表での全体平均値との差)^2) @SUM((各水準毎のデータの合計)^2/繰返し数) - 修正項 自由度 2 ・・ 水準数 - 1 [第1自由度] 不偏分散 52 ・・ 平方和 / 自由度 誤差について 平方和 60 ・・・・・・・・ @SUM((分解表の個々のデータ)^2) (変動) 全体の変動(平方和) - 因子の変動(平方和) 自由度 9 ・・・・・・・・ n - 水準数 [第2自由度] 不偏分散 6.666666・・ 平方和 / 自由度 分散比 F0 7.8 ・・・・・・ 因子の不偏分散 / 誤差の不偏分散 因子A による変動が誤差変動の何倍に相当するか を示している。 F 表より、第1自由度と第2自由度の値によって 求める水準点の値を出し、F0の値と比較する。 F0 が大きければ因子 A は重要な要因であると判 断する。 2:二元配置 繰り返しなし 基本的に一元配置の場合と同じ ex) 因子 A | 水準1 水準2 水準3 | -------------+------------------------+------------------- 水準1| 68 70 72 | 因子 B 水準2| 68 72 73 |因子 B の基本統計量 水準3| 67 74 75 | 水準4| 69 76 80 | -------------+------------------------+-------------------- | 因子 A の基本統計量 | として、因子 A および因子 B について各々分散分析をする。 誤差について 平方和 18 ・・・・全体の変動 - (因子A の変動 + 因子B の変動) 自由度 6 ・・・・(因子A の自由度) * (因子B の自由度) [第2自由度] 不偏分散 3 ・・・・平方和 / 自由度 3:二元配置 繰り返しあり 因子 A と因子 B との間に交互作用 A x B があると想定される場合には、二元配 置では誤差と交互作用を分離できないため同一条件での実験の繰り返しが必要。 ex) 因子 A | 水準1 | 水準2 | 水準3 -------------+--------+-------+-------- 水準1| 119 | 92 | 69 | 92 | 94 | 50 -----+--------+-------+-------- 因子 B 水準2| 127 | 105 | 97 | 111 | 108 | 76 -----+--------+-------+-------- 水準3| 129 | 129 | 116 | 135 | 124 | 99 -----+--------+-------+-------- 水準4| 119 | 108 | 100 | 96 | 128 | 97 因子全体(級間)について 平方和 ・・@SUM((水準組合わせ毎のデータ計)^2/(A水準数)*(B水準数)) - 修正項 自由度 ・・(因子 A 水準数)*(因子 B 水準数) - 1 不偏分散・・平方和 / 自由度 誤差について 平方和 ・・全体の平方和 - 因子全体の平方和 自由度 ・・(因子 A 水準数)*(因子 B 水準数)*(繰返し数 - 1) 不偏分散・・平方和 / 自由度 交互作用について 平方和 ・・因子全体(級間)の変動 - (因子Aの変動 + 因子Bの変動) 自由度 ・・(因子A の自由度) * (因子B の自由度) 不偏分散・・平方和 / 自由度