Лекция 11
Дисперсионен и ковариационен анализи

Дисперсионният анализ е част от статистиката, изучаваща влиянието на една или няколко групиращи променливи върху една количествена. Както и в регресията, е прието тази зависима променлива да се нарича отклик. Предикторите, обаче тук се наричат фактори. В основата на дисперсионния анализ лежи възможността сумата от квадрати на отклонения на отклика SSY да бъде разложена на няколко независими суми от квадрати, като по този начин става възможна проверката на различни хипотези за влияние на факторите върху отклика.

В дисперсионния анализ е възприето групиращата променлива да се нарича ''фактор'', стойностите й - ''нива'' на фактора, а отклоненията на средните стойности на групата от общата средна - ''ефекти''. Така с всяко ниво на фактора е свързан един ефект. Ако групите са определени от една групираща променлива, казваме, че се извършва ''еднофакторен'' анализ. Когато факторите са няколко, определянето на групите е по - сложно. Анализът се нарича ''многофакторен''. При двуфакторния анализ, например, се разглеждат, както прости ефекти, свързани с влиянието на всеки фактор поотделно, така и смесени ефекти. Двете групиращи променливи определят толкова групи, колкото е произведението от броя на нивата на двата фактора. Толкова са на брой и смесените ефекти, които отразяват съвместното влияние на факторите върху отклика. Ако се окаже, че такова съвместно влияние отсъствува, т.е. съвместните влияния са малки, следва да се проверяват за значимост простите ефекти.

Основната задача, която се решава с помощта на дисперсионния анализ, може да се формулира най - просто така: да се провери хипотезата дали съвпадат средните стойности на отклика в няколко различни групи от наблюдения. Ако тази хипотеза се отхвърли, необходимо е да се оценят различните средни стойности за всяка група. В този случай се казва, че търсим фиксирани ефекти или разглеждаме модел I.

Друг подход в дисперсионния анализ е оценката на така наречените случайни ефекти или модел II. Приема се, че факторът определя ефекти, които са независими, нормално разпределени, със средни стойности нула и дисперсия, една и съща за всички нива на фактора. Хипотезите, които се проверяват при използуване на такъв модел се отнасят до стойността на тази дисперсия. Въпреки че хипотезите за двата модела са различни, статистиките, с които те се проверяват понякога съвпадат - например, при един фактор. При повече фактори нещата се усложняват неимоверно. Ограниченото място не позволява подробното им излагане. При желание читателят може да се запознае подробно с тях в [Шеффе (1963)] и по - популярно в [Афифи (1982)].

Прието е резултатите от дисперсионния анализ да се представят в така наречените таблици на дисперсионния анализ. В тези таблици за всеки прост или смесен ефект се представя съответната сума от квадрати на отклоненията заедно със степените си на свобода. Така, сравнявайки в определен ред нормираните суми от квадрати с критерия на Фишер, може да се получи представа за влиянието на ефектите.

Най-голяма популярност дисперсионният анализ е придобил в областта на селскостопанския експеримент. С негова помощ се изучава влиянието на различни видове торове и почви върху добива при различни природни условия и под въздействието на редица ненаблюдаеми фактори. Това приложение на дисперсионния анализ в област, където отделно взетия експеримент е скъп и продължителен, още при самото му възникване е поставило пред математиците задачата за оптимизиране на броя на провежданите експерименти. Една голяма част от литературата по дисперсионен анализ е посветена на планирането. В решаването на този проблем са привлечени много математически резултати от други области на математиката, а за експериментаторите се публикуват сборници от планове удовлетворяващи щирок кръг изисквания, произвеждат се програмни системи генериращи такива планове и т.н.

В много случаи прилагането на дисперсионния анализ е еквивалентно на прилагането на регресионния (например, когато всички групиращи променливи - фактори притежават само по две нива), но даже и в този случай поради вложените в себе си възможности да изучава съвместното влияние на факторите той с лекота отговаря на въпроса, кои фактори и в каква комбинация влияят на отклика.

Често се използуват думите дисперсионен анализ и за редица тестове, провеждани като част от други статистически процедури (вж.например, проверка на адекватност на регресионен модел) и то с пълно основание.

11.1  Основен модел

Математическата литература по дисперсионен анализ е почти необозрима. Това се дължи главно на факта, че в основата му лежи планирането на многофакторни експерименти, тяхното оптимизиране за задачите поставени от експериментатора. Тук ние ще приведем само елементарните формули за еднофакторен експеримент. Анализът на двуфакторен експеримент, даже и с равен брой наблюдения в клетка, се разклонява в зависимост от типа на ефектите - фиксирани и случайни, прости и смесени и т.н. Класическата книга [Шеффе (1963)] би представлявала полезно пособие за едно сериозно навлизане в тази област.

Моделът на еднофакторния дисперсионен анализ с фиксирани ефекти се записва като регресионен модел по следния начин:

y
=
Zm+ e
yij
=
m + ai + eij.
(11.1)

Тук с ai сме означили ефектите - влиянията съответствуващи на нивата на фактора, а грешките с e - независими случайни величини с разпределение N(0,s2). Индексите i описват възможните нива на фактора, а j - наблюденията в рамките на едно фиксирано ниво. Ясно е, че ако се опитаме да поставим като предиктори изкуствени вектори състоящи се от нули и единици, тази задача би съвпаднала напълно със задачата на регресионния анализ. Съществува обаче проблем в нейното решаване, тъй като рангът на получената матрица е по - малък от необходимия. Затова се налагат (повече или по - малко естествени) ограничения върху оценяваните параметри. В случая това е ограничението


е
i 
ai = 0.
(11.2)

Сега вече сме в състояние да извършим оценяване на параметрите на този модел по метода на най - малките квадрати и, (при положение, че имаме достатъчно наблюдения за всяко ниво на фактора) да проверим, например, хипотезата H0:a = 0.

Съответното разлагане на SSy в този случай изглежда така


е
i 

е
j 
(yij- y..)2 =
е
i 

е
j 
(yi .- y..)2+
е
i 

е
j 
(yij -yi .)2,
(11.3)
или SSy = SSm + SSr. С точки вместо индекси (по традиция в дисперсионния анализ) са означават усреднявания по съответните индекси.

Тук SSr е остатъчната сума от квадрати, а SSm отговаря за влиянието на фактора върху отклика. При изпълнена хипотеза H0:a = 0 двете събираеми са пропорционални на хи-квадрат със степени на свобода съответно N-M и M-1 (с M сме означили броя на непразните нива на фактора, а с N - общия брой наблюдения). F статистиката строим по естествената формула

F = (SSm/(M-1) )/ ( SSr/(N-M) )
(11.4)
и отхвърляме хипотезата, ако тя надхвърли критичната стойност на съответното разпределение на Фишер.

Естествено и тук могат да бъдат избрани по-сложни алтернативи от тривиалната - пълен модел. Такава може да бъде например хипотезата: H1: a1 = - a2. При такава проверка ролите на SSm и SSr се заемат от други суми от квадрати. Такива помощни алтернативи се наричат контрасти.

11.2  Множествени сравнения

В много случаи ни е необходимо да направим едновременно заключение за много от параметрите наведнаж. Можем да използуваме следното знаменито неравенство на Бонферони:

P (
ЗIi
 
) і Х
P (
Ii
 
).
(11.5)
Така, ако Ii са доверителни интервали за M параметъра ai с ниво на доверие 1-a/M, то ЗIi е съвместен дов. интервал за всичките параметри с гарантирано ниво на доверие 1-a. Тези доверителни интервали обаче са твърде неточни (големи). Затова в тази секция ще разгледаме два метода за построяване на съвместни дов. интервали особено подходящи за линейни модели.

11.2.1  Метод на Тюки

Да разгледаме, например модела (11.1). Да си поставим следните задачи:

  1. Да намерим доверителни интервали Ii за параметрите bi = m + ai, такива, че
    P (Зi { bi О Ii}) і 1 - a,
    (11.6)

  2. Да намерим доверителни интервали Ii,j за параметрите ai-aj, такива, че
    P (Зi < j { ai-aj О Ii,j}) і 1 -a.
    (11.7)

Ще започнем решението на задача 1 със следната постановка. Нека броят на нивата на фактора е фиксиран M и броят на наблюдения за всяко ниво - еднакъв k. Търси се константа C такава, че да е изпълнено следното равенство:

P (Зi { |bi-yi,.| < C s } ) і 1 - a,
(11.8)
където s2 = SSr/(n-1)k е естествената неизместена оценка на дисперсията s2. Имаме SSr/s О c2M(k-1). Оценките на bi са независими и независими в съвкупност от s. Следователно
P (Зi { |bi-yi,.| < C s } ) = P (
max
i 
(|bi-yi,.|) < C s )
= P (
max
i 
( k-1/2|bi-yi,.|
s
) < C k-1/2 s
s
) = P (

max
i 
|xi|

h
< C k-1/2),
Това разпределние зависи само от два параметъра (k,M) и несложно може да се табулира. Пресмятаме от там търсената стойност на C за зададеното ниво на доверие a и така получаваме точен съвместен доверителен интервал:
ЗIi = З{yi,.-C s, yi,. + C s}.

Втората задача решаваме аналогично:

P (Зi < j { |ai-yi,.-aj+yj,.| < C s }) = P (
max
i < j 
(|bi-yi,.-bj|+yj,.) < C s )
= P (

max
i < j 
|xi-xj|

h
< C k-1/2).
Сега интервалите за проверка имат вида:
Ii,j = {yi,.-yj,.-C s, yi,.-yj,.+C s}.
(11.9)

Двете разпределения, които се използуват в метода на Тюки са табулирани и могат да се намерят, например в [Hartley(1966)].

11.2.2  Метод на Шефе

При сравненията по двойки използувахме разликите bi-bj. Понякога се налага да се сравняват групи параметри. Например, при обработката на почва по 4 различни начина при 2 от тях внасяме азотен тор, а при другите 2 не внасяме. Ясно е, че бихме могли да оценим например контраста (функцията):

f = 1/2(b1+b2)-1/2(b3+b4).
Когато обаче отнапред не знаем къде да търсим разликата, трябва да разполагаме със средство за оценка на значимостта на всички линейни функции от параметрите. Такова средство ни дава метода на Шефе. Той е основан на следното геометрично тъждество:
||x|| =
sup
c 
cўx
||c||
.

Нека разгледаме един контраст c = {c1,c2,...,cM}ў за параметрите a. Да напомним, че еci = 0 и означим y = cўa = cўb. Тогава


sup
c 
y- ^
y
 

||c||
=
sup
c 
cў(a- ^
a
 
)

||c||
= ||a- ^
a
 
|| .

Оценките на bi в разглеждания модел са независими и независими в съвкупност от s. Поради линейното условие върху a имаме

k||a - ^
a
 
||2/s2

е Хи-квадрат с M-1 степени на свобода. Следователно

f = k ||a - ^
a
 
||2/(M-1)s2
има F разпределние с M-1 и M(k-1) степени на свобода. Така за всички контрасти y получаваме съвместни доверителни интервали:

Ia = { ^
y
 
-C1/2 s||c||, ^
y
 
+C1/2 s||c||},
(11.10)
където C = (M-1) f1-a k.

11.3  Двуфакторен анализ

Тук вече можем да избираме измежду няколко възможни модела:

disp1.gif
Фигура 11.1: Връзки между моделите

Стрелките показват естествените връзки между моделите, а също и пътя, по който строим и сравняваме нашите хипотези. Прието е, както при полиномната регресия, да започваме от най - сложния модел. Нека разгледаме за пример два такива модела свързани със стрелка:

Z1: y = m + ai + bj + gij,
Z2: y = m + ai + bj;
и за яснота да означим с k и m броя на нивата на факторите: (i = 1, 2,..., k, j = 1, 2,..., m). Броят на оценяваните параметри в модела Z1 е равен фактически на броя на клетките определени от всевъзможните комбинации от нива на двата фактора: k m. За втория модел този брой е k+m-1. За да можем да използуваме модела 8.1 и теоремата 8.1 трябва да е изпълнено неравенството: k m > k+m-1. Това е винаги така, стига да е изпълнено 2 Ј k,m.

11.4  Примери

Тук ще разгледаме няколко примера с реални данни заимствани от книгата [Dunn, Clark(1974)].

Пример 1 Пример за еднофакторен дисперсионен анализ.

Целта е да се изучи влиянието на четири типа тор върху добива. За целта 24 еднакви по форма и площ полета са засети с една и съща култура. В дисперсионния анализ се казва, че факторът тор има 4 нива. По случаен начин експериментаторът избрал типът торене върху всяко от полетата, така всеки тип торене се среща 6 пъти. Тези данни трябва да бъдат въведени като две променливи - първата количествена - ДОБИВ и втората - групираща ТОР. Матрицата от данни трябва да изглежда така:

ДОБИВТОР ДОБИВ ТОР ДОБИВ ТОР ДОБИВ ТОР
991 96 2 63 3 79 4
401 84 2 57 3 92 4
611 82 2 81 3 91 4
721 104 2 59 3 87 4
761 99 2 64 3 78 4
841 570 2 396 3 498 4

Така въведени данните могат вече да бъдат подложени на дисперсионен анализ. Получаваме следната таблица на дисперсионен анализ:

Anova 1 Table
SOURSE OFSUM OFD.F.MEAN
VARIATIONSQUARESSQUARE
TREATMENT 29403 980
RESIDUAL 327220 163.6
TOTAL621223
COMPUTED
F= 5.99022P= .995613

Стойността на F статистиката, както и вероятността Р са твърде големи и позволяват с висока степен на доверие да отхвърлим хипотезата, че факторът торене не влияе на добива.

Пример 2 Двуфакторен дисперсионен анализ

Ще разгледаме още един пример от [Dunn, Clark(1974)]. В него се изучава добива на ръж като функция от типа на семената и торенето. В този случай торенето се избира по три възможни начина: ниско, средно и високо, и се използуват два типа семена. Експериментаторът и в този случай е разполагал с 24 полета и за всяка от шестте възможни комбинации тор - семе е избрал случайно по 4 полета. Естествено е да разглеждаме фиксирани ефекти.

ТИП НА НИВО НА ТОРЕНЕ
СЕМЕНАТА НИСКО СРЕДНОВИСОКО
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 16.5 15.7
11.2 12.8 17.6
11 8.3 16.7
12.1 9.1 16.6

Тези данни трябва да се представят в следната форма. Като променливи се определят: откликът ДОБИВ, и фактори (или групиращи променливи) СЕМЕ и ТОР, като последните съответно се кодират. Началото на получената матрица данни ще изглежда така:

ДОБИВСЕМЕТОР ДОБИВСЕМЕТОР
14.311
18.112
17.613

Получаваме следната дисперсионна таблица:

Anova 2 Table
SOURSE OFSUM OFD.F.MEAN
VARIATIONSQUARESSQUARE
A 77.4004177.4004
B 99.8725249.9362
AB44.1058222.0529
RESIDUAL21.9975181.22208
TOTAL243.37623
Fixed
FAFBFAB
63.334840.861518.0453
.999999.999999.999949
Random
FAFB
3.509752.26438
.798127.693663

От тази таблица заключаваме, че съществува изразено взаимодeйствие между торенето и типа на семената при влиянието им върху добива -FAB = 18.0453, а вероятността .999949 говори, че хипотезата за незначимост на смесените ефекти се отхвърля. След като смесените ефекти на двата фактора са значими, не бива да проверяваме поотделно хипотезите за простите ефекти. Може веднага да се приеме, че влиянието на типа на семената и торенето като цяло върху добива е съществено.

Тъй като този пример не е особено поучителен, не илюстрира пълните възможности на процедурата, ще разгледаме още един пример от областта на психологията.

Пример 3 Данните за скоростта на реакцията на човек при подаване на светлинен (A,C) и звуков (B,D) сигнали.

Изучават се два типа реакция: при A и B - реакцията е проста, а при C и D - с избор. Естествено е, да разглеждаме две групиращи променливи. Първата описва типа на сигнала (светлинен или звуков), а втората - условията на експеримента (с или без избор). За да въведем данните в паметта, трябва да ги прекодираме аналогично на предния пример. За тези данни таблицата на двуфакторния анализ изглежда иначе:

Anova 2 Table
SOURSE OFSUM OFD.F.MEAN
VARIATIONSQUARESSQUARE
A 123932.1123932.
B 5206.2415206.24
AB62.1323162.1323
RESIDUAL24495.764382.746
TOTAL153696.67
Fixed
FAFBFAB
323.79713.6023.162332
1 .999531.311639
Random
FAFB
1994.65 83.7929
.985748.930728

Тук вече взаимодействието между факторите отсъствува - статистиката FAB е незначима. По-отделно обаче, влиянието и на двата фактора е значимо и не може да бъде пренебрегнато. При желание може да се пресметнат оценените вътрешно групови средни стойности при адитивното влияние на двата фактора.

11.5  Ковариационен анализ

Нека разгледаме сега пак регресионния модел със свободен член. Ше включим в модела групираща променлива и нека тя да е една. Ще представим наблюденията върху нея в матрицата Z. Сега моделът приема следната форма:

y = Zm+ Xa + e
(11.11)

Групиращата променлива приема стойности от 1 до G. Матрицата Z е с размерност (n xG), като всеки ред е индикатор (съдържа нули и една единица) за групата, на която принадлежи съответното наблюдение. Сега броят на параметрите е вече m + G и разбира се, трябва да бъде изпълнено неравенството m + G < N. С m сме означили вектора от параметри (с размерност G), отразяващ влиянието на стойността на групиращата променлива за дадено наблюдение. Този модел е обект на така наречения ковариационен анализ (вж. [Шеффе (1963)]), където се предполага зависимост и на вектора a от стойността на групиращата променлива.

При G = 1 моделът се свежда към класическа линейна регресия със свободен член. При G > 1 формулите за пресмятане претърпяват незначителни изменения. При a = 0 параметрите m очевидно са ''вътрешно-груповите'' средни стойности с естествени си оценки. За да се запази това им качество и при ненулево a, във всички формули по горе матрицата XўX/n трябва да се замести с вътрешно-груповата ковариационна матрица Vi и числото n да се замести с n-G.




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.