Лекция 8
Регресионен анализ

Тази статистическа процедура е най - старата и, може би, най - популярната. Терминът ''регресия'' е въведен от английския антрополог Ф.Галтон във връзка с откритата от него тенденция синовете на родители с ръст по - висок от нормалния, да имат ръст по - близо до средната стойност. Този факт Галтон нарекъл ''regression to mediocrity''.

Регресионният анализ намира най - често приложение за изследване на причинно - следствени връзки. Той ни позволява да проверяваме хипотези за наличието на такава връзка и да я оценяваме количествено.

Изложеното в тази лекция е незначителна част от теорията, посветена на линейната регресия и пояснява донякъде само това, което е заложено в най - простите регресионни процедури. На интересуващия се читател горещо препоръчваме класическите книги [Себер (1976)] и
[Дрейпер, Смит (1973)].

Нека наблюдаваните променливи са много и една от тях е натоварена с по - особено смислово съдържание. Отделената променлива ще наричаме зависима или отклик. Останалите - независими или предиктори. Поставяме си следните въпроси:

  1. Дали стойностите на отклика се влияят или зависят от останалите променливи?
  2. Каква е функционалната връзка между стойностите на променливите (т.е. може ли да се избере модел на зависимостта и оценят параметрите му)?
  3. Доколко получената връзка отговаря на действителността (или доколко моделът е адекватен)?
  4. Какво можем да очакваме от отклика при зададени нови стойности на предикторите (задача за прогноз)?

Ние ще изведем всички свойства на линейната регресия от общите свойства на гаусовото разпределение. Болшинството статистически програми работят по тези формули, изведени в предположение за гаусово разпределение на грешката. Практиката, обаче, показва, че това ограничение далеч не винаги е правдоподобно, пък и резултатите получени с него - не винаги удовлетворителни.

8.1  Линейни модели с гаусова грешка

В цялата лекция нататък ще предполагаме, че e О N(0,s2I), т.е. че грешките от наблюденията са независими, еднакво разпределени гаусови сл.в. с нулева средна. За наблюденията y ще предполагаме,че е изпълнен следният модел:
y
=
z + e.
(8.1)
За неизвестното z = E y се предполага, че z О Z - линейно подпространство на Rn с размерност k. Това на пръв поглед странно предположение се оказва много удобно от теоретична гледна точка - всички линейни модели лесно се вписват в него.

В долната теорема са сумирани свойствата на оценките, които следват от гаусовото разпределение на e.

Теорема 1 За модела (8.1) са изпълнени свойствата:

Доказателство: Всички твърдения са пряко следствие от определенията на максимално - правдоподобните оценки в гаусовия случай. Q.E.D.

Ако се наложи да предположим различни дисперсии за наблюденията, например, e О N(0,s2 W), то в горните твърдения просто трябва да заменим скаларното произведение и нормата:

xўy = xўW-1y,       ||x||2 = xўW-1x.
Тогава твърденията на теоремата и всички последващи твърдения остават без изменение.

В практиката често възниква необходимостта от сравняване на различни модели. Едно средство за това ни дава следната теорема от нормалната теория. Ще означим с HZ линейния проектор върху подпространството Z: HZ(y) = [^(y)].

Теорема 2 Нека се налага да проверим хипотезата

H0: z О Z0     срещу хипотезата    H1:z О Z1\Z0,
където Z0 М Z1 са линейни подпространства на Rn с различни размерности k < m съответно. Тогава критичната област се определя от неравенството:
fm-k,n-m = ||y1-y0||2/(m-k)
||y-y1||2/(n-m)
> F1-a,
(8.2)
като статистиката fm-k,n-m, при изпълнена H0, има разпределение на Фишер с m-k и n-m степени на свобода, а F1-a е квантил на това разпределение. С yi сме означили проекциите на y върху Zi,(i = 0,1).

Доказателство: Формата на областта следва от принципа за отношение на правдоподобия:

l(y) =

sup
z О Z0,s 
L(y-z,s)


sup
z О Z1,s 
L(y-z,s)
= ( ||y-y1||
||y-y0||
)n.
Проверката на неравенството l(y) > c е еквивалентна на критичната област определена от неравенството (8.2). Твърдението за разпределението е пряко следствие от теоремата на Кокрън. Q.E.D.

Когато към модела (8.1) добавяме предположения за параметризация на Z, получаваме различните форми на, т.н. в литературата, общ линеен модел с гаусова грешка. Някои от тях ще разгледаме в следващите лекции.

8.2  Нормална линейна регресия

Нека изследваният модел е от вида

y = Xa + e,
(8.3)
където y,e О Rn, a О Rm , X О Rn xRm, грешките e О N(0,s2 I) . Тук y и X са наблюденията, а s2 и a са неизвестни.

Теорема 3 (Гаус - Марков) Ако X има пълен ранг m, оценката за неизвестните параметри a по метода на най - малките квадрати е

^
a
 
=
(XўX)-1Xўy
(8.4)
cov( ^
a
 
)
=
s2(XўX)-1
(8.5)
Оценката [^(a)] е неизместена, ефективна и съвпада с оценката по метода на максимално правдоподобие.

Доказателство: Методът на най - малките квадрати в случая ни учи да търсим минимум на ||y-Xa||2, което съвпада с твърдение a. на теорема 8.1 и, следователно, решенията на двата метода съвпадат. Подпространството Z = Xa е линейна комбинация на колоните на X. Тогава проекторът HZ има вида HZ = X(XўX)-1Xў. Оценката [^(a)] за a е просто решение на уравнението [^(y)] = X[^(a)],т.е. съвпада с равенството (8.4). Това решение съществува и е единствено поради пълния ранг на X.

Като заместим y в (8.4) получаваме

^
a
 
= a + (XўX)-1Xўe,
което влече неизместеността на [^(a)]. От същото представяне следва и представянето на cov([^(a)]) в (8.5). Q.E.D.

От теорема 8.1 веднага получаваме, че неизместена оценка на s2 ще получим по формулата:

^
s2
 
= 1
n-k
||y - X ^
a
 
||2.
(8.6)

Тази оценка, обаче, не е максимално правдоподобна.




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.