Регресионният анализ намира най - често приложение за изследване на причинно - следствени връзки. Той ни позволява да проверяваме хипотези за наличието на такава връзка и да я оценяваме количествено.
Изложеното в тази лекция е незначителна част от теорията,
посветена на линейната регресия и пояснява донякъде само това,
което е заложено в най - простите регресионни процедури. На
интересуващия се читател горещо препоръчваме класическите книги
[Себер (1976)] и
[Дрейпер, Смит (1973)].
Нека наблюдаваните променливи са много и една от тях е натоварена с по - особено смислово съдържание. Отделената променлива ще наричаме зависима или отклик. Останалите - независими или предиктори. Поставяме си следните въпроси:
Ние ще изведем всички свойства на линейната регресия от общите свойства на гаусовото разпределение. Болшинството статистически програми работят по тези формули, изведени в предположение за гаусово разпределение на грешката. Практиката, обаче, показва, че това ограничение далеч не винаги е правдоподобно, пък и резултатите получени с него - не винаги удовлетворителни.
|
В долната теорема са сумирани свойствата на оценките, които следват от гаусовото разпределение на e.
Теорема 1
За модела (8.1) са изпълнени свойствата:
^
y
=
argmin
z О [^(Y)]
||z-y||2;
^
s
2
=
1
n
||
^
y
-y||2;
Ако се наложи да предположим различни дисперсии за наблюденията, например, e О N(0,s2 W), то в горните твърдения просто трябва да заменим скаларното произведение и нормата:
|
В практиката често възниква необходимостта от сравняване на различни модели. Едно средство за това ни дава следната теорема от нормалната теория. Ще означим с HZ линейния проектор върху подпространството Z: HZ(y) = [^(y)].
Теорема 2
Нека се налага да проверим хипотезата
H0: z О Z0 срещу хипотезата H1:z О Z1\Z0,
fm-k,n-m =
||y1-y0||2/(m-k)
||y-y1||2/(n-m)
> F1-a, (8.2)
Доказателство: Формата на областта следва от принципа за отношение на правдоподобия:
|
Когато към модела (8.1) добавяме предположения за параметризация на Z, получаваме различните форми на, т.н. в литературата, общ линеен модел с гаусова грешка. Някои от тях ще разгледаме в следващите лекции.
Нека изследваният модел е от вида
| (8.3) |
Теорема 3
(Гаус - Марков)
Ако X има пълен ранг m, оценката за неизвестните
параметри a по метода на най - малките квадрати е
^
a
=
(XўX)-1Xўy (8.4)
cov(
^
a
)
=
s2(XўX)-1 (8.5)
Доказателство: Методът на най - малките квадрати в случая ни учи да търсим минимум на ||y-Xa||2, което съвпада с твърдение a. на теорема 8.1 и, следователно, решенията на двата метода съвпадат. Подпространството Z = Xa е линейна комбинация на колоните на X. Тогава проекторът HZ има вида HZ = X(XўX)-1Xў. Оценката [^(a)] за a е просто решение на уравнението [^(y)] = X[^(a)],т.е. съвпада с равенството (8.4). Това решение съществува и е единствено поради пълния ранг на X.
Като заместим y в (8.4) получаваме
|
От теорема 8.1 веднага получаваме, че неизместена оценка на s2 ще получим по формулата:
| (8.6) |
Тази оценка, обаче, не е максимално правдоподобна.