Лекция 3
Достатъчни статистики

Понятието е въведено от Фишер. Идеята е, че цялата информация за параметъра, която може да се извлече от извадката се съдържа в една функция от извадката, която е наречена от него достатъчна статистика.

Определение 1 Казваме, че статистиката T е достатъчна статистика за параметъра q, ако разпределнието на всяка друга статистика Q при условие T не зависи от стойността на параметъра q.

3.1  Проста формулировка

Определение 2 Казваме, че статистиката T е достатъчна статистика за параметъра q, ако функцията на правдоподобие L(x,q) може да се представи във формата:

L(x,q) = f(T(x),q)h(x)
(3.1)

Теорема 1 Определенията 3.1 и 3.2 са еквивалентни.

Доказателство: Това, че от определение 3.2 следва определение 3.1 е почти очевидно. Наистина, за всяка функция f от Q получаваме:

E T(f(Q(x))) =
у
х


T(x) = t 
f(Q(x)) L(x,q) dx

у
х


T(x) = t 
L(x,q) dx
=
у
х
f(Q(x)) h(x) dx

у
х
h(x) dx
.

Обратното твърдение е съвсем нетривиално и носи названието Факторизационна теорема. Q.E.D.

За да го докажем ще дадем сведения от теория на мярката и ще предположим някои неща за правдоподобието L(x,q).

3.2  Теорема на Радон - Никодим

В този параграф ще напомним някои сведения от анализа и теория на мярката. Всички обекти ще са определени на измеримото пространство (W,A).

Определение 3 Реалната функция m, определена върху елементите на буловата s-алгебра A и приемаща стойности в R1И{Ґ}, се нарича мярка, ако удовлетворява условията:

  1. неотрицателност: P (A) і 0,"A О A;
  2. адитивност: P (A1+A2+...) = P (A1)+P (A2)+....;

Да напомним, че за множества операцията + означава обединение на непресичащи се множества. По сравнение с вероятността в това определение е изпусната аксиомата за нормираност. По тази причина мярка може да бъде и функция приемаща само стойности 0 и Ґ. Зада се избегне тази неприятност се въвежда следното определение.

Определение 4 Казваме, че една мярка m, зададена на измеримото пространство (X,A) е s-крайна, ако съществува изброимо разделяне на пространството g = {H1,H2,...} , такова че 0 < m(Hi) < Ґ.

По-нататък ще разглеждаме само s-крайни мерки.

Определение 5 Казваме, че мярката m се доминира от мярката n (или че мярката m е абсолютно непрекъсната по отношение на мярката n), когато "A О A, за което n(A) = 0, е изпълнено m(A) = 0.

Теорема 2 (Радон - Никодим) Ако мярката m се доминира от s-крайната мярка n, то съществува измерима функция f(x) і 0 такава, че

m(A) = у
х


A 
f(x) dn(x)    "A О A
(3.2)

Функцията f наричаме производна на Радон - Никодим и бележим с f = dm/dn.

Определение 6 Казваме, че две мерки са еквивалентни, ако всяка от тях доминира другата.

В този случай очевидно производната f(x) > 0 п.н.

Върху едно вероятностно пространство (измеримо пространство с фиксирана вероятност n) съществуват много мерки, които са еквивалентни на вероятностната мярка. Всички те се задават по формулата (3.2). От друга страна за всяка измерима функция f мярката n, получена по формула (3.2) е s-крайна.

3.3  Факторизационна теорема

Нека Pq е разпределението на наблюденията x в Rn при зададено q О Q М Rm.

Определение 7 Казваме, че семейството { Pq, q О Q} удовлетворява условието Al, ако съществува s-крайна мярка l на Бореловата s-алгебра в Rn доминираща всички вероятностни мерки от семейството.

При тези условия по теоремата на Радон - Никодим съществуват всички производни

p(x,q) = dPq
dl
   и   Pq(A) = у
х


A 
p(x,q) dl(x).

Когато l е Мярката на Лебег в Rn, p(x,q) се превръща в познатата ни функция на правдоподобие при наблюдения на сл.в. с плътност. Когато обаче наблюдаваме дискретна (или призволна) сл.в., мярката на Лебег не стига - налага се да се разшири понятието плътност.

Преди да преминем към доказателството на факторизационната теорема ще се опитаме да сведем нещата до вероятностни мерки. Тогава ще можем да използуваме у.м.о.

Определение 8 Казваме, че семейството P = { Pq, q О Q} удовлетворява условието Am, ако съществуват редиците ci > 0, еci = 1 и q(i) О Q, такива че вероятностите Pq ("q) се доминират от вероятностната мярка m, получена по формулата:

m(A) =
е
i 
ci Pq(i)(A).
(3.3)

Лема 1 Определения Al и Am са еквивалентни.

Доказателство: Това че от определение Am следва определение Al е очевидно. Нека съществува мярката l.
1. Първо нека я направим вероятностна. Тъй като тя е s-крайна, съществува редица от непресичащи се множества Bi О B такива, че 0 < l(Bi) < Ґ и ИBi = Rn. Значи мярката lў определена по формулата

lў(A) = Ґ
е
i = 1 
2-i l(A ЗBi)/l(Bi)

ще бъде вероятностна и взаимно-абсолютно непрекъсната с l. Наистина,

m(x) = dlў
dl
(x) = (2l(Bi))-i,   при    x О Bi.

2. Значи можем да предположим, че l(Rn) = 1.

Да означим с Pў семейството от мерки от вида (3.3). Очевидно е P М Pў и Pў също удовлетворява условията на определение Al. Да означим с C О B семейството от носители (множества от вида) C = {x:(dP/dl)(x) > 0}, P О Pў. Нека C1,C2,... О C е редица, такава че

l(Ci) ®
sup
C О C 
l(C) Ј 1.

За всяко множество Ci съществува мярка Pi О Pў, за която то е носител - Ci = {x:(dPi/dl)(x) > 0}.
3. Сега вече лесно можем да конструраме търсената мярка:

m(A) =
е
i 
ci Pi(A) =
е
i 
cj
е
j 
cўj Pq(j)(A)
(3.4)
за някакви ci > 0, еci = 1 . Да означим плътността \'и p0 = dm/dl и нека Cm = ИCi е носителя на m.

Остава да покажем, че всяко разпределние P О P е е абсолютно непрекъснато по отношение на m. Нека m(A) = 0. Да означим с C носителя на P. Имаме

P(A) = P(ACm)+P(A
Cm
 
A
C
 
) +P(A
Cm
 
C).

Q.E.D.

Ще докажем едно твърдение, което всъщност е еквивалентно на факторизационната теорема.

Теорема 3 Нека статистиката S е достатъчна и Pq удовлетворява условието Am. Тогава съществува измерима функция g(q,s) такава, че п.с. по m е изпълнено равенството:

p(x,q) = dPq
dm
= g(q,S(x)).
(3.5)

Доказателство: Да означим s стойностите на статистиката S О Rm. За всяко борелово множество B М Rm имаме (S-1(B) М Rn е също борелово):

Gq (B) = у
х


S-1(B) 
dPq
dm
dm = у
х


S-1(B) 
p(x,q) dm(x)
(3.6)
и
n(B) = у
х


S-1(B) 
dm(x).

Поради абсолютната непрекъснатост съществува плътност g(q,s) в Rm такава, че

Gq (B) = у
х


B 
g(q,s) dn(s).
(3.7)

Да означим с g = s(S) s-алгебрата (или измеримото разделяне), породена от S. Нека сега е изпълнено определението 3.1. Нека разгледаме сега произволно A М Rn и B О g. Поради независимостта на условните вероятности от q, за всяко q е изпълнено равенството:

Pq (AЗB) = у
х


B 
P(A/S(x)) dPq(x).
От друга страна
m(AЗB) =
е
i 
ci Pq(i)(AЗB) =
е
i 
ci у
х


B 
P (AЗB /S(x)) dPq(i) =
= у
х


B 
P (AЗB /S(x)) d
е
i 
ci Pq(i) = у
х


B 
P(A/S(x)) dm(x) = у
х


B 
P(A/s) g(q,s) dn(s).

Значи условните вероятности на m и Pq по разделянето g съвпадат, следователно съвпадат и у.м.о. на вероятностите Pq и m. Да ги означим с E g. Те на зависят от q.

Pq(A) = у
х


A 
p(x,q) dm = у
х
P(A/S(x)) dPq =
у
х
P(A/s)dGq = у
х
P(A/s) g(s,q) dn(s) = у
х
P(A/S(x)) g(S(x),q) dm =
у
х
E g(IA) g(S(x),q) dm = у
х
E g(IA g(S(x),q)) dm = E E g(IA g(S(x),q)) = у
х


A 
g(S(x),q) dm.
Значи за всяко A имаме
у
х


A 
p(x,q) dm = у
х


A 
g(S(x),q) dm.
Това равенство очевидно е достатъчно за доказателството на теоремата - p(x,q) = g(S(x),q) п.с. по m. Q.E.D.

Доказателство: Ще докажем теорема 3.1 . Да означим с h(x) = (dm/dl)(x). Следователно,

h(x) g(q,S(x)) = dm
dl
dP
dm
= dP
dl
= p(q,S(x)) .
Q.E.D.

Коментар От горното доказателство се вижда, че условното математическо очакване по всяка от мерките Pq при условие достатъчна s-алгебра не зависи от параметъра q. Това условие е разбира се еквивалентно на понятието достатъчност. Нека отбележим, че у.м.о. са по различни вероятности, т.е. като оператори действуват в различни функционални пространства. За щастие притежаваме ограничените сл.в. Те са достатъчно много и принадлежат на всички L2 . За конкретност можем да фиксираме и вероятността m. Тогава можем да означаваме общото у.м.о. с E g.

За да цитириме и използуваме това удобно свойство, ще въведем следното определение.

Определение 9 Казваме, че разделянето g е достатъчно, ако условното математическо очакване по всяка от мерките Pq при условие g не зависи от параметъра q. Ще го означаваме с E g.

3.4  Някои примери

Пример 1 Пуасоново разпределение

Да разгледаме броящата мярка на точките с целочислени неотрицателни координати в Rn. По отношение на нея правдоподобието на n наблюдения x = {k1,k2,...,kn}ў може да се запише във формата:

p(x,q) = e-nq n
Х
i = 1 
qki
ki!
. = e-nq+ еkilnq ( n
Х
i = 1 
ki!)-1.
(3.8)
Тук лесно се вижда, че една възможна достатъчна статистика е S(x) = еki, функцията g(q,s) = exp(-nq+slnq), а функцията h(x) = (Хni = 1 ki!)-1 .

Пример 2 Гама разпределение

Сега имаме два параметъра: q = {a,l}. По отношение на мярката на Лебег върху R+n правдоподобието на n наблюдения x = {x1,x2,...,xn}ў може да се запише във формата:

p(x,q) = n
Х
i = 1 
la
G(a)
xia-1 e-lxi = lna G(a)-n exp(-l е
xi+(a-1) е
lnxi).
(3.9)

Като приемем h(x) = 1, една възможна двумерна достатъчна статистика е S(x) = {еxi, еlnxi}. Когато оценяваме само параметъра l, достатъчна статистика може да е S(x) = еxi, а при оценка на a - S(x) = еlnxi

Пример 3 Едномерно нормално разпределение с 2 неизвестни параметъра q = {m,s}.

По отношение на лебеговата мярка в Rn правдоподобието на n наблюдения x = {x1,x2,...,xn}ў може да се запише във формата:

p(x,q) = (2ps2)-n/2 n
Х
i = 1 
e-(xi-m)2/2s2 = cn exp(- n lns- 1
2s2
( е
xi2 - 2m е
xi +n m2))

Значи достатъчна статистика може да бъде двойката еxi и еxi2. Ако оценяваме само m, достатъчна статистика може да е само S(x) = еxi. Наистина, в този случай g(q,s) = exp([1/( 2s2)](2ms - n m2)) , а всичко останало, не зависещо от q, влиза в h(x).


Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 4 Jun 1999, 15:57.