Лекция 7
Информация на Фишер

Ще формулираме и докажем неравенството на Рао - Крамер в многомерния случай. Ще покажем свойствата на ефективните оценки.

7.1 Неравенство на Рао - Крамер - едномерен случай

Определение 1 Ще казваме, че семейството плътности f(x,q) е регулярно (удовлетворява условието R), ако

f(x,q) > 0, x О X п.н. l;
f(x,q) притежава производни по q О Q, x О X;
съществува E (([(¶logf)/( ¶q)])²) < Ґ

Теорема 1 (Рао - Крамер) Ако q е едномерен параметър, семейството плътности f(x,q) е регулярно, S е неизместена оценка на q, такава че E S² < Ґ, то е валидно следното неравенство:

D(S) і

E ((

¶logf(x,q)

¶q

)²)

(7.1)

При това, равенство се достига само ако

¶logf(x,q)
¶q
= k(q)(S-q).
(7.2)

Доказателство: Да означим логаритъма на плътността l(x,q) = logf(x,q). В следващите сметки ще използуваме равенството:

lў\opr lў(x,q) =

¶l(x,q)

¶q

¶f

¶q

/ f = fў/f,

което е изпълнено винаги, когато функцията f е положителна. Първо да покажем, че съществува следният интеграл:

у
х

¶f(x,q)

¶q

dx =

у
х

f(x,q)

¶logf(x,q)

¶q

f(x,q)

dx Ј

(E |S²|)^¹/₂(E ((

¶logf

¶q

)²))^¹/₂ < Ґ.

Тогава можем да диференцираме по q двата интеграла:

¶q

у
х

f(x,q) dx =

у
х

¶f(x,q)

¶q

dx = E

¶logf(x,q)

¶q

= 0.

(7.3)

¶q

E(S) =

¶q

у
х

S(x)f(x,q) dx =

у
х

¶f(x,q)

¶q

dx = E S

¶logf(x,q)

¶q

= 1.

(7.4)

Тогава имаме:

1 =

у
х

(S-q)

¶logf(x,q)

¶q

f(x,q)dx = E (S-q)

¶logf(x,q)

¶q

D(S)^¹/₂(E (

¶logf

¶q

)²)^¹/₂.

Неравенството следва веднага след вдигане на квадрат. Обратно, когато се достига равенство двете подинтегрални функции трябва да са пропорционални. Това значи, че съществува константа по x (може би зависеща от q) k(q), така че е изпълнено равенство (7.2). Q.E.D.

Стойността в знаменателя от дясната страна на неравенството се нарича информация на Фишер и се означава с I(q).

Пример 1 Биномно разпределение B(n,q).

При едно наблюдение

f(q,x) = q^x(1-q)^1-x, x = 0,1,

l(q,x) = lnf(q,x) = xlnq+ (1-x)ln(1-q)

lў(q,x) =

1-x

1-q

E (lў(q,x))² = q

q²

-(1-q)

(1-q)²

I(q) =

q(1-q)

Така информацията от едно наблюдение в схемата на Бернули е равна на 1/(q(1-q)). Когато имаме n наблюдения тя нараства пропорционално и става n/(q(1-q)).

7.2 Многомерен случай

Когато q О R^m , ще имаме работа с информационна матрица на Фишер I за наблюдението x:

I_i,j (q) = E _q lў_i lў_j, l(x,q) = f(x,q), lў_i =

¶l(x,theta)

¶q_j

Първо ще дадем обобщение на условието за регулярност.

Определение 2 Ще казваме, че семейството плътности f(x,q) е регулярно (удовлетворява условието R), ако

f(x,q) > 0, x О X ;
f(x,q) притежава производни по q О Q, x О X п.н. l;
съществува E (lў_i²) < Ґ
матрицата I = |I_i,j (q)| е строго положително определена.

Преди да се заемем с формулировката и доказателството на теоремата да въведем неравенства за квадратни матрици.

Определение 3 Ще казваме, че една матрица А е неотрицателно определена (и ще пишем A і 0), ако за всеки вектор x е изпълнено неравенството xўAx і 0.

Съответно, строгото неравенство, ще съответствува на положителна определеност. Така неравенството A < B означава строга положителна определеност на матрицата B-A.

Лема 1 (Матричен аналог на неравенството на Коши - Буняковски) Нека x и h са случайни матрици с еднакви размерности. И съществува обратна на матрицата E hhў. Тогава

E xxў і E xhў(E hhў)^-1 E hxў.

Равенство се достига само ако x = zh, където полагаме z = E xhў(E hhў)^-1.

Доказателство: Тъй като всяка матрица от вида E xxў е положително определена, имаме

0 Ј E (x-z h)(x-z h)ў =

E xxў- (E xhў) zў- zE hxў+ z(E hhў)zў =

E xxў- E xhў(E hhў)^-1 E hxў.

Q.E.D.

Теорема 2 Нека семейството плътности f(x,q) е регулярно, S е неизместена оценка на q, произведена от n наблюдения, и 0 < var( S) < Ґ. Тогава

Валидно е следното неравенство:

var(S) і 1
n
I^-1(q).
(7.5)

При това, равенство се достига само при експоненциални семейства от вида:

L(x,q) = n I(q) (S(x)-q),
f(x,q) = h(x) exp((S(x),A(q)) +B(q)),
(7.6)
| ¶A_i(q)
¶q_j)
| = I(q).

Доказателство: Да означим вектора от производните на логаритъма на правдоподобието на n наблюдения с L(x,q) = еⁿ_{i = 1} lў(x_i,q) О R^m. Съшо както в едномерния случай получаваме матричните равенства (E -единична матрица):

E L = 0, E S Lў = E, E (S - q) Lў = E

Нека проверим, например, второто (аналог на равенство (7.4):

d_i,j =

¶q_i

q_j =

¶q_i

E(S_j) =

¶q_i

у
х

S_j(x)f(x,q) dx =

у
х

S_j(x)

¶f(x,q)

¶q_i

dx = E S_j(x)

¶logf(x,q)

¶q_i

= E S_j lў_{q_i}

Сега ще използуваме лема 7.1 като положим x = S-q, h = L . Тогава E xxў = var(S). От независимостта на x_i получаваме E hhў = n I(q). Накрая E xhў = E (S-q) Lў = E. С това неравенство (7.5) е доказано.

Според лемата равенство в (7.6) е възможно само ако

S-q = (nI)^-1 Lў, или L(x,q) = n I(q) (S(x)-q).

Сега остана да проинтегрираме това представяне на производните L за да получим представянето (7.6). Q.E.D.

В литературата по математическа статистика често се наричат ефективни оценки тези, за които е изпълнено равенство в неравенството на Рао-Крамер. Ние в пълно съгласие с [Боровков (1984)] ще ги наричаме R-ефективни и то само, ако правдоподобието е регулярно.

Теорема 3 R - ефективната оценка е оценка на максимално правдоподобие.

Доказателство: Нека S е R-ефективна. Тогава за производните на правдоподобието имаме

L(x,q) = n I(q) (S(x)-q).

Значи L(x,S(x)) = 0. Ако означим с u = q-S, ще получим и единственост на екстремума по q:

uўL = -uўn I(q)u Ј 0

, което следва от положителната определеност на I. Q.E.D.

Определение 4 Ще наричаме една оценка S асимптотически ефективна, когато

E (S-q)(S-q)ў =

I^-1(q)+o(

Пример 2 Нормално разпределение N(m,s²).

Покажете, че м.п.о. оценката не е R-ефективна, но e асимптотически ефективна.

7.3 Достатъчност и информация

Първо да отбележим, че информацията на Фишер не зависи от мярката, относно която се разглежда правдоподобието. Наистина, нека l^* е друга еквивалентна мярка и f^*(x,q) - съответната плътност на наблюдението. Тогава

f^*(x,q) = f(x,q)

dl^*

logf^*(x,q) = logf(x,q)+log

dl^*

Но при диференциането по q вторият член пропада защото не зависи от q. Освен това I(q) е обект, число или матрица, определен на пространството, в което е параметъра. Това съображение ни навежда на мисълта, че можем да го определм за всяка статистика - функция на данните - и да го използуваме за сравняване на качествата на статистиките.

Определение 5 Нека статистиката S приема стойности в R^m и нейното разпределение там притежава плътност g(s,q) по някаква, незвисеща от q, мярка l. Ще наричаме информация в статистиката S за параметъра q матрицата:

I^S(q) = E \grad_q(logg(S,q))\grad_q(logg(S,q))ў

(7.7)

И тук се вижда, че така определената информационна матрица не зависи от избора на мярката l.

Теорема 4 Нека плътностите на данните f(x,q) и на статистиката g(x,q) са регулярни, т.е. удовлетворават условието R. Тогава:

I^S(q) Ј I(q);
равенство се достига тогава и само тогава, когато S е достатъчна.

Доказателство: Да означим вектора от производните на логаритъма на плътността на статистиката: G(s,q) = {[(dlogg(s,q))/( dq_i)]}. Просто проверяваме, че

E _S L \opr E ( L(x,q) |S = s) = G(s,q)

(7.8)

Сега разглеждаме неравенството:

0 Ј E (L-G)(L-G)ў = I(q) -E L Gў- E G Lў+ I^S(q),

E G Lў = E E _S G Lў = E G E _S Lў = E G Gў = I^S(q) = E L Gў,

0 Ј I(q)- I^S(q).

Когато статистиката S е достатъчна f(x,q) = g(S(x),q)h(x). От тук следва, че

I(q) = E LLў = E GGў = I^S(q).

Нека сега I = I^S. Да разложим var(L) според правилата на условните дисперсии:

I = var(L) = E (L-G)(L-G)ў+ E GGў;

(7.9)

0 = E (L-G)(L-G)ў; L(x,q) = G(S(x),q) п.с.

(7.10)

Следователно съществува измерима функция f, такава че L(x,q) = f(S(x),q), значи S е достатъчна. Q.E.D.

7.4 Изводи

Информационната матрица на Фишер описва кривината на (логаритъма на) правдоподобието в точката на неговия максимум (модата на плътността). Информационното съдържание е голямо, когато кривината е ''голяма'' защото тогава правдоподобието е островърхо и, следователно, оценката на максимално правдоподобие има малка дисперсия.

Когато, обаче информационната матрица е ''малка'', правдоподобието е ''плоско'', дисперсията на м.п. оценка - голяма и информационното и съдържание - малко. С други думи измерванията не носят голяма информация.

Накратко казано, информационната матрица на Фишер ни дава представа за количеството информация в наблюденията. Това, обаче, не е единствената информация, с която разполагаме. Бейсовите методи включват и априорна информация за разпределението на неизвестните параметри. Така общата ни информация става сума на априорната и тази на Фишер.

Начало на лекцията | Съдържание | Индекс

File translated from T_EX by T_TH, version 2.10.
On 4 Jun 1999, 15:57.

Лекция 7 Информация на Фишер

7.1 Неравенство на Рао - Крамер - едномерен случай

7.2 Многомерен случай

7.3 Достатъчност и информация

7.4 Изводи

Начало на лекцията | Съдържание | Индекс

Лекция 7
Информация на Фишер