Лекция 7
Информация на Фишер

Ще формулираме и докажем неравенството на Рао - Крамер в многомерния случай. Ще покажем свойствата на ефективните оценки.

7.1  Неравенство на Рао - Крамер - едномерен случай

Определение 1 Ще казваме, че семейството плътности f(x,q) е регулярно (удовлетворява условието R), ако

  1. f(x,q) > 0,    x О X п.н. l;
  2. f(x,q) притежава производни по q О Q,    x О X;
  3. съществува E (([(logf)/( q)])2) < Ґ

Теорема 1 (Рао - Крамер) Ако q е едномерен параметър, семейството плътности f(x,q) е регулярно, S е неизместена оценка на q, такава че E S2 < Ґ, то е валидно следното неравенство:

D(S) і 1
E (( logf(x,q)
q
)2)
.
(7.1)
При това, равенство се достига само ако
logf(x,q)
q
= k(q)(S-q).
(7.2)

Доказателство: Да означим логаритъма на плътността l(x,q) = logf(x,q). В следващите сметки ще използуваме равенството:

lў\opr lў(x,q) = l(x,q)
q
= f
q
/ f = fў/f,
което е изпълнено винаги, когато функцията f е положителна. Първо да покажем, че съществува следният интеграл:
у
х


X 
S f(x,q)
q
dx = у
х


X 
SЦ
f(x,q)
 
logf(x,q)
q
Ц
f(x,q)
 
dx Ј
(E |S2|)1/2(E (( logf
q
)2))1/2 < Ґ.
Тогава можем да диференцираме по q двата интеграла:

q
у
х


X 
f(x,q) dx = у
х


X 
f(x,q)
q
dx = E  logf(x,q)
q
= 0.
(7.3)

q
E(S) =
q
у
х


X 
S(x)f(x,q) dx = у
х


X 
S f(x,q)
q
dx = E S logf(x,q)
q
= 1.
(7.4)
Тогава имаме:
1 = у
х


X 
(S-q) logf(x,q)
q
f(x,q)dx = E (S-q) logf(x,q)
q
Ј
D(S)1/2(E ( logf
q
)2)1/2.
Неравенството следва веднага след вдигане на квадрат. Обратно, когато се достига равенство двете подинтегрални функции трябва да са пропорционални. Това значи, че съществува константа по x (може би зависеща от q) k(q), така че е изпълнено равенство (7.2). Q.E.D.

Стойността в знаменателя от дясната страна на неравенството се нарича информация на Фишер и се означава с I(q).

Пример 1 Биномно разпределение B(n,q).

При едно наблюдение

f(q,x) = qx(1-q)1-x,       x = 0,1,
l(q,x) = lnf(q,x) = xlnq+ (1-x)ln(1-q)
lў(q,x) = x
q
- 1-x
1-q
E (lў(q,x))2 = q 1
q2
-(1-q) 1
(1-q)2
I(q) = 1
q(1-q)

Така информацията от едно наблюдение в схемата на Бернули е равна на 1/(q(1-q)). Когато имаме n наблюдения тя нараства пропорционално и става n/(q(1-q)).

7.2  Многомерен случай

Когато q О Rm , ще имаме работа с информационна матрица на Фишер I за наблюдението x:

Ii,j (q) = E q lўi lўj,   l(x,q) = f(x,q),   lўi = l(x,theta)
qj
.

Първо ще дадем обобщение на условието за регулярност.

Определение 2 Ще казваме, че семейството плътности f(x,q) е регулярно (удовлетворява условието R), ако

  1. f(x,q) > 0,    x О X ;
  2. f(x,q) притежава производни по q О Q,    x О X п.н. l;
  3. съществува E (lўi2) < Ґ
  4. матрицата I = |Ii,j (q)| е строго положително определена.

Преди да се заемем с формулировката и доказателството на теоремата да въведем неравенства за квадратни матрици.

Определение 3 Ще казваме, че една матрица А е неотрицателно определена (и ще пишем A і 0), ако за всеки вектор x е изпълнено неравенството xўAx і 0.

Съответно, строгото неравенство, ще съответствува на положителна определеност. Така неравенството A < B означава строга положителна определеност на матрицата B-A.

Лема 1 (Матричен аналог на неравенството на Коши - Буняковски) Нека x и h са случайни матрици с еднакви размерности. И съществува обратна на матрицата E hhў. Тогава

E xxў і E xhў(E hhў)-1 E hxў.
Равенство се достига само ако x = zh, където полагаме z = E xhў(E hhў)-1.

Доказателство: Тъй като всяка матрица от вида E xxў е положително определена, имаме

0 Ј E (x-z h)(x-z h)ў =
E xxў- (E xhў) zў- zE hxў+ z(E hhў)zў =
E xxў- E xhў(E hhў)-1 E hxў.
Q.E.D.

Теорема 2 Нека семейството плътности f(x,q) е регулярно, S е неизместена оценка на q, произведена от n наблюдения, и 0 < var( S) < Ґ. Тогава

  1. Валидно е следното неравенство:
    var(S) і 1
    n
    I-1(q).
    (7.5)
  2. При това, равенство се достига само при експоненциални семейства от вида:
    L(x,q) = n I(q) (S(x)-q),
    f(x,q) = h(x) exp((S(x),A(q)) +B(q)),
    (7.6)
    | Ai(q)
    qj)
    | = I(q).

Доказателство:  Да означим вектора от производните на логаритъма на правдоподобието на n наблюдения с L(x,q) = еni = 1 lў(xi,q) О Rm. Съшо както в едномерния случай получаваме матричните равенства (E -единична матрица):

E L = 0,    E S Lў = E,    E (S - q) Lў = E
Нека проверим, например, второто (аналог на равенство (7.4):

di,j =
qi
qj =
qi
E(Sj) =
qi
у
х


X 
Sj(x)f(x,q) dx =
у
х


X 
Sj(x) f(x,q)
qi
dx = E Sj(x) logf(x,q)
qi
= E Sj lўqi

Сега ще използуваме лема 7.1 като положим x = S-q, h = L . Тогава E xxў = var(S). От независимостта на xi получаваме E hhў = n I(q). Накрая E xhў = E (S-q) Lў = E. С това неравенство (7.5) е доказано.

Според лемата равенство в (7.6) е възможно само ако

S-q = (nI)-1 Lў,   или    L(x,q) = n I(q) (S(x)-q).
Сега остана да проинтегрираме това представяне на производните L за да получим представянето (7.6). Q.E.D.

В литературата по математическа статистика често се наричат ефективни оценки тези, за които е изпълнено равенство в неравенството на Рао-Крамер. Ние в пълно съгласие с [Боровков (1984)] ще ги наричаме R-ефективни и то само, ако правдоподобието е регулярно.

Теорема 3 R - ефективната оценка е оценка на максимално правдоподобие.

Доказателство: Нека S е R-ефективна. Тогава за производните на правдоподобието имаме

L(x,q) = n I(q) (S(x)-q).

Значи L(x,S(x)) = 0. Ако означим с u = q-S, ще получим и единственост на екстремума по q:

uўL = -uўn I(q)u Ј 0
, което следва от положителната определеност на I. Q.E.D.

Определение 4 Ще наричаме една оценка S асимптотически ефективна, когато

E (S-q)(S-q)ў = 1
n
I-1(q)+o( 1
n
).

Пример 2 Нормално разпределение N(m,s2).

Покажете, че м.п.о. оценката не е R-ефективна, но e асимптотически ефективна.

7.3  Достатъчност и информация

Първо да отбележим, че информацията на Фишер не зависи от мярката, относно която се разглежда правдоподобието. Наистина, нека l* е друга еквивалентна мярка и f*(x,q) - съответната плътност на наблюдението. Тогава

f*(x,q) = f(x,q) dl
dl*
logf*(x,q) = logf(x,q)+log dl
dl*
.

Но при диференциането по q вторият член пропада защото не зависи от q. Освен това I(q) е обект, число или матрица, определен на пространството, в което е параметъра. Това съображение ни навежда на мисълта, че можем да го определм за всяка статистика - функция на данните - и да го използуваме за сравняване на качествата на статистиките.

Определение 5 Нека статистиката S приема стойности в Rm и нейното разпределение там притежава плътност g(s,q) по някаква, незвисеща от q, мярка l. Ще наричаме информация в статистиката S за параметъра q матрицата:

IS(q) = E \gradq(logg(S,q))\gradq(logg(S,q))ў
(7.7)

И тук се вижда, че така определената информационна матрица не зависи от избора на мярката l.

Теорема 4 Нека плътностите на данните f(x,q) и на статистиката g(x,q) са регулярни, т.е. удовлетворават условието R. Тогава:

  1. IS(q) Ј I(q);
  2. равенство се достига тогава и само тогава, когато S е достатъчна.

Доказателство: Да означим вектора от производните на логаритъма на плътността на статистиката: G(s,q) = {[(dlogg(s,q))/( dqi)]}. Просто проверяваме, че

E S L \opr E ( L(x,q) |S = s) = G(s,q)
(7.8)
Сега разглеждаме неравенството:
0 Ј E (L-G)(L-G)ў = I(q) -E L Gў- E G Lў+ IS(q),
E G Lў = E E S G Lў = E G E S Lў = E G Gў = IS(q) = E L Gў,
0 Ј I(q)- IS(q).
Когато статистиката S е достатъчна f(x,q) = g(S(x),q)h(x). От тук следва, че
I(q) = E LLў = E GGў = IS(q).

Нека сега I = IS. Да разложим var(L) според правилата на условните дисперсии:

I = var(L) = E (L-G)(L-G)ў+ E GGў;
(7.9)
0 = E (L-G)(L-G)ў;       L(x,q) = G(S(x),q) п.с.
(7.10)
Следователно съществува измерима функция f, такава че L(x,q) = f(S(x),q), значи S е достатъчна. Q.E.D.

7.4  Изводи

Информационната матрица на Фишер описва кривината на (логаритъма на) правдоподобието в точката на неговия максимум (модата на плътността). Информационното съдържание е голямо, когато кривината е ''голяма'' защото тогава правдоподобието е островърхо и, следователно, оценката на максимално правдоподобие има малка дисперсия.

Когато, обаче информационната матрица е ''малка'', правдоподобието е ''плоско'', дисперсията на м.п. оценка - голяма и информационното и съдържание - малко. С други думи измерванията не носят голяма информация.

Накратко казано, информационната матрица на Фишер ни дава представа за количеството информация в наблюденията. Това, обаче, не е единствената информация, с която разполагаме. Бейсовите методи включват и априорна информация за разпределението на неизвестните параметри. Така общата ни информация става сума на априорната и тази на Фишер.




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 4 Jun 1999, 15:57.