Ще формулираме и докажем неравенството на Рао - Крамер в многомерния случай. Ще покажем свойствата на ефективните оценки.
Определение 1
Ще казваме, че семейството плътности f(x,q) е регулярно
(удовлетворява условието R), ако
D(S) і
1
E ((
¶logf(x,q)
¶q
)2)
. (7.1)
¶logf(x,q)
¶q
= k(q)(S-q). (7.2)
Доказателство: Да означим логаритъма на плътността l(x,q) = logf(x,q). В следващите сметки ще използуваме равенството:
|
|
| (7.3) |
| (7.4) |
|
|
Стойността в знаменателя от дясната страна на неравенството се нарича информация на Фишер и се означава с I(q).
Пример 1 Биномно разпределение B(n,q).
При едно наблюдение
|
Така информацията от едно наблюдение в схемата на Бернули е равна на 1/(q(1-q)). Когато имаме n наблюдения тя нараства пропорционално и става n/(q(1-q)).
|
Първо ще дадем обобщение на условието за регулярност.
Определение 2
Ще казваме, че семейството плътности f(x,q) е регулярно
(удовлетворява условието R), ако
Определение 3 Ще казваме, че една матрица А е неотрицателно определена (и ще пишем A і 0), ако за всеки вектор x е изпълнено неравенството xўAx і 0.
Съответно, строгото неравенство, ще съответствува на положителна определеност. Така неравенството A < B означава строга положителна определеност на матрицата B-A.
Лема 1
(Матричен аналог на неравенството на Коши - Буняковски)
Нека x и h са случайни матрици с еднакви
размерности. И съществува обратна на матрицата E hhў.
Тогава
E xxў і E xhў(E hhў)-1 E hxў.
Доказателство: Тъй като всяка матрица от вида E xxў е положително определена, имаме
|
Теорема 2
Нека семейството плътности f(x,q) е регулярно,
S е неизместена оценка на q,
произведена от n наблюдения,
и 0 < var( S) < Ґ.
Тогава
var(S) і
1
n
I-1(q). (7.5)
L(x,q) = n I(q) (S(x)-q),
f(x,q) = h(x) exp((S(x),A(q)) +B(q)), (7.6) |
¶Ai(q)
¶qj)
| = I(q).
|
|
Сега ще използуваме лема 7.1 като положим x = S-q, h = L . Тогава E xxў = var(S). От независимостта на xi получаваме E hhў = n I(q). Накрая E xhў = E (S-q) Lў = E. С това неравенство (7.5) е доказано.
Според лемата равенство в (7.6) е възможно само ако
|
В литературата по математическа статистика често се наричат ефективни оценки тези, за които е изпълнено равенство в неравенството на Рао-Крамер. Ние в пълно съгласие с [Боровков (1984)] ще ги наричаме R-ефективни и то само, ако правдоподобието е регулярно.
Теорема 3 R - ефективната оценка е оценка на максимално правдоподобие.
Доказателство: Нека S е R-ефективна. Тогава за производните на правдоподобието имаме
|
Значи L(x,S(x)) = 0. Ако означим с u = q-S, ще получим и единственост на екстремума по q:
|
Определение 4
Ще наричаме една оценка S асимптотически ефективна, когато
E (S-q)(S-q)ў =
1
n
I-1(q)+o(
1
n
).
Пример 2 Нормално разпределение N(m,s2).
Покажете, че м.п.о. оценката не е R-ефективна, но e асимптотически ефективна.
Първо да отбележим, че информацията на Фишер не зависи от мярката, относно която се разглежда правдоподобието. Наистина, нека l* е друга еквивалентна мярка и f*(x,q) - съответната плътност на наблюдението. Тогава
|
Но при диференциането по q вторият член пропада защото не зависи от q. Освен това I(q) е обект, число или матрица, определен на пространството, в което е параметъра. Това съображение ни навежда на мисълта, че можем да го определм за всяка статистика - функция на данните - и да го използуваме за сравняване на качествата на статистиките.
Определение 5
Нека статистиката S приема стойности в Rm и нейното
разпределение там притежава плътност g(s,q) по някаква,
незвисеща от q, мярка l.
Ще наричаме информация в статистиката S за параметъра q
матрицата:
IS(q) = E \gradq(logg(S,q))\gradq(logg(S,q))ў (7.7)
И тук се вижда, че така определената информационна матрица не зависи от избора на мярката l.
Теорема 4 Нека плътностите на данните f(x,q) и на
статистиката g(x,q) са регулярни, т.е. удовлетворават
условието R. Тогава:
| (7.8) |
|
|
Нека сега I = IS. Да разложим var(L) според правилата на условните дисперсии:
|
Когато, обаче информационната матрица е ''малка'', правдоподобието е ''плоско'', дисперсията на м.п. оценка - голяма и информационното и съдържание - малко. С други думи измерванията не носят голяма информация.
Накратко казано, информационната матрица на Фишер ни дава представа за количеството информация в наблюденията. Това, обаче, не е единствената информация, с която разполагаме. Бейсовите методи включват и априорна информация за разпределението на неизвестните параметри. Така общата ни информация става сума на априорната и тази на Фишер.