Лекция 14
Оценка на плътности

Както видяхме в предишните лекции много важни за статистическите изводи са качествата на изследваната плътност на разпределение. В тази лекция ще разгледаме накратко най-разпространените методи за непараметрична оценка на плътности. Думата непараметрична използуваме за да подчертаем, че няма да използуваме някое известно семейство разпределения като, например, гаусовото или гама разпределенията. За такива семейства задачата се свежда до оценка на неизвестните параметри по данните и се решава с методите на точково оценяване.

14.1  Криви на Пирсън

Кривите на Пирсън са всъшност пак семейство от разпределения, но с 4 параметъра. Методът се основава на семейството от плътности удовлетворяващи следното диференциално уравнение:

d p(x)
d x
= x-a
b0+b1 x+ b2 x2
p(x)
(14.1)
В зависимост от типа на корените a1 Ј a2 на полинома в знаменателя P(x) = b0+b1 x+ b2 x2, получаваме 12 различни типа плътности. Всичките са унимодални. В таблицата ще покажем най-важните 7 типа. Останалите 5 се получават като частни случаи от тях.

Тип Параметри Плътност Ограничения Пример
b1 = b2 = 0 c e1/2[((x+a)2)/( b0)] b0 < 0 Нормално
I b2 > 0, a1 a2 c(1+[(x)/( a1)])p1(1-[(x)/( a2)])p2 -a1 < x < a2, -1 < p1,p2 Бета
II b2 > 0,-a1 = a2 = a c (1-[(x2)/( a2)])p |x| < a, p > -1/2 Равномерно
III b2 = 0, b1 0 c (1 + x/a)pe-mx -a < x < Ґ, 0 < m, -1 < p Гама, c2
IV b2 0, P(x) > 0 c (1+ [(x2)/( a2)])p e-marctg(x/a) 0 < a, 0 < m, p < -1/2
V P(x) = c (x-a)2 c x-p ea/x 0 < x, 0 < a, 1 < p от тип III
VI b2 > 0, a1 a2 c(1+[(x)/( a1)])p1(1-[(x)/( a2)])p2 a2 < x, -1 < p2, p1+p2 < -1 Фишер
VII b1 = 0, b0b2 > 0 c (1 + x/a)-p p > 1/2 Стюдент

Коефициентите в уравнението (14.1) се определят еднозначно от първите 4 момента на разпределението. Това дава възможност, замествайки теоретичните с извадъчните моменти и решавайки уравнението, да получим смислена оценка на плътността, тъй като тези първи четири момента - м.о.,дисперсията, асиметрията и ексцеса - доста прилично описват формата на гладко унимодално разпределение.

Хубавото на кривите на Пирсън е, че сред тях са и повечето използувани в теорията на статистиката разпределения: гаусовото, гама, бета, Фишер, Стюдент, равномерно и др.

Подробно описание на типовете криви на Пирсън и методите за оценка на параметрите им може да се намери у [Поллард (1967)], [Митропольский, (1964)]

14.2  Изглаждане на хистограми

Когато апроксимирането с 4 параметъра не е достатъчно, се прибягва до истински непараметрични методи. Най-лесно това става чрез подходящо изглаждане на хистограмата или извадъчната функция на разпределение.

Най-лесно е простото свързване на средите на стълбчетата на хистограмата. За крайните стълбове се прави отстъп с по половин интервал. Естествено по-гладка крива би се получила при ''свързване'' с помощта на така наречените сплайн - функции. Това са криви, които във всеки интервал са полиноми, но така се слепват в краищата, че обеспечават освен равенство на стойностите си, равенство и на производните си. Най-разпространени са кубичните сплайни.

histo_sm.gif
Фигура 14.1: Съдържания на апатит

14.3  Ядра на Розенблат - Парзен

Да означим с {x1,x2,...,xn} независимите наблюдения на сл.в. с плътност f(x). Непараметричните ядрени оценки се задават във формата:

^
f
 

n 
(x) = 1
n hn
n
е
i = 1 
K( xi-x
hn
),
(14.2)
където K(x) е подходящо избрана фиксирана гладка плътност, наричана ядро: K(x) і 0, K(-x) = K(x), тK(x) dx = 1, тx2 K(x) dx = 1.тK2(x) dx < Ґ. Често се използува гаусово ядро. Редицата от константи hn трябва да клони към нула, но така че n hn ®Ґ.

Всички анализи на асимптотичното поведение на оценката fn във фиксирана точка x0 се основават на развитието в ред на Тейлор на плътността f около тази точка:

f(x) = f(x0) + k
е
i = 1 
fi(x0)
i!
(x-x0)i+o(|x-x0|k)
(14.3)
Разбира се, то има смисъл, ако съществуват производните на неизвестната плътност f до ред k в точката x0. Като поставим x-x0 = y hn и използуваме (14.3), получаваме, че изместването Bn на оценката е
Bn = E  ^
f
 

n 
(x0) - f(x0) = у
х
K(y) (f(x0 + y * hn)- f(x0)) dy =
fў(x0) hn у
х
y K(y) dy+ fўў(x0) hn
2
у
х
y2 K(y) dy+... = O(hn2)
От друга страна дисперсията на тази оценка (като сума на независими сл.в.) може да се оцени така:
Dn = D ( ^
f
 

n 
(x0)) = f(x0)
nhn
у
х
K2(y)dy+o( 1
nhn
) = O( 1
nhn
)
Така като използуваме равенството
E ( ^
f
 

n 
(x0) - f(x0))2 = Dn + B2n = O( 1
nhn
) + O(h4n),
(14.4)
получаваме, че асимптотично оптимален избор за константата hn се получава при hn = c n-1/5 .




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.