Лекция 14
Оценка на плътности

Както видяхме в предишните лекции много важни за статистическите изводи са качествата на изследваната плътност на разпределение. В тази лекция ще разгледаме накратко най-разпространените методи за непараметрична оценка на плътности. Думата непараметрична използуваме за да подчертаем, че няма да използуваме някое известно семейство разпределения като, например, гаусовото или гама разпределенията. За такива семейства задачата се свежда до оценка на неизвестните параметри по данните и се решава с методите на точково оценяване.

14.1 Криви на Пирсън

Кривите на Пирсън са всъшност пак семейство от разпределения, но с 4 параметъра. Методът се основава на семейството от плътности удовлетворяващи следното диференциално уравнение:

d p(x)

d x

x-a

b₀+b₁ x+ b₂ x²

p(x)

(14.1)

В зависимост от типа на корените a₁ Ј a₂ на полинома в знаменателя P(x) = b₀+b₁ x+ b₂ x², получаваме 12 различни типа плътности. Всичките са унимодални. В таблицата ще покажем най-важните 7 типа. Останалите 5 се получават като частни случаи от тях.

Тип	Параметри	Плътност	Ограничения	Пример
	b₁ = b₂ = 0	c e^{¹/₂[((x+a)²)/( b₀)]}	b₀ < 0	Нормално
I	b₂ > 0, a₁ № a₂	c(1+[(x)/( a₁)])^p₁(1-[(x)/( a₂)])^p₂	-a₁ < x < a₂, -1 < p₁,p₂	Бета
II	b₂ > 0,-a₁ = a₂ = a	c (1-[(x²)/( a²)])^p	\|x\| < a, p > -1/2	Равномерно
III	b₂ = 0, b₁ № 0	c (1 + ^x/_a)^pe^-mx	-a < x < Ґ, 0 < m, -1 < p	Гама, c²
IV	b₂ № 0, P(x) > 0	c (1+ [(x²)/( a²)])^p e^{-marctg(^x/_a)}	0 < a, 0 < m, p < -1/2
V	P(x) = c (x-a)²	c x^-p e^{^a/_x}	0 < x, 0 < a, 1 < p	от тип III
VI	b₂ > 0, a₁ № a₂	c(1+[(x)/( a₁)])^p₁(1-[(x)/( a₂)])^p₂	a₂ < x, -1 < p₂, p₁+p₂ < -1	Фишер
VII	b₁ = 0, b₀b₂ > 0	c (1 + ^x/_a)^-p	p > 1/2	Стюдент

Коефициентите в уравнението (14.1) се определят еднозначно от първите 4 момента на разпределението. Това дава възможност, замествайки теоретичните с извадъчните моменти и решавайки уравнението, да получим смислена оценка на плътността, тъй като тези първи четири момента - м.о.,дисперсията, асиметрията и ексцеса - доста прилично описват формата на гладко унимодално разпределение.

Хубавото на кривите на Пирсън е, че сред тях са и повечето използувани в теорията на статистиката разпределения: гаусовото, гама, бета, Фишер, Стюдент, равномерно и др.

Подробно описание на типовете криви на Пирсън и методите за оценка на параметрите им може да се намери у [Поллард (1967)], [Митропольский, (1964)]

14.2 Изглаждане на хистограми

Когато апроксимирането с 4 параметъра не е достатъчно, се прибягва до истински непараметрични методи. Най-лесно това става чрез подходящо изглаждане на хистограмата или извадъчната функция на разпределение.

Най-лесно е простото свързване на средите на стълбчетата на хистограмата. За крайните стълбове се прави отстъп с по половин интервал. Естествено по-гладка крива би се получила при ''свързване'' с помощта на така наречените сплайн - функции. Това са криви, които във всеки интервал са полиноми, но така се слепват в краищата, че обеспечават освен равенство на стойностите си, равенство и на производните си. Най-разпространени са кубичните сплайни.

Фигура 14.1: Съдържания на апатит

14.3 Ядра на Розенблат - Парзен

Да означим с {x₁,x₂,...,x_n} независимите наблюдения на сл.в. с плътност f(x). Непараметричните ядрени оценки се задават във формата:

^
f

(x) =

n h_n

n
е
i = 1

x_i-x

h_n

(14.2)

където K(x) е подходящо избрана фиксирана гладка плътност, наричана ядро: K(x) і 0, K(-x) = K(x), тK(x) dx = 1, тx² K(x) dx = 1.тK²(x) dx < Ґ. Често се използува гаусово ядро. Редицата от константи h_n трябва да клони към нула, но така че n h_n ®Ґ.

Всички анализи на асимптотичното поведение на оценката f_n във фиксирана точка x₀ се основават на развитието в ред на Тейлор на плътността f около тази точка:

f(x) = f(x₀) +

k
е
i = 1

fⁱ(x₀)

(x-x₀)ⁱ+o(|x-x₀|^k)

(14.3)

Разбира се, то има смисъл, ако съществуват производните на неизвестната плътност f до ред k в точката x₀. Като поставим x-x₀ = y h_n и използуваме (14.3), получаваме, че изместването B_n на оценката е

B_n = E

^
f

(x₀) - f(x₀) =

у
х

K(y) (f(x₀ + y * h_n)- f(x₀)) dy =

fў(x₀) h_n

у
х

y K(y) dy+ fўў(x₀)

h_n

у
х

y² K(y) dy+... = O(h_n²)

От друга страна дисперсията на тази оценка (като сума на независими сл.в.) може да се оцени така:

D_n = D (

^
f

(x₀)) =

f(x₀)

nh_n

у
х

K²(y)dy+o(

nh_n

) = O(

nh_n

)

Така като използуваме равенството

E (

^
f

(x₀) - f(x₀))² = D_n + B²_n = O(

nh_n

) + O(h⁴_n),

(14.4)

получаваме, че асимптотично оптимален избор за константата h_n се получава при h_n = c n^-1/5 .

Начало на лекцията | Съдържание | Индекс

File translated from T_EX by T_TH, version 2.10.
On 5 Apr 1999, 17:47.

Лекция 14 Оценка на плътности

14.1 Криви на Пирсън

14.2 Изглаждане на хистограми

14.3 Ядра на Розенблат - Парзен

Начало на лекцията | Съдържание | Индекс

Лекция 14
Оценка на плътности