Лекция 2
Прости непараметрични методи

Идеята на тази лекция е да илюстира някои прости статистически разсъждения. Въз основа на данните ще правим заключения за неизвестните параметри (или други качества) на генералната съвкупност.

Основната идея на математическата статистика е разглеждане на наблюденията (и различни функции от тях) като сл.в. Това, както вече видяхме в първата лекция, безусловно налага използуването на чисто вероятностни методи на разсъждение.

Така при числови наблюдения се вижда, че вероятностния модел на вариационния ред е векторна случайна величина - функция от вектора x1,x2,...,xn, а извадъчната функция на разпределние става случайна функция.

В тази лекция ще разгледаме няколко примера на възможно най- прости вероятностни разсъждения в статистиката. Тези примери не се нуждаят от особено силни предположения и, съответно, не притежават други добри качества освен простотата си.

2.1  Тест на знаците

Нека са дадени две извадки от различни съвкупности с еднакъв обем x1, x2, ..., xn и y1,y2,..., yn. При това се предполага, че наблюденията са сдвоени, т.е. на всяко xi съответствува yi.

Такава ситуация възниква често в практиката. Например, когато мерим някаква характеристика върху едни и същи обекти преди и след въздействието с някакъв химикал или състоянието на болни преди и след лечението с определено лекарство. Често наричаме такива наблюдения повторни.

По-естествено е да се говори за една извадка от генерална съвкупност, на която всеки обект притежава два (или повече) параметъра от един и същи тип подлежащи на измерване.

Да си поставим задачата да отговорим на въпроса за наличието или не на съществена разлика между двете измервания (преди и след даването на лекарство, например). Да разгледаме статистиката (функция от наблюденията) Z = # {i:yi > xi }) - "броят на положителните разлики между наблюденията ''след'' и ''преди''. Да се опитаме да проверим хипотезата, че лекарството не оказва съществено влияние. Тогава за всеки случаен конкретно избран пациент вероятността неговото измерване y да е по-голямо от x би трябвало да бъде равна на 1/2. Нека свържем с такова измерване сл.в. x приемаща стойности 1 (когато y > x) и 0 (в противен случай). Тъй като в математическата статистика се предполага, че извадката е от безкрайна съвкупност и резултатите от измерване на отделните обекти в извадката са независими, получаваме че статистиката Z е сума на n (броят на елементите в извадката) независими сл.в., т.е. има биномно разпределение B(n,1/2), ако хипотезата е верна.

Сега нека се спрем на целта на нашето лекарство - например, да повиши стойността на изследвания параметър. Ако то наистина действува, би трябвало P (x = 1) > 1/2. Значи и в извадката би трябвало да има повече позитивни резултати - Z би трябвало да нарастне.

Следователно, критична за нашата хипотеза област ще бъде локализирана в дясната част на биномното разпределение:

W = {Zn: Zn і i},     P (W) = n
е
k = i 
b(n,k,0.5) Ј a.

При големи стойности на n се използува интегралната теорема на Моавър - Лаплас. Това ни дава лесна възможност да намерим необходимото i. Така, ако броят на наблюденията с положителен знак Z > 0.5(n+1.68Ц(n)) ], би трябвало да отхвърлим хипотезата, че в двете измервания няма разлика. Вероятността да сбъркаме при такова твърдение е малка - a = 0.05.

2.2  Доверителен интервал за медиана

Нека си поставим за цел по n наблюдавани стойности да кажем нещо за неизвестната медиана m на разпределението. Да означим с x(1) Ј x(2) Ј ј Ј x(n) наредените по големина стойности на наблюденията (сл.в.).

Теорема 1 За всяко i < n/2

P (x(i) Ј m Ј x(n-i+1)) = 1- 2 ( 1
2
)n i-1
е
k = 0 
ж
з
и
n
k
ц
ч
ш
(2.1)

Доказателство:  Имаме равенствата:

P(x(i) Ј m Ј x(n-i+1)) =
1 - P(m < x(i)) - P(x(n-i+1) < m)
P(m < x(i)) =
P(x(n-i+1) < m) = ( 1
2
)n i-1
е
k = 0 
ж
з
и
n
k
ц
ч
ш
,
от които следва търсената формула. Вторият ред е всъщност изразяване на вероятността като сума от Биномни вероятности. Наистина, при n-те експеримента по - малко от i са успешни, т.е. под медианата. Q.E.D.

Така като заместим във формулата (2.1) стойностите на наблюденията, ние получаваме доверителен интервал за неизвестната медиана. Вероятността в дясно се нарича ниво на доверие, например, 0.95. При големи стойности на n е затруднително пресмятането на суми от биномни коефициенти. Тогава се използува интегралната теорема на Моавър - Лаплас. Това ни дава лесна възможност да намерим необходимото i. Така при ниво на доверие 0.95 получаваме: i = [ .5(n - 1.96 Цn)] Например, при n = 100 получаваме, че неизвестната медиана с вероятност 0.95 се намира между 40 и 61 членове на вариационния ред.

2.3  Тест на Ман-Уитни или Уилкоксън

Нека са дадени две независими извадки от различни съвкупности x1, x2,..., xnx и y1, y2, ..., yny възможно с различен обем. Проверяваме хипотезата, че двете съвкупности са еднакви - с еднакви медиани H0: mx = my - срещу алтернативата, че едната медиана е по - голяма от другата:
H1: mx < my.

Въвеждаме статистиката

Ux = nx
е
i = 1 
ny
е
j = 1 
dij,
(2.2)
където
dij = м
п
п
п
н
п
п
п
о
1
xi > yj;
1
2
xi = yj;
0
xi < yj.

Аналогично се пресмята Uy, при това се оказва, че

Ux+Uy = n1 n2
. Когато искаме да проверим хипотезата H0 очевидно доверителната област ще има вида:
P( U1-a Ј Ux) = 1-a.

При малки min (nx,ny) < 20 стоиностите на U1-a се взимат от специална таблица, а при големи се използува асимптотичното нормално разпределение на тази статистика:

E Ux = nx ny
2
,       D (Ux) = nx ny(nx+ny+1)
12
.




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.