Идеята на тази лекция е да илюстира някои прости статистически разсъждения. Въз основа на данните ще правим заключения за неизвестните параметри (или други качества) на генералната съвкупност.
Основната идея на математическата статистика е разглеждане на наблюденията (и различни функции от тях) като сл.в. Това, както вече видяхме в първата лекция, безусловно налага използуването на чисто вероятностни методи на разсъждение.
Така при числови наблюдения се вижда, че вероятностния модел на вариационния ред е векторна случайна величина - функция от вектора x1,x2,...,xn, а извадъчната функция на разпределние става случайна функция.
В тази лекция ще разгледаме няколко примера на възможно най- прости вероятностни разсъждения в статистиката. Тези примери не се нуждаят от особено силни предположения и, съответно, не притежават други добри качества освен простотата си.
Нека са дадени две извадки от различни съвкупности с еднакъв обем x1, x2, ..., xn и y1,y2,..., yn. При това се предполага, че наблюденията са сдвоени, т.е. на всяко xi съответствува yi.
Такава ситуация възниква често в практиката. Например, когато мерим някаква характеристика върху едни и същи обекти преди и след въздействието с някакъв химикал или състоянието на болни преди и след лечението с определено лекарство. Често наричаме такива наблюдения повторни.
По-естествено е да се говори за една извадка от генерална съвкупност, на която всеки обект притежава два (или повече) параметъра от един и същи тип подлежащи на измерване.
Да си поставим задачата да отговорим на въпроса за наличието или не на съществена разлика между двете измервания (преди и след даването на лекарство, например). Да разгледаме статистиката (функция от наблюденията) Z = # {i:yi > xi }) - "броят на положителните разлики между наблюденията ''след'' и ''преди''. Да се опитаме да проверим хипотезата, че лекарството не оказва съществено влияние. Тогава за всеки случаен конкретно избран пациент вероятността неговото измерване y да е по-голямо от x би трябвало да бъде равна на 1/2. Нека свържем с такова измерване сл.в. x приемаща стойности 1 (когато y > x) и 0 (в противен случай). Тъй като в математическата статистика се предполага, че извадката е от безкрайна съвкупност и резултатите от измерване на отделните обекти в извадката са независими, получаваме че статистиката Z е сума на n (броят на елементите в извадката) независими сл.в., т.е. има биномно разпределение B(n,1/2), ако хипотезата е верна.
Сега нека се спрем на целта на нашето лекарство - например, да повиши стойността на изследвания параметър. Ако то наистина действува, би трябвало P (x = 1) > 1/2. Значи и в извадката би трябвало да има повече позитивни резултати - Z би трябвало да нарастне.
Следователно, критична за нашата хипотеза област ще бъде локализирана в дясната част на биномното разпределение:
|
При големи стойности на n се използува интегралната теорема на Моавър - Лаплас. Това ни дава лесна възможност да намерим необходимото i. Така, ако броят на наблюденията с положителен знак Z > 0.5(n+1.68Ц(n)) ], би трябвало да отхвърлим хипотезата, че в двете измервания няма разлика. Вероятността да сбъркаме при такова твърдение е малка - a = 0.05.
Нека си поставим за цел по n наблюдавани стойности да кажем нещо за неизвестната медиана m на разпределението. Да означим с x(1) Ј x(2) Ј ј Ј x(n) наредените по големина стойности на наблюденията (сл.в.).
Теорема 1 За всяко i < n/2
P (x(i) Ј m Ј x(n-i+1)) = 1- 2 (
1
2
)n
i-1
е
k = 0
ж
з
и
n
k
ц
ч
ш
(2.1)
Доказателство: Имаме равенствата:
|
Така като заместим във формулата (2.1) стойностите на наблюденията, ние получаваме доверителен интервал за неизвестната медиана. Вероятността в дясно се нарича ниво на доверие, например, 0.95. При големи стойности на n е затруднително пресмятането на суми от биномни коефициенти. Тогава се използува интегралната теорема на Моавър - Лаплас. Това ни дава лесна възможност да намерим необходимото i. Така при ниво на доверие 0.95 получаваме: i = [ .5(n - 1.96 Цn)] Например, при n = 100 получаваме, че неизвестната медиана с вероятност 0.95 се намира между 40 и 61 членове на вариационния ред.
Нека са дадени две независими извадки от различни съвкупности
x1, x2,..., xnx и y1, y2, ..., yny възможно
с различен
обем. Проверяваме хипотезата, че двете съвкупности са еднакви -
с еднакви медиани H0: mx = my - срещу алтернативата, че
едната медиана е по - голяма от другата:
H1: mx < my.
Въвеждаме статистиката
| (2.2) |
|
Аналогично се пресмята Uy, при това се оказва, че
|
|
При малки min (nx,ny) < 20 стоиностите на U1-a се взимат от специална таблица, а при големи се използува асимптотичното нормално разпределение на тази статистика:
|