Лекция 1
Статистика.

В тази лекция ще разгледаме основните методи на статистиката и ще се опитаме да намерим мястото на математиката в нея.

Понятието статистика е твърде широко. То включва в себе си както методи на просто преброяване и сгъстяване на информацията, така и методи за взимане на решения, основани на строги математически разсъждения. Да не говорим, че със същата дума ''статистика'' често означаваме и събраната информация - статистика зза футбола, например.

1.1  Събиране на данни

Думата статистика произлиза от латинския корен stata означаващ държава. В частност, statist това е държавен служител. Събирането на данни за населението (с цел ''осъвременяване'' на данъците) е било важна държавна работа от както съществува държавата. Известни са такива записи за всички изследвани цивилизации в миналото. И сега всяка държава поддържа съответния орган, който е длъжен да я снабдява с такава инфорнация. В България това е Централния статистически институт (ЦСИ), в САЩ - Central Statistical Office.

Основно понятие в статистиката е понятието ''генерална съвкупност''.

Определение 1 Генерална съвкупност наричаме множеството от обекти на изследване.

За едно изследване на ЦСИ това могат да бъдат:

За един орнитолог, който също използува методите на статистиката, това е популацията от щъркели, например. За преподавателя по статистика - това могат да бъдат студентите от неговия курс.

1.1.1  Изчерпателни данни

Наричаме изчерпателни данни данни, които напълно описват дадено явление. Такива са например данните получени при едно преброяване на населението в ЦСИ. За геолога, интересуващ се от съдържанието на желязо в Кремиковското находище, това ще е самото нахдище разделено на някакви малки обеми.

За съжаление такива данни рядко са достъпни, пък и струват прекалено скъпо. Когато не е възможно такова изследване и данните за интересуващото ни явление не са достъпни. Така че генералната съвкупност става абстрактно множество от обекти представляващо цел на нашето изследване.

1.1.2  Извадки

В практиката често се работи с т.нар. извадка, част от генералната съвкупност. По този начин, търсените характеристики на генералната съвкупност се оценяват по данните от извадката.

Основна цел е по даден непълен обем данни да се направи някакво правдоподобно заключение за генералната съвкупност като цяло. Този набор от обекти, който всъщност се изследва (премерва, разпитва) се нарича извадка. Извадките биват систематични, случайни или подходящи за целите на изследването комбинации от двата метода.

Определение 2 Извадка наричаме подмножеството от обекти на генералната съвкупност, достъпно за премерване.

Например, една систематична извадка на дадено находище предполага сондажи разположени равномерно по площта му. От друга страна при случайната извадка се предполага, че шанса на всеки обект от генералната съвкупност да попадне в извадката е равен - всички обекти са равноправни и изборът е напълно случаен. Далеч не винаги е възможно да си избираме с кой от двата метода да конструираме извадката.

1.1.3  Планиране на експеримента

В селското стопанство и техниката често възниква задачата да максимизираме добива или оптимизираме даден производствен процес.

Това става с помощта на така наречения планиран (селскостопански) експеримент. Избираме няколко полета, засяваме ги с различни сортове пшеница и ги торим с различни видове тор. Така ще подберем подходящата за нашите цели комбинация (сорт и тор). Как обаче да избегнем влиянието на различните видове почва и може би природни условия? Как да намалим максимално броя на експериментслните полета за и без това скъпия и продължителен опит? На това ни учи планирането на експеримента. Математическа наука - част от математическата статистика.

Както се вижда, едва ли можем да гледаме на резултатите от такъв опит като на извадка от нещо.

1.1.4  Временни редове

Често нашите наблюдения са над някакво явление или процес, който се променя във времето. Това може да бъде курса на долара в поредни дни или средната температура на въздуха в София.

Наблюдението и тук не е извадка. Въпреки това, както ще видим по нататък, теорията на случайните процеси ни дава достатъчни математически средства да анализираме такива данни и правим (понякога разумни) прогози.

1.2  Дескриптивна статистика

1.2.1  Числови и нечислови данни

Информацията, която представляват данните обикновено се различава по това как се записва - понякога това са числа: размери, тегло, бройки и т.н. Друг път това са нечислови характеристики като цвят, форма, вид химическо вещество и т.н. Ясно е, че даже и да кодираме с числа подобни данни, при тяхното изучаване и представяне трябва да се отчита тяхната нечислова природа.

1.2.2  Графични методи

Представянето на данни всъщност е основна задача както на изчерпателната така и на извадъчната статистика. Информацията, която се съдържа в милионите числа трябва да бъде представена в обозрима форма, така че всеки да си представи основните качества на множеството обекти. Главна роля в това кондензиране на информация има графичното представяне. То е ефектно и в минимална степен при него се губи информация.

Хистограмата е основният вид за представяне на информацията за наблюдения върху числов признак. Тя се строи по просто правило. Избират се обикновено еднакво големи е не много на брой (5 - 20) еднакво големи прилежащи интервала покриващи множеството от стойности на наблюдавания признак. Те се нанасят върху оста x. След това всеки от обектите на извадката се премерва и получената стойност попада в някой от интервалите.

histo.gif
Фигура 1.1: Съдържания на апатит

Ако интервалът [xminxmax] се раздели на k еднакви части с ширина h, т.е. h  = [(xmax - xmin)/( k)] и за всяко h се преброят попаданията на стойностите, то полученото число n се нарича честота на срещане. Последната, нормирана спрямо общият брой на данните N, е известна като относителна честота на срещане fi = [(ni)/( N)], където с i е означен съответния интервал.

При графично маркиране на fi с помощта на стълбчета, с височина стойността на fi и ширина h, се получава хистограма, която служи за описание на изследваната съвкупност от данни (фиг.1.1).

cumhisto.gif
Фигура 1.2: Кумулативно представяне

Също така много удобна е така наречената кумулативна хистограма (фиг. 1.2). Тя се строи по натрупаните данни и позволява лесен отговор на въпроси от вида:
- каква е частта от наблюденията, попаднали под дадена граница;
- кое е числото под което са половината наблюдения - т.н. медиана.

pie2.gif
Фигура 1.3: Секторна диаграма

Когато изследваме нечислови признаци, най - подходящото представяне е като процентно съдържание, например на на гласовете поддени за различните партии в едно гласуване. Това може да се направи и с хистограма, но не е прието, тъй като разместването на стълбовете отговарящи на различните типове обекти променя общият вид на рисунката. Затова се използуват така наречените секторни диаграми или торти (piechart).

Отделните сектори отговарят по лице на пропорциите на различните типове и понякога са разноцветни.

1.2.3  Описателни статистики

Категорни данни

Нека отначало се занимаем с един нечислов признак - например пол. Ясно е, че цялата информация за пола в едно множество от n изследвани обекта е разделянето на обема това число на две слагаеми n1 и n2, съответно, броят на обектите от мъжки и женски пол.

Когато разгледаме нечислов признак на един случайно избран обект от генералната съвкупност, то той съгласно предположенията ни за равнопоставеност на обектите в извадката би трябвало да попадне в дадена категория с вероятност равна на пропорцията на обектите в тази категория от генералната съвкупност. Ако съвкупността е голяма (или извадката ни е с връщане), то броят на обектите от извадката ni с признак от категория i би трябвало да се окаже биномно разпределен с B(n,pi).

Количествени данни

За не много на брой количествени данни е прието да се използува така наречения вариационен ред. Освен това, той е много удобен и за теоретични изследвания, както ще видим по-нататък.

Определение 3 Наредените по големина стоиности на x1,x2,...,xn се наричат вариационен ред x(1) Ј x(2) Ј ј Ј x(n), а елементите на реда - порядкови статистики.

Така първата порядкова статистика x(1) = minI(xi), а последната x(n) = maxI(xi). Интуитивно е ясно, че информацията за генералната съвкупност, която се съдържа в извадката, е представена изцяло във вариационния ред. Същата информация може да се представи и в следната форма.

Определение 4 Извадъчна функция на разпределение наричаме функцията:

Fn(x) = м
п
п
п
н
п
п
п
о
0
x < x(1)
k
n
x(k-1) Ј x < x(k)
1
x(n) Ј x

В приложната статистика често се използуват следните дескриптивни (описателни) статистики:

Те лесно се изразяват чрез извадъчната функция на разпределение:


x
 
= m1 = у
х
Ґ

-Ґ 
x dFn(x),   m2 = 1
n
n
е
i = 1 
xi2 = у
х
Ґ

Ґ 
x2 dFn(x),
D = m2(n) - m1(n)2.

Функциите mi наричаме извадъчни моменти. Извадъчните моменти mk са ''състоятелни'' оценки на моментите на сл.в. E xk. Същото твърдение важи и за други характеристики на извадъчното разпределение - квантили, медиана и т.н. Всички такива функции на извадъчното разпределение наричаме дескриптивни статистики. Например, порядковата статистика x(k) клони към квантила qa, ако k/n ® a.

Определение 5 Медиана се определя като решение на уравнението: F(m) = 1/2. Медиана на извадка (извадъчна медиана) е наблюдението, което разделя вариационния ред на две равни части (когато обемът е четен се взима средното на двете централни наблюдения).

Медианата описва положението на средата на разпределението върху числовата ос. В случая на големи отклонения от нормалност или при наличие на твърде отдалечени, съмнителни наблюдения, това е предпочитана оценка за ''средата'' на разпределението.

В много случаи се използува и положението на други характерни точки от разпределението.

Определение 6 Извадъчен квантил qa с ниво a на дадена извадка с ф.р. Fn се определя като приближено решение на уравнението: Fn(qa) = a.

Така медианата m = q1/2.

1.2.4  Математическа таксономия

Математическа таксономия или многомерен анализ на данни се нарича серия от методи, даващи възможност да се описват задоволително големи по обем съвкупности от данни (както по брой на участвуващите обекти, така и по брой на измерваните параметри) Много от тези методи са емпирични, други са основани на математически или алгоритмични похвати. Целта им е да се даде представа за наблюдаваните множество числа (или кодове) във възможно най-сбита форма. Тук ще споменем следните методи:

Обикновено тези методи се сумират под общото название анализ на данни.

1.3  Математическа статистика.

Основна цел на математическата статистика е изграждането на математически модели с помощта на теория на вероятностите. Освен това, тя дава средства за тяхната проверка върху реални данни, както и за интерпретация на резултатите от тях.

В математическата статистика винаги се разглежда следния вероятностен модел. За всяко наблюдение се предполага, че то е сл.в. Ако наблюденията са много, то обикновено те са независими сл.в. Когато независимостта е съмнителна, се предполага някакво съвместно разпределение на тези сл.в. Въз основа на така направените предположения се изследват вероятностните свойства на различни ''полезни'' функции от наблюденията - техните разпределения, моменти и т.н.

Когато в тези функции се поставят реалните наблюдения, се получават конкретни стойности - числа. Въз основа на тези числа се правят заключения - статистически изводи - за самия модел. Идеята на тези изводи е, че при верен модел ние знаем доколко те са ''вероятни''.

Когато моделът се окаже неадекватен, се строи друг и т.н., както изобщо в науката математическо моделиране.


Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.