Лекция 12
Дискриминантен анализ

Тук ще представим една процедура от многомерния анализ на данни базирана на вероятностен модел. Другото название на процедури от този тип е разпознаване на образи.

12.1   Основни понятия

Тази статистическа процедура се използува, когато се нуждаем от "прогнозиране" стойностите на групираща променлива. Понякога това се нарича класификация или разпознаване на образи. Нека нашата извадка е нееднородна или с други думи, се състои от няколко групи наблюдения с различни вероятностни характеристики. Целта ни е да се научим от тази извадка, по зададени параметри на дадено наблюдение, да определим принадлежността му към класа, от който произлиза.

В първата си част, фазата на обучение, процедурата на дискриминантния анализ обработва тази информация с цел да я кондензира в тъй наречените решаващи правила. Когато те са получени, естествено е те да бъдат изпробвани върху обектите от обучаващата извадка или върху други обекти с известен клас. При положение, че тези обекти (или поне достатъчно голям процент от тях) бъдат класифицирани правилно, можем да очакваме, че разпознаващите правила са добри и коректно ще работят и за обекти от неизвестен клас.

Разбира се, конкретното прилагане на различните методики на дискриминантния анализ има ред тънкости. Тук ще се спрем по - подробно на най - разпространената процедура за стъпков линеен дискриминантен анализ. Тя притежава ред недостатъци, но и някои преимущества - в частност дава прости решаващи правила.

В линейния дискриминантен анализ се строят линейни дискриминантни функции от предикторите. За всеки клас има точно една такава функция. Правилото за класификация изглежда така:

Наблюдението се класифицира към класа с максимална дискриминантна функция.

fig6-1.gif
Фигура 12.1: Класификационни области

Областта от стойности на предикторите, при попадане в която наблюденията се класифицират към даден клас, е изпъкнал многоъгълник (възможно отворен). Тя се нарича класификационно множество на класа. При два предиктора и 4 класа класификационните множества биха могли да изглеждат по указания начин. На фигура 12.1 с големи букви са отбелязани груповите средни.

Когато класовете са ясно разграничени, не е трудно те да бъдат отделени. Когато обаче те се пресичат, въпросът за оптимален (с най - малко грешки) избор на класификационни правила е сложен и изисква допълнителна априорна информация.

Линейният дискриминантен анализ предполага, че разпределенията на количествените променливи (предикторите) вътре в класовете са нормални и се различават само по средните си стойности. Тогава процедурата произвежда оптимални решаващи правила. Разбира се, тя може да се използува и при случайна (по групиращата променлива) извадка, но появата на празен клас е недопустима.

Когато броят на количествените променливи е по - голям, за простотата на решаващите правила е съществено да се отберат за предиктори само тези променливи, които носят важната за разделянето информация. В това помага статистиката на Махалонобис. Тя позволява да се провери хипотезата за съвпадане на груповите средни на предикторите като цяло. За простота и тук, вместо критичната област за статистиката, се използува вероятността съответно разпределената случайна величина да не надхвърли стойността на статистиката. Тази вероятност расте докато променливите допринасят за по - доброто разделяне на класовете и започва да намалява, когато предикторите станат твърде много. Естествено, добро разделяне може да се очаква, само когато хипотезата се отхвърля с висока вероятност.

Нека вече са избрани най - добрите променливи за предиктори. Това още не означава, че са построени класификационните множества. Да напомним, че основна цел на дискриминантния анализ е да се получи правило за причисляване на едно ново наблюдение към даден клас. За това наблюдение може да съществува априорна информация за неговата възможна принадлежност към класовете. Прието е такава информация да бъде формулирана в термини на априорни вероятности, които са необходими за определяне на оптимални класификационни правила.

Ако такава информация не съществува, естествено е априорните вероятности на класовете да се приемат за равни. Когато пък извадката е случайна и новото наблюдение се избира по същия начин, може те да се приемат за пропорционални на обема на класовете в обучаващата извадка.

Изборът на априорните вероятности фиксира оптимални дискриминантни функции и класификационни правила. Не е удобно обаче, за всяко ново наблюдение да се въвеждат априорни вероятности. Това е свързано и със значителни изчислителни трудности, особено когато броят на класовете е голям. Един възможен начин за заобикаляне на това неудобство е представянето на класовете с помощта на няколко групиращи променливи. Такова представяне съответствува и на редица практически задачи. Ако са известни стойностите на поне една от групиращите променливи, това е съществена априорна информация - фиксирането на тази променлива е еквивалентно на задаването на нулева априорна вероятност за поне половината от класовете.

12.2  Вероятностна формулировка

12.2.1  Бейсов подход

Нека допуснем, че вероятностите {p(g)}, груповите средни {m(g)} и
вътрeшно - груповата ковариационна матрица C(g) = C,g = 1, 2, ..., G, са известни. Тогава по формулата на Бейс, апостериорната вероятност за класификация в класа g на наблюдението (x,.) ще бъде
q(g) = c.p(g).f(x,m(g),C).
(12.1)

Тук f е плътността на нормалното разпределение със средна стойност m(g) и ковариационна матрица C, а c е нормираща константа (такава, че еq(g) = 1).

12.2.2  Класификационните правила

Съгласно принципа за максимално правдоподобие, класифицира се по правилото:
^
g
 
= max
h:q(h).
(12.2)

Класификационните правила могат да бъдат записани във вида:

p( ^
g
 
).f(x,m( ^
g
 
),C) і p(h).f(x,m(h),C), h = 1, 2, ..., G,
(12.3)

за които след логаритмуване и съкращаване, получаваме:

b( ^
g
 
)ўx + a( ^
g
 
) і b(h)ўx + a(h),h = 1, 2, ..., G,
(12.4)

Векторът b(g) и числото a(g) се получават по формулите:

b(h) = m(h)ўC-1 ,       a(h) = log p(h) - m(h)ўC-1m(h)
(12.5)
Оттук се вижда, че в неравенствата (12.4) участвуват линейни функции относно променливите и това обстоятелство е дало името на линейния дискриминантен анализ.

12.2.3  Априорни вероятности. Модели

За оценка на априорните вероятности {p(g)} можем да използуваме най - добрите им оценки {n(g)/N} при случайна извадка или друга априорна информация. За оценка на {m(g)} и C се използуват вътрешно - груповите средни и обединената извадъчна вътрешно - групова ковариация.

Когато групиращите променливи са повече от една, броят на класовете G нараства. Вероятността за поява на празни клетки (n(g) = 0) при случайна извадка с ограничен обем рязко се увеличава. Затруднява се и оценката за {m(g)}. В такива случаи се препоръчва използуването на оценки, получени от линеен модел, като се направят съответните проверки с методите на дисперсионния анализ. Съответно, ще се промени и оценката за C. Аналогично, за оценяване на честотите n(g) могат да се прилагат тъй наречените логаритмично - линейни (log - linear) модели.

12.3  Стъпков дискриминантен анализ

Аналогично на стъпковия регресионен анализ и тук е възприета концепцията за избор на подходящ набор от количествени променливи, с които да построим модела. Единственото средство, което ни трябва са аналозите на P(F-to-enter) и P(F-to-remove). Те се строят аналогично на регресията, но ролята на сумите от квадрати играят
- вътрешно - груповата ковариационна матрица
- между - групова ковариационна матрица.

Както и в едномерния случай, така и в многомерния е верно следното равенство:


е
i 

е
j 
(xij - _
x
 
)(xij - _
x
 
)ў =

е
i 

е
j 
(xij - _
x
 

i 
)(xij - _
x
 

i 
)ў+
е
i 
ni ( _
x
 

i 
- _
x
 
)( _
x
 

i 
- _
x
 
)ў
SS = SSin + SSmod.
(12.6)

Матрицата SSim се тълкува като ''сума от квадрати'', отговаряща на разсейването на данните около техните локални средни и с нейна помощ се строи оценка за вътрешно - груповата ковариационна матрица C:

^
C
 
= 1
N-G+1
SSin.
Лесно се вижда, че по диагонала на матричното равенство (12.6) стои добре известното ни разлагане на сумата от квадрати в дисперсионния анализ.

Матрицата SSin се тълкува като ''сума от квадрати'', отговаряща на разсейването на груповите средни и с нейна помощ се строи оценка за между - груповата ковариационна матрица Cmg:

^
C
 

mg 
= 1
G-1
SSmg.

Точно изменението на детерминантата на тази матрица ни служи за критерий при избора на нова променлива за въвеждане в модела или за нейното отстраняване.




Начало на лекцията | Съдържание | Индекс


File translated from TEX by TTH, version 2.10.
On 5 Apr 1999, 17:47.