КЛАСИФИКАЦИОНИ АЛГОРИТАМ У МАШИНСКОМ УЧЕЊУ

Као што знамо, алгоритам надгледаног машинског учења може се широко класификовати у регресијске и класификационе алгоритме. У алгоритмима регресије, предвидели смо излаз за континуиране вредности, али да бисмо предвидели категоричке вредности, потребни су нам алгоритми класификације.

Шта је класификациони алгоритам?

Алгоритам класификације је техника надгледаног учења која се користи за идентификацију категорије нових запажања на основу података обуке. У класификацији, програм учи из датог скупа података или запажања, а затим класификује ново посматрање у више класа или група. Као такав, Да или Не, 0 или 1, Спам или Не Спам, мачка или пас, итд. Класе се могу позвати као циљеви/ознаке или категорије.

статичка кључна реч у Јави

За разлику од регресије, излазна варијабла класификације је категорија, а не вредност, као што је 'зелено или плаво', 'воће или животиња', итд. Пошто је алгоритам класификације техника надгледаног учења, он узима означене улазне податке, који значи да садржи улаз са одговарајућим излазом.

У класификационом алгоритму, дискретна излазна функција(и) се пресликава на улазну променљиву(к).

 y=f(x), where y = categorical output

Најбољи пример алгоритма МЛ класификације је Детектор нежељене е-поште .

Главни циљ класификационог алгоритма је да идентификује категорију датог скупа података, а ови алгоритми се углавном користе за предвиђање излаза за категоричке податке.

Алгоритми класификације се могу боље разумети коришћењем дијаграма испод. У дијаграму испод, постоје две класе, класа А и класа Б. Ове класе имају карактеристике које су сличне једна другој и различите од других класа.

Класификациони алгоритам у машинском учењу

Алгоритам који имплементира класификацију на скуп података познат је као класификатор. Постоје две врсте класификација:

Примери:

Пример:

Ученици у задацима класификације:

У проблемима класификације постоје две врсте ученика:

Пример:

Типови алгоритама за МЛ класификацију:

Алгоритми за класификацију се могу даље поделити у Углавном две категорије:

Логистичка регресија
Суппорт Вецтор Мацхинес

К-најближи суседи
Кернел СВМ
Наве Баиес
Класификација стабла одлучивања
Класификација насумичних шума

Напомена: Горње алгоритме ћемо научити у каснијим поглављима.

Процена модела класификације:

Када је наш модел завршен, потребно је проценити његове перформансе; или је то класификациони или регресијски модел. Дакле, за процену модела класификације, имамо следеће начине:

1. Губитак дневника или губитак унакрсне ентропије:

Користи се за процену перформанси класификатора, чији је излаз вредност вероватноће између 0 и 1.
За добар бинарни модел класификације, вредност губитка дневника треба да буде близу 0.
Вредност губитка дневника се повећава ако предвиђена вредност одступа од стварне вредности.
Мањи губитак лог представља већу тачност модела.
За бинарну класификацију, унакрсна ентропија се може израчунати као:

 ?(ylog(p)+(1?y)log(1?p))

Где је и= стварни учинак, п= предвиђени учинак.

2. Матрица конфузије:

Матрица конфузије нам даје матрицу/табелу као излаз и описује перформансе модела.
Такође је позната као матрица грешака.
Матрица се састоји од резултата предвиђања у сажетом облику, који има укупан број тачних предвиђања и нетачних предвиђања. Матрица изгледа као у табели испод:

	Стварно позитивно	Стварно негативно
Предвиђено позитивно	Труе Поситиве	Лажно позитиван
Предвиђено негативно	Фалсе Негативе	Труе Негативе

3. АУЦ-РОЦ крива:

јава сортирање избора

РОЦ крива означава Крива радних карактеристика пријемника а АУЦ означава Област испод кривине .
То је графикон који приказује перформансе модела класификације на различитим праговима.
Да бисмо визуелизовали перформансе модела класификације више класа, користимо АУЦ-РОЦ криву.
РОЦ крива је исцртана са ТПР и ФПР, где је ТПР (Права позитивна стопа) на И-оси и ФПР (Фалсе Поситиве Рате) на Кс-оси.

Случајеви употребе класификационих алгоритама

Алгоритми класификације се могу користити на различитим местима. Испод су неки популарни случајеви употребе класификационих алгоритама:

Откривање нежељене е-поште
Препознавање говора
Идентификације туморских ћелија рака.
Класификација дрога
Биометријска идентификација итд.