logo

Класификациони алгоритам у машинском учењу

Као што знамо, алгоритам надгледаног машинског учења може се широко класификовати у регресијске и класификационе алгоритме. У алгоритмима регресије, предвидели смо излаз за континуиране вредности, али да бисмо предвидели категоричке вредности, потребни су нам алгоритми класификације.

Шта је класификациони алгоритам?

Алгоритам класификације је техника надгледаног учења која се користи за идентификацију категорије нових запажања на основу података обуке. У класификацији, програм учи из датог скупа података или запажања, а затим класификује ново посматрање у више класа или група. Као такав, Да или Не, 0 или 1, Спам или Не Спам, мачка или пас, итд. Класе се могу позвати као циљеви/ознаке или категорије.

статичка кључна реч у Јави

За разлику од регресије, излазна варијабла класификације је категорија, а не вредност, као што је 'зелено или плаво', 'воће или животиња', итд. Пошто је алгоритам класификације техника надгледаног учења, он узима означене улазне податке, који значи да садржи улаз са одговарајућим излазом.

У класификационом алгоритму, дискретна излазна функција(и) се пресликава на улазну променљиву(к).

 y=f(x), where y = categorical output 

Најбољи пример алгоритма МЛ класификације је Детектор нежељене е-поште .

Главни циљ класификационог алгоритма је да идентификује категорију датог скупа података, а ови алгоритми се углавном користе за предвиђање излаза за категоричке податке.

Алгоритми класификације се могу боље разумети коришћењем дијаграма испод. У дијаграму испод, постоје две класе, класа А и класа Б. Ове класе имају карактеристике које су сличне једна другој и различите од других класа.

Класификациони алгоритам у машинском учењу

Алгоритам који имплементира класификацију на скуп података познат је као класификатор. Постоје две врсте класификација:

    Бинарни класификатор:Ако проблем класификације има само два могућа исхода, онда се назива бинарни класификатор.
    Примери: ДА или НЕ, МУШКО или ЖЕНСКО, СПАМ или НЕ СПАМ, МАЧКА или ПАС, итд.Вишекласни класификатор:Ако проблем класификације има више од два исхода, онда се назива вишекласни класификатор.
    Пример: Класификације врста усева, Класификација врста музике.

Ученици у задацима класификације:

У проблемима класификације постоје две врсте ученика:

    Лењи ученици:Лази Леарнер прво складишти скуп података за обуку и чека док не прими скуп података теста. У случају Лењи ученик, класификација се врши на основу најсроднијих података ускладиштених у скупу података за обуку. Потребно је мање времена за тренинг, али више времена за предвиђања.
    Пример: К-НН алгоритам, резоновање засновано на случајуЖељни ученици:Жељни ученици развијају модел класификације заснован на скупу података за обуку пре него што добију скуп података за тестирање. Насупрот Лењим ученицима, Еагер Леарнер одузима више времена за учење, а мање времена за предвиђање. Пример: Децисион Треес, Наве Баиес, АНН.

Типови алгоритама за МЛ класификацију:

Алгоритми за класификацију се могу даље поделити у Углавном две категорије:

    Линеарни модели
    • Логистичка регресија
    • Суппорт Вецтор Мацхинес
    Нелинеарни модели
    • К-најближи суседи
    • Кернел СВМ
    • Наве Баиес
    • Класификација стабла одлучивања
    • Класификација насумичних шума

Напомена: Горње алгоритме ћемо научити у каснијим поглављима.

Процена модела класификације:

Када је наш модел завршен, потребно је проценити његове перформансе; или је то класификациони или регресијски модел. Дакле, за процену модела класификације, имамо следеће начине:

1. Губитак дневника или губитак унакрсне ентропије:

  • Користи се за процену перформанси класификатора, чији је излаз вредност вероватноће између 0 и 1.
  • За добар бинарни модел класификације, вредност губитка дневника треба да буде близу 0.
  • Вредност губитка дневника се повећава ако предвиђена вредност одступа од стварне вредности.
  • Мањи губитак лог представља већу тачност модела.
  • За бинарну класификацију, унакрсна ентропија се може израчунати као:
 ?(ylog(p)+(1?y)log(1?p)) 

Где је и= стварни учинак, п= предвиђени учинак.

2. Матрица конфузије:

  • Матрица конфузије нам даје матрицу/табелу као излаз и описује перформансе модела.
  • Такође је позната као матрица грешака.
  • Матрица се састоји од резултата предвиђања у сажетом облику, који има укупан број тачних предвиђања и нетачних предвиђања. Матрица изгледа као у табели испод:
Стварно позитивно Стварно негативно
Предвиђено позитивно Труе Поситиве Лажно позитиван
Предвиђено негативно Фалсе Негативе Труе Негативе
Класификациони алгоритам у машинском учењу

3. АУЦ-РОЦ крива:

јава сортирање избора
  • РОЦ крива означава Крива радних карактеристика пријемника а АУЦ означава Област испод кривине .
  • То је графикон који приказује перформансе модела класификације на различитим праговима.
  • Да бисмо визуелизовали перформансе модела класификације више класа, користимо АУЦ-РОЦ криву.
  • РОЦ крива је исцртана са ТПР и ФПР, где је ТПР (Права позитивна стопа) на И-оси и ФПР (Фалсе Поситиве Рате) на Кс-оси.

Случајеви употребе класификационих алгоритама

Алгоритми класификације се могу користити на различитим местима. Испод су неки популарни случајеви употребе класификационих алгоритама:

  • Откривање нежељене е-поште
  • Препознавање говора
  • Идентификације туморских ћелија рака.
  • Класификација дрога
  • Биометријска идентификација итд.