Модел машинског учења је дефинисан као математички приказ резултата процеса обуке. Машинско учење је проучавање различитих алгоритама који се могу аутоматски побољшати кроз искуство и старе податке и изградити модел. Модел машинског учења је сличан компјутерском софтверу дизајнираном да препозна обрасце или понашања на основу претходног искуства или података. Алгоритам учења открива обрасце унутар података о обуци и даје МЛ модел који хвата ове обрасце и предвиђа нове податке.
Хајде да разумемо пример МЛ модела где креирамо апликацију за препознавање емоција корисника на основу израза лица. Дакле, креирање такве апликације могуће је помоћу модела машинског учења где ћемо обучити модел тако што ћемо хранити слике лица са различитим емоцијама означеним на њима. Кад год се ова апликација користи за одређивање расположења корисника, она чита све унесене податке, а затим одређује расположење било којег корисника.
Отуда, једноставним речима, можемо рећи да а модел машинског учења је поједностављена репрезентација нечега или процеса. У овој теми ћемо разговарати о различитим моделима машинског учења и њиховим техникама и алгоритмима .
Шта је модел машинског учења?
Модели машинског учења могу се схватити као програм који је обучен да пронађе обрасце унутар нових података и прави предвиђања. Ови модели су представљени као математичка функција која узима захтеве у облику улазних података, прави предвиђања о улазним подацима, а затим даје излаз као одговор. Прво, ови модели се обучавају за скуп података, а затим им се даје алгоритам за разматрање података, издвајање шаблона из података фида и учење из тих података. Када се ови модели обуче, могу се користити за предвиђање невидљивог скупа података.
Доступни су различити типови модела машинског учења на основу различитих пословних циљева и скупова података.
Класификација модела машинског учења:
На основу различитих пословних циљева и скупова података, постоје три модела учења за алгоритме. Сваки алгоритам машинског учења поставља се у један од три модела:
- Учење под надзором
- Учење без надзора
- Учење са појачањем
Надзирано учење је даље подељено у две категорије:
- Класификација
- Регресија
Учење без надзора је такође подељено у следеће категорије:
- Груписање
- Правило асоцијације
- Смањење димензионалности
1. Надзирани модели машинског учења
Учење под надзором је најједноставнији модел машинског учења за разумевање у којем се улазни подаци називају подацима за обуку и имају познату ознаку или резултат као излаз. Дакле, ради на принципу улазно-излазних парова. Захтева креирање функције која се може обучити коришћењем скупа података за обуку, а затим се примењује на непознате податке и чини неке предиктивне перформансе. Учење под надзором се заснива на задацима и тестира се на означеним скуповима података.
Можемо имплементирати модел учења под надзором на једноставним проблемима из стварног живота. На пример, имамо скуп података који се састоји од старости и висине; затим, можемо изградити модел учења под надзором да предвидимо висину особе на основу њеног узраста.
Модели надгледаног учења су даље класификовани у две категорије:
Регресија
У проблемима регресије, излаз је континуирана варијабла. Неки често коришћени модели регресије су следећи:
а) Линеарна регресија
Линеарна регресија је најједноставнији модел машинског учења у коме покушавамо да предвидимо једну излазну променљиву користећи једну или више улазних варијабли. Репрезентација линеарне регресије је линеарна једначина, која комбинује скуп улазних вредности(к) и предвиђени излаз(и) за скуп тих улазних вредности. Представљен је у облику линије:
И = бк + ц.
Главни циљ модела линеарне регресије је да пронађе најбољу линију која најбоље одговара тачкама података.
Линеарна регресија је проширена на вишеструку линеарну регресију (пронађи раван која најбоље одговара) и полиномску регресију (пронађи криву која најбоље одговара).
б) Стабло одлучивања
8 до 1 мултиплексер
Стабла одлучивања су популарни модели машинског учења који се могу користити и за проблеме регресије и за класификацију.
Стабло одлучивања користи структуру одлука налик стаблу заједно са њиховим могућим последицама и исходима. У овом случају, сваки унутрашњи чвор се користи за представљање теста на атрибуту; свака грана се користи за представљање исхода теста. Што више чворова има дрво одлучивања, то ће резултат бити тачнији.
Предност стабала одлучивања је у томе што су интуитивна и лака за имплементацију, али им недостаје тачност.
Стабла одлучивања се широко користе у истраживање операција, посебно у анализи одлука, стратешком планирању , а углавном у машинском учењу.
ц) Случајна шума
Рандом Форест је метода учења ансамбла, која се састоји од великог броја стабала одлучивања. Свако стабло одлучивања у случајној шуми предвиђа исход, а као исход се сматра предвиђање са већином гласова.
Модел случајне шуме може се користити и за проблеме регресије и за класификацију.
За задатак класификације, резултат случајне шуме се узима од већине гласова. Док се у задатку регресије резултат узима из средње вредности или просека предвиђања које генерише свако дрво.
г) Неуралне мреже
Неуронске мреже су подскуп машинског учења и познате су и као вештачке неуронске мреже. Неуронске мреже се састоје од вештачких неурона и дизајниране су на начин који подсећа на структуру и рад људског мозга. Сваки вештачки неурон се повезује са многим другим неуронима у неуронској мрежи, а такви милиони повезаних неурона стварају софистицирану когнитивну структуру.
Неуронске мреже се састоје од вишеслојне структуре, која садржи један улазни слој, један или више скривених слојева и један излазни слој. Пошто је сваки неурон повезан са другим неуроном, он преноси податке са једног слоја на други неурон следећих слојева. Коначно, подаци стижу до последњег слоја или излазног слоја неуронске мреже и генеришу излаз.
Неуронске мреже зависе од података о обуци да би научиле и побољшале своју тачност. Међутим, савршено обучена и прецизна неуронска мрежа може брзо групирати податке и постати моћан алат за машинско учење и вештачку интелигенцију. Једна од најпознатијих неуронских мрежа је Гоогле-ов алгоритам за претрагу.
Класификација
Класификациони модели су друга врста техника надгледаног учења, које се користе за генерисање закључака из посматраних вредности у категоријалном облику. На пример, модел класификације може да идентификује да ли је е-пошта непожељна или не; да ли ће купац купити производ или не, итд. Класификациони алгоритми се користе за предвиђање две класе и категоризацију излаза у различите групе.
У класификацији, дизајниран је модел класификатора који класификује скуп података у различите категорије, а свакој категорији је додељена ознака.
Постоје две врсте класификација у машинском учењу:
Неки популарни алгоритми класификације су следећи:
а) Логистичка регресија
Логистичка регресија се користи за решавање проблема класификације у машинском учењу. Они су слични линеарној регресији, али се користе за предвиђање категоричких варијабли. Може да предвиди излаз са Да или Не, 0 или 1, Тачно или Нетачно, итд. Међутим, уместо да даје тачне вредности, пружа вероватноће између 0 и 1.
б) Машина за вектор подршке
Машина вектора подршке или СВМ је популарни алгоритам машинског учења, који се широко користи за задатке класификације и регресије. Међутим, посебно се користи за решавање проблема класификације. Главни циљ СВМ-а је да пронађе најбоље границе одлуке у Н-димензионалном простору, који може да одвоји тачке података у класе, а најбоља граница одлуке је позната као хиперплане. СВМ бира екстремни вектор да пронађе хиперравнину, а ови вектори су познати као вектори подршке.
ц) Наивни Бајес
Наивни Бајес је још један популаран класификациони алгоритам који се користи у машинском учењу. Назива се тако јер се заснива на Бајесовој теореми и прати наивну (независну) претпоставку између карактеристика која је дата као:
Сваки наивни Бајесов класификатор претпоставља да је вредност одређене променљиве независна од било које друге променљиве/карактеристике. На пример, ако воће треба класификовати на основу боје, облика и укуса. Дакле, жуто, овално и слатко биће препознато као манго. Овде је свака карактеристика независна од других карактеристика.
2. Модели машинског учења без надзора
Модели машинског учења без надзора имплементирају процес учења супротан од надгледаног учења, што значи да омогућава моделу да учи из неозначеног скупа података за обуку. На основу неозначеног скупа података, модел предвиђа излаз. Користећи учење без надзора, модел учи скривене обрасце из скупа података сам без икаквог надзора.
Модели учења без надзора се углавном користе за обављање три задатка, а то су:
Груписање је техника учења без надзора која укључује груписање или опипавање тачака података у различите кластере на основу сличности и разлика. Објекти са највише сличности остају у истој групи, а немају или имају врло мало сличности из других група.
Алгоритми груписања могу се широко користити у различитим задацима као нпр Сегментација слике, Статистичка анализа података, Сегментација тржишта , итд.
Неки од најчешће коришћених алгоритама за груписање су К-значи груписање, хијерархијско груписање, ДБСЦАН , итд.
Учење правила асоцијације је техника учења без надзора, која проналази занимљиве односе између варијабли унутар великог скупа података. Главни циљ овог алгоритма учења је да пронађе зависност једне ставке података од друге ставке података и мапира те варијабле у складу са тим тако да може да генерише максималан профит. Овај алгоритам се углавном примењује у Анализа тржишне корпе, рударење коришћења веба, континуирана производња , итд.
Неки популарни алгоритми учења правила асоцијација су Априори алгоритам, Ецлат, ФП-алгоритам раста.
Број карактеристика/променљивих присутних у скупу података познат је као димензионалност скупа података, а техника која се користи за смањење димензионалности позната је као техника смањења димензионалности.
Иако више података даје тачније резултате, то такође може утицати на перформансе модела/алгоритма, као што су проблеми са превеликим прилагођавањем. У таквим случајевима се користе технике смањења димензионалности.
' То је процес претварања скупа података виших димензија у скуп података мањих димензија који осигурава да пружа сличне информације .'
Различите методе смањења димензионалности као што су као ПЦА (анализа главних компоненти), декомпозиција сингуларне вредности итд.
Учење са појачањем
У учењу са поткрепљењем, алгоритам учи акције за дати скуп стања која воде до циљног стања. То је модел учења заснован на повратним информацијама који узима повратне сигнале након сваког стања или радње интеракцијом са окружењем. Ова повратна информација функционише као награда (позитивна за сваку добру акцију и негативна за сваку лошу акцију), а циљ агента је да максимизира позитивне награде како би побољшао свој учинак.
Понашање модела у учењу са поткрепљењем је слично људском учењу, пошто људи уче ствари кроз искуства као повратне информације и интеракцију са околином.
Испод су неки популарни алгоритми који се подвргавају учењу појачања:
Циљ му је да научи политику која може помоћи агенту АИ да предузме најбољу акцију за максимизирање награде у одређеним околностима. Он укључује К вредности за сваки пар стање-акција које указују на награду за праћење датог пута стања и покушава да максимизира К-вредност.
Модели машинског учења за обуку
Када је модел машинског учења изграђен, он се обучава како би се добили одговарајући резултати. Да бисте обучили модел машинског учења, потребна је огромна количина претходно обрађених података. Овде претходно обрађени подаци подразумевају податке у структурираном облику са смањеним нултим вредностима, итд. Ако не обезбедимо претходно обрађене податке, онда постоје велике шансе да наш модел може лоше да функционише.
Како одабрати најбољи модел?
У горњем одељку разговарали смо о различитим моделима и алгоритмима машинског учења. Али једно најзбуњујуће питање које се може појавити сваком почетнику: „који модел да одаберем?“. Дакле, одговор је да то углавном зависи од пословних захтева или захтева пројекта. Осим тога, зависи и од повезаних атрибута, обима доступног скупа података, броја карактеристика, сложености, итд. Међутим, у пракси се препоручује да увек почнемо са најједноставнијим моделом који се може применити на одређени модел. проблем, а затим постепено повећавајте сложеност и тестирајте тачност уз помоћ подешавања параметара и унакрсног провера.
Разлика између модела машинског учења и алгоритама
Једно од најзбуњујућих питања међу почетницима је да ли су модели машинског учења, а алгоритми исти? Зато што се у различитим случајевима у машинском учењу и науци о подацима ова два термина користе наизменично.
Одговор на ово питање је Не, а модел машинског учења није исто што и алгоритам. На једноставан начин, ан МЛ алгоритам је као процедура или метода која се покреће на подацима да би открила обрасце из њих и генерисати модел. Истовремено, а Модел машинског учења је попут компјутерског програма који генерише излаз или предвиђа предвиђања . Тачније, када тренирамо алгоритам са подацима, он постаје модел.
Machine Learning Model = Model Data + Prediction Algorithm