Увод
Машинско учење је реформисало начин на који обрађујемо и испитујемо податке, а алгоритми стабла одлучивања су позната одлука за задатке класификације и регресије. Гини индекс, иначе назван Гини нечистоћа или Гини коефицијент, је значајна мера нечистоће која се користи у алгоритмима стабла одлучивања. У овом чланку ћемо исцрпно истражити идеју Гини индекса, његову нумеричку формулу и његове примене у машинском учењу. Такође ћемо упоредити Гини индекс и друге мере нечистоће, говорити о његовим ограничењима и предностима и испитати контекстуалне анализе његових примена у стварном свету. Коначно ћемо овде представити будућа лежишта за истраживање.
Шта је Гини индекс?
Гини индекс је пропорција нечистоће или неједнакости у статистичким и монетарним оквирима. У машинском учењу, користи се као мера нечистоће у алгоритмима стабла одлучивања за задатке класификације. Гини индекс мери вероватноћу да случајно одабрани тест буде погрешно класификован од стране алгоритма стабла одлучивања, а његова вредност иде од 0 (савршено чист) до 1 (савршено нечист).
Формула Гини индекса
Гини индекс је пропорција нечистоће или неједнакости циркулације, која се редовно користи као мера нечистоће у алгоритмима стабла одлучивања. Што се тиче стабала одлучивања, Гини индекс се користи за одређивање најбоље карактеристике за поделу података на сваком чвору стабла.
Формула за Гини индекс је следећа:
где је пи вероватноћа да ствар има место са одређеном класом.
На пример, требало би да размотримо питање бинарне класификације са две класе Ан и Б. У случају да је вероватноћа класе Ан п, а вероватноћа класе Б (1-п), онда се Гини индекс може израчунати као :
Вредност Гини индекса иде од 0,0 до 0,5 за проблеме бинарне класификације, где 0,0 показује савршено чист чвор (сви примери имају место са сличном класом), а 0,5 показује савршено нечист чвор (тестови су подједнако распоређени на две класе ).
Коришћење Гини индекса у задацима класификације
Гини индекс се генерално користи као мера нечистоће у алгоритмима стабла одлучивања за проблеме класификације. У стаблу одлучивања, сваки чвор се обраћа елементу, а циљ је да се подаци поделе на подскупове који су у суштини чисти колико се могло очекивати. Мера нечистоће (попут Гини индекса) се користи за одлучивање о најбољој подели у сваком чвору.
Да бисмо ово илустровали, требало би да размотримо пример стабла одлучивања за питање бинарне класификације. Дрво има два елемента: старост и приход, а циљ је да се предвиди без обзира да ли ће појединац вероватно купити неки предмет. Дрво је направљено користећи Гини индекс као меру нечистоће.
У коренском чвору, Гини индекс се израчунава с обзиром на вероватноћу да примери имају место са класом 0 или класом 1. Чвор је подељен с обзиром на компоненту која резултира највећим смањењем Гини индекса. Овај циклус се рекурзивно понавља за сваки подскуп док се не испуни мера заустављања.
Децисион Треес
Стабло одлучивања је добро познати алгоритам машинског учења који се користи и за задатке класификације и за регресијске задатке. Модел се ради тако што се скуп података рекурзивно дели на скромније подскупове у светлу вредности истакнутих информација, утврђених да се ограничи нечистоћа наредних подскупова.
На сваком чвору стабла се доноси одлука у погледу вредности једног од истакнутих информација, са крајњим циљем да наредни подскупови буду у основи чисти колико се заиста могло очекивати. Чистоћа подскупа се редовно процењује помоћу мере нечистоће, на пример, Гинијевог индекса или ентропије.
Алгоритам стабла одлучивања може се користити и за бинарне и вишекласне задатке класификације, као и за задатке регресије. У задацима бинарне класификације, стабло одлучивања дели скуп података на два подскупа у светлу вредности бинарне карактеристике, на пример да или не. У задацима класификације са више класа, стабло одлучивања дели скуп података на бројне подскупове у светлу вредности директне карактеристике, као што су црвена, зелена или плава.
Гини индекс наспрам других мера нечистоћа
Осим Гини индекса, постоје и друге мере нечистоће које се обично користе у алгоритмима стабла одлучивања, на пример, ентропија и добијање информација.
Ентропија:
У машинском учењу, ентропија је пропорција неправилности или рањивости у гомили података. Обично се користи као мера нечистоће у алгоритмима стабла одлучивања, поред Гини индекса.
У алгоритмима стабла одлучивања, ентропија се користи за одлучивање о најбољој компоненти за поделу података на сваком чвору стабла. Циљ је пронаћи елемент који резултира највећим смањењем ентропије, који се односи на компоненту која даје највише информација о питању класификације.
Док се ентропија и Гини индекс нормално користе као мере нечистоће у алгоритмима стабла одлучивања, они имају различита својства. Ентропија је деликатнија за циркулацију назива класа и генерално ће донети више прилагођена стабла, док је Гини индекс мање осетљив на присвајање оцена класа и генерално ће створити ограниченија стабла са мање расцепа. Одлука о мери нечистоће се ослања на одређено питање и атрибуте података.
Добитак информација:
Добитак информација је радња која се користи за процену природе поделе током изградње стабла одлучивања. Циљ стабла одлучивања је да подели податке на подскупове који су у основи хомогени колико и за променљиву објектива, тако да се следеће стабло може користити за тачна очекивања нових података. Добитак информација мери смањење ентропије или нечистоће које се постиже поделом. Карактеристика са највећим добијањем информација је изабрана као најбоља карактеристика за поделу на сваком чвору стабла одлучивања.
Добивање информација је уобичајено укључена мера за процену природе подела у стаблима одлучивања, али није оно на шта се треба фокусирати. Такође се могу користити различите мере, на пример, Гини индекс или стопа погрешне класификације. Одлука о основи поделе се ослања на главно питање и атрибуте скупа података који се користи.
Пример Гини индекса
Требало би да размотримо питање бинарне класификације где имамо скуп података од 10 примера са две класе: 'позитивно' и 'негативно'. Од 10 примера, 6 има место у класи 'Позитивно', а 4 има место у класи 'Негативно'.
Да бисмо израчунали Гини индекс скупа података, иницијално израчунавамо вероватноћу сваке класе:
п_1 = 6/10 = 0,6 (позитивно)
п_2 = 4/10 = 0,4 (негативно)
Затим, у том тренутку, користимо формулу Гини индекса за израчунавање нечистоће скупа података:
Гини(С) = 1 - (п_1^2 + п_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Дакле, Гини индекс скупа података је 0,48.
Претпоставимо да сада треба да поделимо скуп података на елемент 'Кс' који има две потенцијалне вредности: 'А' и 'Б'. Поделили смо скуп података на два подскупа у погледу компоненте:
Подскуп 1 (Кс = А): 4 позитивна, 1 негативна
Подскуп 2 (Кс = Б): 2 позитивна, 3 негативна
Да бисмо израчунали смањење Гини индекса за овај поделе, иницијално израчунавамо Гини индекс сваког подскупа:
Гини(С_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Гини(С_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Затим користимо формулу за добијање информација да израчунамо смањење Гини индекса:
ИГ(С, Кс) = Гини(С) - ((5/10 * Гини(С_1)) + (5/10 * Гини(С_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Дакле, добитак информација (тј. смањење Гини индекса) за поделу скупа података на истакнутом 'Кс' је 0,08.
У овој ситуацији, у случају да израчунамо информацијски добитак за све елементе и изаберемо онај са највећом вредношћу информационог добитка, та компонента би била изабрана као најбоља компонента за раздвајање у коренском чвору стабла одлучивања.
Предности:
Гини индекс је широко укључена мера за процену природе расцепа у стаблима одлучивања и има неколико предности у односу на различите мере, на пример, ентропију или стопу погрешне класификације. Ево дела главних предности коришћења Гини индекса:
важећи идентификатори у Јави
Рачунарски ефикасан: Гини индекс је мање сложена и рачунарски бржа мера у поређењу са различитим мерама, на пример, ентропијом, која укључује израчунавање логаритама.
Интуитивно тумачење: Гини индекс је једноставан и интерпретиран. Мери вероватноћу да случајно изабран пример из скупа буде погрешно класификован у случају да је случајно означен према преносу класе у скупу.
Добро за бинарну класификацију: Гини индекс је посебно моћан за проблеме бинарне класификације, где објективна варијабла има само две класе. У таквим случајевима је познато да је Гини индекс стабилнији од различитих мера.
Отпорна на класну неравнотежу: Гини индекс је мање деликатан за класну неравнотежу у поређењу са различитим мерама, на пример, прецизношћу или стопом погрешне класификације. Ово је на основу тога што Гини индекс зависи од општег обима примера у свакој класи за разлику од директних бројева.
Мање склони преоптерећењу: Гини индекс ће генерално чинити скромнија стабла одлучивања у поређењу са различитим мерама, што га чини мање склоним претераном прилагођавању. Ово је на основу тога што ће Гини индекс генерално фаворизовати карактеристике које чине скромније парцеле података, што умањује могућности преоптерећења.
Недостаци:
Док Гини индекс има неколико предности као мера за раздвајање стабала одлучивања, он такође има неколико недостатака. Ево дела главних недостатака коришћења Гини индекса:
Пристрасност према карактеристикама са много категорија: Гини индекс ће се генерално нагињати ка карактеристикама са много категорија или вредности, јер могу да направе више подела и парцела података. Ово може довести до претеривања и компликованијег стабла одлучивања.
Није добро за континуиране варијабле: Гини индекс није прикладан за континуиране варијабле, јер захтева дискретизацију променљиве у категорије или корпе, што може довести до губитка информација и смањене тачности.
Игнорише интеракције функција: Гини индекс само размишља о индивидуалној снази предвиђања сваке карактеристике и игнорише интеракције између карактеристика. Ово може довести до лоших подела и мање тачних прогноза.
Није идеално за неке скупове података: понекад, Гини индекс можда није идеална мера за процену природе подела у стаблу одлучивања. На пример, у случају да је објективна варијабла изузетно нагнута или неуравнотежена, различите мере, на пример, пропорција добити или добити информације могу бити прикладније.
Склон пристрасности у присуству вредности које недостају: Гини индекс може бити пристрасан у присуству вредности које недостају, јер ће се генерално нагињати ка карактеристикама са мање вредности које недостају, без обзира да ли оне нису најинформативније.
Примене Гини индекса у реалном свету
Гини индекс је коришћен у различитим апликацијама у машинском учењу, на пример, локација изнуде, кредитно бодовање и одељење клијената. На пример, у откривању изнуде, Гини индекс се може користити за разликовање дизајна у подацима размене и препознавање бизарног начина понашања. У кредитном бодовању, Гини индекс се може користити да се предвиди вероватноћа неиспуњавања обавеза с обзиром на варијабле као што су приход, однос неизмиреног дуга према кућној исплати и евиденција отплате кредита. У сегменту клијената, Гини индекс се може користити за груписање клијената с обзиром на њихов начин понашања и склоности.
Будућа истраживања
Без обзира на његову неограничену употребу у алгоритмима стабла одлучивања, још увек постоји степен за истраживање Гини индекса. Једна област истраживања је унапређење нових мера нечистоћа које могу да се позабаве ограничењима Гинијевог индекса, као што је његова склоност факторима са много нивоа. Још једна област истраживања је поједностављивање алгоритама стабла одлучивања користећи Гини индекс, на пример, коришћење техника опреме за рад на прецизности стабала одлучивања.
Закључак
Гини индекс је значајна мера нечистоће која се користи у алгоритмима стабла одлучивања за задатке класификације. Мери вероватноћу да случајно одабрани тест буде погрешно класификован од стране алгоритма стабла одлучивања, а његова вредност иде од 0 (савршено чист) до 1 (савршено нечист). Гини индекс је једноставан и изводљив, рачунски продуктиван и моћан за изузетке. Коришћен је у различитим апликацијама у машинском учењу, на пример, откривање лажног представљања, бодовање и подела клијената. Док Гини индекс има неколико ограничења, још увек постоји степен за истраживање његовог побољшања и побољшања нових мера нечистоћа.