ХИЈЕРАРХИЈСКО ГРУПИСАЊЕ У РУДАРЕЊУ ПОДАТАКА

Хијерархијско груписање се односи на поступак учења без надзора који одређује узастопне кластере на основу претходно дефинисаних кластера. Ради преко груписања података у стабло кластера. Статистика хијерархијског груписања третирањем сваке тачке података као појединачног кластера. Крајња тачка се односи на другачији скуп кластера, где се сваки кластер разликује од другог кластера, а објекти унутар сваког кластера су исти један као други.

Постоје две врсте хијерархијског груписања

Агломеративно хијерархијско груписање
Дивисиве Цлустеринг

Агломеративно хијерархијско груписање

Агломеративно груписање је један од најчешћих типова хијерархијског груписања који се користи за груписање сличних објеката у кластере. Агломеративно груписање је такође познато као АГНЕС (агломеративно гнежђење). У агломеративном груписању, свака тачка података делује као појединачни кластер и на сваком кораку, објекти података се групишу у методу одоздо према горе. У почетку, сваки објекат података је у свом кластеру. На свакој итерацији, кластери се комбинују са различитим кластерима док се не формира један кластер.

Агломеративни хијерархијски алгоритам груписања

колико има плодова

Одредите сличност између појединаца и свих других кластера. (Пронађи матрицу близине).
Размотрите сваку тачку података као појединачни кластер.
Комбинујте сличне кластере.
Поново израчунајте матрицу близине за сваки кластер.
Поновите корак 3 и корак 4 док не добијете један кластер.

Хајде да разумемо овај концепт уз помоћ графичког приказа помоћу дендрограма.

предности и мане технологије

Уз помоћ дате демонстрације, можемо разумети како стварни алгоритам функционише. Овде није урађена никаква калкулација испод које се претпоставља да је близина међу кластерима.

Претпоставимо да имамо шест различитих тачака података П, К, Р, С, Т, В.

Хијерархијско груписање у рударењу података

Корак 1:

Размотрите сваки алфабет (П, К, Р, С, Т, В) као појединачни кластер и пронађите растојање између појединачног кластера од свих осталих кластера.

бинарно претраживање

Корак 2:

Сада спојите упоредиве кластере у један кластер. Рецимо да су кластер К и кластер Р слични један другом тако да их можемо спојити у другом кораку. Коначно, добијамо кластере [(П), (КР), (СТ), (В)]

Корак 3:

Овде поново израчунавамо близину према алгоритму и комбинујемо два најближа кластера [(СТ), (В)] заједно да формирамо нове кластере као [(П), (КР), (СТВ)]

јава делимитер

4. корак:

Поновите исти процес. Кластери СТВ и ПК су упоредиви и комбиновани заједно да формирају нови кластер. Сада имамо [(П), (ККРСТВ)].

5. корак:

Коначно, преостала два кластера се спајају у један кластер [(ПКРСТВ)]

Дивизивно хијерархијско груписање

Дивизијско хијерархијско кластерисање је управо супротно од агломеративног хијерархијског кластерисања. У подељеном хијерархијском кластеровању, све тачке података се сматрају појединачним кластером, а у свакој итерацији тачке података које нису сличне се одвајају од кластера. Раздвојене тачке података се третирају као појединачни кластер. Коначно, остаје нам Н кластера.

Предности хијерархијског груписања

Једноставан је за имплементацију и даје најбољи резултат у неким случајевима.
Лако је и резултира хијерархијом, структуром која садржи више информација.
Није потребно да унапред одредимо број кластера.

Недостаци хијерархијског груписања

Разбија велике гроздове.
Тешко је руковати групама различитих величина и конвексним облицима.
Осетљив је на буку и екстерне појаве.
Алгоритам се никада не може променити или избрисати након што је претходно урађен.