ЦРИСП-ДМ је скраћеница за стандардни процес за рударење података у различитим индустријама. ЦРИСП-ДМ методологија пружа структурирани приступ планирању пројекта рударења података. То је снажна и добро доказана методологија. Не тражимо никакво власништво над њим. Нисмо ми то измислили. Ми смо претварач његове моћне практичности, флексибилности и корисности када користимо аналитику за решавање пословних проблема. То је златна нит која се провлачи кроз скоро сваки састанак са клијентима.
Овај модел је идеализовани низ догађаја. У пракси, многи задаци се могу обављати другачијим редоследом и често ће бити потребно да се вратите на претходне задатке и поновите одређене радње. Модел не покушава да обухвати све могуће руте кроз процес рударења података.
Како ЦРИСП помаже?
ЦРИСП ДМ пружа мапу пута, даје вам најбоље праксе и пружа структуре за боље и брже резултате коришћења рударења података, тако да на тај начин помаже предузећу да прати током планирања и извођења пројекта рударења података.
Фазе ЦРИСП-ДМ
ЦРИСП-ДМ пружа преглед животног циклуса рударења података као модела процеса. Модел животног циклуса се састоји од шест фаза, са стрелицама које указују на најважније и најчешће зависности између фаза. Редослед фаза није строг. И већина пројеката се креће напред-назад између фаза по потреби. Модел ЦРИСП-ДМ је флексибилан и може се лако прилагодити.
На пример, ако ваша организација има за циљ да открије прање новца, вероватно ћете прегледати велике количине података без специфичног циља моделирања. Уместо моделирања, ваш рад ће се фокусирати на истраживање података и визуелизацију како бисте открили сумњиве обрасце у финансијским подацима. ЦРИСП-ДМ вам омогућава да креирате модел рударења података који одговара вашим потребама.
Садржи описе типичних фаза пројекта, задатака укључених у сваку фазу и објашњење односа између ових задатака.
Фаза 1: Пословно разумевање
Прва фаза ЦРИСП-ДМ процеса је разумевање шта желите да постигнете из пословне перспективе. Ваша организација може имати супротстављене циљеве и ограничења која морају бити правилно избалансирана. Ова фаза процеса има за циљ да открије важне факторе који утичу на исход пројекта. Занемаривање овог корака може значити да се много труда улаже у стварање тачних одговора на погрешна питања.
Који су жељени резултати пројекта?
Процените тренутно стање
игра голуб андроид
Ово укључује детаљније утврђивање чињеница о ресурсима, ограничењима, претпоставкама и другим факторима које ћете морати да узмете у обзир приликом одређивања циља анализе података и плана пројекта.
- Особље (пословни стручњаци, стручњаци за податке, техничка подршка, стручњаци за рударење података)
- Подаци (фиксни изводи, приступ живим, ускладиштеним или оперативним подацима)
- Рачунарски ресурси (хардверске платформе)
- Софтвер (алати за рударење података, други релевантни софтвер)
- Речник релевантне пословне терминологије чини део пословног разумевања доступног пројекту. Израда овог појмовника је корисна вежба 'привлачења знања' и едукације.
- Речник терминологије дата мининга илустрован је примерима релевантним за пословни проблем.
Одредите циљеве рударења података
Пословни циљ наводи циљеве у пословној терминологији. Циљ рударења података наводи циљеве пројекта у техничком смислу. На пример, пословни циљ може бити повећање продаје каталога постојећим купцима. Циљ рударења података може бити да се предвиди колико ће виџета купац купити, с обзиром на њихову куповину у последње три године, демографске податке (старост, плата, град, итд.) и цену артикла.
Израдите план пројекта
Опишите планирани план за постизање циљева дата мининга и пословних циљева. Ваш план треба да наведе кораке које треба извршити током остатка пројекта, укључујући почетни избор алата и техника.
1. План пројекта: Наведите фазе које ће се извршити у пројекту, са њиховим трајањем, потребним ресурсима, улазима, излазима и зависностима. Где је могуће, покушајте да експлицитно објасните итерације великих размера у процесу рударења података, на пример, понављање фаза моделирања и евалуације.
Као део плана пројекта, важно је анализирати зависности између временских распореда и ризика. Резултате ових анализа експлицитно означити у плану пројекта, идеално са акцијама и препорукама уколико се ризици испоље. Одлучите која стратегија евалуације ће се користити у фази евалуације.
Ваш пројектни план ће бити динамичан документ. На крају сваке фазе, прегледаћете напредак и достигнућа и у складу са тим ажурирати план пројекта. Специфичне тачке прегледа за ова ажурирања треба да буду део плана пројекта.
ц низ програмских стрингова
2. Почетна процена алата и техника: На крају прве фазе, требало би да предузмете почетну процену алата и техника. На пример, изаберете алат за рударење података који подржава различите методе за различите фазе процеса. Важно је проценити алате и технике у раној фази процеса јер избор алата и техника може утицати на цео пројекат.
Фаза 2: Разумевање података
Друга фаза ЦРИСП-ДМ процеса захтева од вас да набавите податке наведене у ресурсима пројекта. Ово почетно прикупљање укључује учитавање података ако је то неопходно за разумевање података. На пример, ако користите одређени алат за разумевање података, савршено је логично да учитате своје податке у овај алат. Ако набавите више извора података, морате размотрити како и када ћете их интегрисати.
Опишите податке
Испитајте 'бруто' или 'површинске' особине добијених података и известите о резултатима.
Истражите податке
Током ове фазе ћете се бавити питањима рударења података користећи технике упита, визуелизације података и извештавања. То може укључивати:
пд.мерге
- Дистрибуција кључних атрибута
- Односи између парова или мали број атрибута
- Резултати једноставних агрегација
- Особине значајних субпопулација
- Једноставне статистичке анализе
Ове анализе могу директно да се позабаве вашим циљевима рударења података. Они могу допринети или побољшати опис података и извештаје о квалитету и укључити у трансформацију и друге кораке припреме података који су потребни за даљу анализу.
Проверите квалитет података
Испитајте квалитет података, бавећи се питањима као што су:
- Да ли су подаци потпуни или покривају све потребне случајеве?
- Да ли је тачно, или садржи грешке, и ако има грешака, колико су честе?
- Да ли недостају вредности у подацима? Ако је тако, како су заступљени, где се јављају и колико су чести?
Извештај о квалитету података
Наведите резултате провере квалитета података. Ако постоје проблеми са квалитетом, предложите могућа решења. Решења за проблеме квалитета података генерално у великој мери зависе од података и пословног знања.
Фаза 3: Припрема података
У овој фази пројекта одлучујете о подацима које ћете користити за анализу. Критеријуми које можете користити за доношење ове одлуке укључују релевантност података за ваше циљеве рударења података, квалитет података и техничка ограничења као што су ограничења обима података или типова података.
Очистите своје податке
Овај задатак укључује подизање квалитета података на ниво који захтевају технике анализе које сте изабрали. Ово може укључивати одабир чистих подскупова података, уметање одговарајућих подразумеваних вредности или амбициозније технике као што је процена података који недостају моделирањем.
Конструишите потребне податке
Овај задатак укључује конструктивне операције припреме података као што је производња изведених атрибута, читавих нових записа или трансформисаних вредности за постојеће атрибуте.
Интегришите податке
Ове методе комбинују информације из више база података, табела или записа за креирање нових записа или вредности.
Фаза 4: Моделирање
Изаберите технику моделирања: Као први корак, изабраћете основну технику моделирања коју ћете користити. Иако сте можда већ изабрали алат током фазе пословног разумевања, у овој фази ћете бирати специфичну технику моделирања, нпр. изградња стабла одлучивања са Ц5.0 или генерисање неуронске мреже са пропагацијом уназад. Ако се примењује више техника, извршите овај задатак посебно за сваку технику.
Генеришите дизајн теста
цоллецтионс јава
Пре него што направите модел, потребно је да генеришете процедуру или механизам за тестирање квалитета и валидности модела. На пример, у надгледаним задацима рударења података као што је класификација, уобичајено је користити стопе грешке као мере квалитета за моделе рударења података. Због тога обично раздвајате скуп података на скупове за обуку и тестове, градите модел на скупу возова и процењујете његов квалитет на засебном скупу тестова.
Изградите модел
Покрените алатку за моделирање на припремљеном скупу података да бисте креирали један или више модела.
Оцените модел
Интерпретирајте моделе у складу са својим знањем из домена, критеријумима успеха рударења података и жељеним дизајном теста. Процијените успјех примјене техника моделирања и откривања, а затим контактирајте пословне аналитичаре и стручњаке из домена касније како бисте разговарали о резултатима рударења података у пословном контексту. Овај задатак разматра само моделе, док фаза евалуације такође узима у обзир све друге резултате произведене током пројекта.
У овој фази, требало би да рангирате моделе и процените их према критеријумима оцењивања. Требало би да размотрите пословне циљеве и критеријуме успеха колико год можете. У већини пројеката рударења података, једна техника се примењује више пута, а резултати рударења података се генеришу са неколико различитих техника.
Фаза 5: Евалуација
Оцените своје резултате: Претходни кораци евалуације бавили су се факторима као што су тачност и општост модела. Током овог корака, проценићете степен у ком модел испуњава ваше пословне циљеве и покушати да утврдите да ли постоји неки пословни разлог зашто је овај модел недовољан. Друга опција је да се модел тестира на тест апликацијама у стварној апликацији ако временска и буџетска ограничења дозвољавају. Фаза евалуације такође укључује процену свих других резултата рударења података које сте генерисали. Резултати рударења података укључују моделе који су нужно повезани са оригиналним пословним циљевима и свим другим налазима који нису нужно повезани са оригиналним пословним циљевима, али такође могу открити додатне изазове, информације или наговештаје за будуће правце.
Процес прегледа
У овом тренутку се чини да су добијени модели задовољавајући и задовољавају пословне потребе. Сада је прикладно да урадите детаљнији преглед ангажовања рударења података да бисте утврдили да ли постоји важан фактор или задатак који је на неки начин занемарен. Овај преглед такође покрива питања осигурања квалитета. На пример: да ли смо правилно направили модел? Да ли смо користили само атрибуте које смемо да користимо и који су доступни за будуће анализе?
Одредите следеће кораке
Сада одлучујете како да поступите у зависности од резултата процене и прегледа процеса. Да ли завршавате овај пројекат и прелазите на примену, покрећете даље итерације или постављате нове пројекте рударења података? Такође би требало да сагледате преостале ресурсе и буџет, што може утицати на ваше одлуке.
Фаза 6: Распоређивање
Планирајте примену: У фази постављања, ви ћете узети своје резултате евалуације и одредити стратегију за њихову примену. Ако је идентификована општа процедура за креирање релевантних модела, ова процедура је овде документована за каснију примену. Има смисла размотрити начине и средства имплементације током фазе пословног разумевања јер је примена кључна за успех пројекта. Овде предиктивна аналитика помаже у побољшању оперативне стране вашег пословања.
Планирајте праћење и одржавање
Надгледање и одржавање су важна питања ако резултат рударења података постане део свакодневног пословања и његовог окружења. Пажљива припрема стратегије одржавања помаже да се избегну непотребно дуги периоди нетачне употребе резултата рударења података. Пројекту је потребан детаљан план процеса праћења како би се пратило примену резултата рударења података. Овај план узима у обзир специфичну врсту распоређивања.
Направите завршни извештај
На крају пројекта, написаћете завршни извештај. У зависности од плана примене, овај извештај може бити само резиме пројекта и његових искустава (ако већ нису документовани као текућа активност), или може бити коначна и свеобухватна презентација резултата истраживања података.
Преглед пројекта
је однос
Процените шта је пошло како треба, а шта погрешно, шта је добро урађено и шта треба побољшати.