logo

Шта је ЦРИСП у рударењу података?

ЦРИСП-ДМ је скраћеница за стандардни процес за рударење података у различитим индустријама. ЦРИСП-ДМ методологија пружа структурирани приступ планирању пројекта рударења података. То је снажна и добро доказана методологија. Не тражимо никакво власништво над њим. Нисмо ми то измислили. Ми смо претварач његове моћне практичности, флексибилности и корисности када користимо аналитику за решавање пословних проблема. То је златна нит која се провлачи кроз скоро сваки састанак са клијентима.

Овај модел је идеализовани низ догађаја. У пракси, многи задаци се могу обављати другачијим редоследом и често ће бити потребно да се вратите на претходне задатке и поновите одређене радње. Модел не покушава да обухвати све могуће руте кроз процес рударења података.

Како ЦРИСП помаже?

ЦРИСП ДМ пружа мапу пута, даје вам најбоље праксе и пружа структуре за боље и брже резултате коришћења рударења података, тако да на тај начин помаже предузећу да прати током планирања и извођења пројекта рударења података.

Фазе ЦРИСП-ДМ

ЦРИСП-ДМ пружа преглед животног циклуса рударења података као модела процеса. Модел животног циклуса се састоји од шест фаза, са стрелицама које указују на најважније и најчешће зависности између фаза. Редослед фаза није строг. И већина пројеката се креће напред-назад између фаза по потреби. Модел ЦРИСП-ДМ је флексибилан и може се лако прилагодити.

На пример, ако ваша организација има за циљ да открије прање новца, вероватно ћете прегледати велике количине података без специфичног циља моделирања. Уместо моделирања, ваш рад ће се фокусирати на истраживање података и визуелизацију како бисте открили сумњиве обрасце у финансијским подацима. ЦРИСП-ДМ вам омогућава да креирате модел рударења података који одговара вашим потребама.

Садржи описе типичних фаза пројекта, задатака укључених у сваку фазу и објашњење односа између ових задатака.

Шта је ЦРИСП у рударењу података

Фаза 1: Пословно разумевање

Прва фаза ЦРИСП-ДМ процеса је разумевање шта желите да постигнете из пословне перспективе. Ваша организација може имати супротстављене циљеве и ограничења која морају бити правилно избалансирана. Ова фаза процеса има за циљ да открије важне факторе који утичу на исход пројекта. Занемаривање овог корака може значити да се много труда улаже у стварање тачних одговора на погрешна питања.

Који су жељени резултати пројекта?

    Поставите циљеве:Опишите свој примарни циљ из пословне перспективе. Можда постоје и друга сродна питања која бисте желели да поменете. На пример, ваш примарни циљ може бити да задржите тренутне купце предвиђањем када су склони да пређу код конкурента.Направите план пројекта:Опишите план за постизање дата мининга и пословних циљева. План треба да специфицира кораке које треба извршити током остатка пројекта, укључујући почетни избор алата и техника.Критеријуми пословног успеха:Овде ћете изложити критеријуме које ћете користити да бисте утврдили да ли је пројекат био успешан са пословне тачке гледишта. Они би у идеалном случају требали бити специфични и мерљиви, на пример, да смање број корисника на одређени ниво. Међутим, понекад би могло бити неопходно имати субјективније критеријуме, као што је давање корисних увида у односе.

Процените тренутно стање

игра голуб андроид

Ово укључује детаљније утврђивање чињеница о ресурсима, ограничењима, претпоставкама и другим факторима које ћете морати да узмете у обзир приликом одређивања циља анализе података и плана пројекта.

    Инвентар ресурса:Наведите ресурсе доступне пројекту, укључујући:
    • Особље (пословни стручњаци, стручњаци за податке, техничка подршка, стручњаци за рударење података)
    • Подаци (фиксни изводи, приступ живим, ускладиштеним или оперативним подацима)
    • Рачунарски ресурси (хардверске платформе)
    • Софтвер (алати за рударење података, други релевантни софтвер)
    Захтеви, претпоставке и ограничења:Наведите све захтеве пројекта, укључујући распоред завршетка, потребну разумљивост и квалитет резултата, као и сва питања безбедности података и правна питања. Уверите се да вам је дозвољено да користите податке. Наведите претпоставке пројекта. То могу бити претпоставке о подацима који се могу верификовати током прикупљања података, али могу укључивати и непроверљиве претпоставке о пословању у вези са пројектом. Важно је навести последње ако утичу на валидност резултата. Наведите ограничења на пројекту. Ово могу бити ограничења доступности ресурса, али могу укључивати и технолошка ограничења као што је величина скупа података које је практично користити за моделирање.Ризици и непредвиђени случајеви:Наведите ризике или догађаје који могу одложити пројекат или довести до његовог неуспеха. Наведите одговарајуће планове за ванредне ситуације, на пример, шта ћете предузети ако дође до ових ризика или догађаја?Терминологија:Саставите речник терминологије релевантне за пројекат. Ово ће генерално имати две компоненте:
    • Речник релевантне пословне терминологије чини део пословног разумевања доступног пројекту. Израда овог појмовника је корисна вежба 'привлачења знања' и едукације.
    • Речник терминологије дата мининга илустрован је примерима релевантним за пословни проблем.
    Трошкови и користи:Направите анализу трошкова и користи за пројекат, која упоређује трошкове пројекта са потенцијалним користима за пословање ако је успешан. Ово поређење треба да буде што је могуће конкретније. На пример, требало би да користите финансијске мере у комерцијалној ситуацији.

Одредите циљеве рударења података

Пословни циљ наводи циљеве у пословној терминологији. Циљ рударења података наводи циљеве пројекта у техничком смислу. На пример, пословни циљ може бити повећање продаје каталога постојећим купцима. Циљ рударења података може бити да се предвиди колико ће виџета купац купити, с обзиром на њихову куповину у последње три године, демографске податке (старост, плата, град, итд.) и цену артикла.

    Критеријуми пословног успеха:Описује планиране резултате пројекта који омогућавају постизање пословних циљева.Критеријуми успеха рударења података:Он дефинише критеријуме за успешан исход пројекта. На пример, одређени ниво тачности предвиђања или профил склоности куповини са датим степеном „појачања“. Као и код критеријума пословног успеха, можда ће бити неопходно да се они описују субјективно, у ком случају треба идентификовати особу или особе које доносе субјективни суд.

Израдите план пројекта

Опишите планирани план за постизање циљева дата мининга и пословних циљева. Ваш план треба да наведе кораке које треба извршити током остатка пројекта, укључујући почетни избор алата и техника.

1. План пројекта: Наведите фазе које ће се извршити у пројекту, са њиховим трајањем, потребним ресурсима, улазима, излазима и зависностима. Где је могуће, покушајте да експлицитно објасните итерације великих размера у процесу рударења података, на пример, понављање фаза моделирања и евалуације.

Као део плана пројекта, важно је анализирати зависности између временских распореда и ризика. Резултате ових анализа експлицитно означити у плану пројекта, идеално са акцијама и препорукама уколико се ризици испоље. Одлучите која стратегија евалуације ће се користити у фази евалуације.

Ваш пројектни план ће бити динамичан документ. На крају сваке фазе, прегледаћете напредак и достигнућа и у складу са тим ажурирати план пројекта. Специфичне тачке прегледа за ова ажурирања треба да буду део плана пројекта.

ц низ програмских стрингова

2. Почетна процена алата и техника: На крају прве фазе, требало би да предузмете почетну процену алата и техника. На пример, изаберете алат за рударење података који подржава различите методе за различите фазе процеса. Важно је проценити алате и технике у раној фази процеса јер избор алата и техника може утицати на цео пројекат.

Фаза 2: Разумевање података

Друга фаза ЦРИСП-ДМ процеса захтева од вас да набавите податке наведене у ресурсима пројекта. Ово почетно прикупљање укључује учитавање података ако је то неопходно за разумевање података. На пример, ако користите одређени алат за разумевање података, савршено је логично да учитате своје податке у овај алат. Ако набавите више извора података, морате размотрити како и када ћете их интегрисати.

    Почетни извештај о прикупљању података:Наведите набављене изворе података, њихове локације, методе коришћене за њихово добијање и све проблеме на које сте наишли. Забележите проблеме на које сте наишли и постигнута решења. Ово ће помоћи у будућој репликацији овог пројекта и извођењу сличних будућих пројеката.

Опишите податке

Испитајте 'бруто' или 'површинске' особине добијених података и известите о резултатима.

    Извештај о опису података:Опишите податке који су прикупљени, укључујући њихов формат, количину, идентитете поља и све друге површинске карактеристике које су откривене. Процените да ли добијени подаци задовољавају ваше захтеве.

Истражите податке

Током ове фазе ћете се бавити питањима рударења података користећи технике упита, визуелизације података и извештавања. То може укључивати:

пд.мерге
  • Дистрибуција кључних атрибута
  • Односи између парова или мали број атрибута
  • Резултати једноставних агрегација
  • Особине значајних субпопулација
  • Једноставне статистичке анализе

Ове анализе могу директно да се позабаве вашим циљевима рударења података. Они могу допринети или побољшати опис података и извештаје о квалитету и укључити у трансформацију и друге кораке припреме података који су потребни за даљу анализу.

    Извештај о истраживању података:Опишите резултате вашег истраживања података, укључујући прве налазе или почетну хипотезу и њихов утицај на остатак пројекта. Ако је прикладно, можете да укључите графиконе и дијаграме овде да назначите карактеристике података које сугеришу даље испитивање интересантних подскупова података.

Проверите квалитет података

Испитајте квалитет података, бавећи се питањима као што су:

  • Да ли су подаци потпуни или покривају све потребне случајеве?
  • Да ли је тачно, или садржи грешке, и ако има грешака, колико су честе?
  • Да ли недостају вредности у подацима? Ако је тако, како су заступљени, где се јављају и колико су чести?

Извештај о квалитету података

Наведите резултате провере квалитета података. Ако постоје проблеми са квалитетом, предложите могућа решења. Решења за проблеме квалитета података генерално у великој мери зависе од података и пословног знања.

Фаза 3: Припрема података

У овој фази пројекта одлучујете о подацима које ћете користити за анализу. Критеријуми које можете користити за доношење ове одлуке укључују релевантност података за ваше циљеве рударења података, квалитет података и техничка ограничења као што су ограничења обима података или типова података.

    Образложење за укључивање/искључивање:Наведите податке које треба укључити/искључити и разлоге за ове одлуке.

Очистите своје податке

Овај задатак укључује подизање квалитета података на ниво који захтевају технике анализе које сте изабрали. Ово може укључивати одабир чистих подскупова података, уметање одговарајућих подразумеваних вредности или амбициозније технике као што је процена података који недостају моделирањем.

    Извештај о чишћењу података:Опишите које сте одлуке и радње предузели да бисте решили проблеме са квалитетом података. Размотрите све трансформације података направљене у сврху чишћења и њихов могући утицај на резултате анализе.

Конструишите потребне податке

Овај задатак укључује конструктивне операције припреме података као што је производња изведених атрибута, читавих нових записа или трансформисаних вредности за постојеће атрибуте.

    Изведени атрибути:Ово су нови атрибути конструисани од једног или више постојећих атрибута у истом запису. На пример, можете да користите променљиве дужине и ширине да бисте израчунали нову променљиву површине.Генерисани записи:Овде описујете стварање било којих потпуно нових записа. На пример, можда ћете морати да креирате евиденцију за купце који нису куповали током прошле године. Није било разлога да се таква евиденција налази у сировим подацима. Ипак, можда би имало смисла представити да су одређени купци експлицитно обавили нулту куповину у сврхе моделирања.

Интегришите податке

Ове методе комбинују информације из више база података, табела или записа за креирање нових записа или вредности.

    Обједињени подаци:Спајање табела се односи на спајање две или више табела са различитим информацијама о истим објектима. На пример, малопродајни ланац може да има једну табелу са информацијама о општим карактеристикама сваке продавнице (нпр. површина, тип тржног центра), другу табелу са сажетим подацима о продаји (нпр. профит, процентуална промена у продаји у односу на претходну годину) и друга са подацима о демографији околине. Свака од ових табела садржи по један запис за сваку продавницу. Ове табеле се могу спојити у нову табелу са једним записом за сваку продавницу, комбинујући поља из изворних табела.Агрегације:Агрегације су операције у којима се нове вредности израчунавају сумирањем информација из више записа или табела. На пример, претварање табеле куповина купаца где један запис за сваку куповину у нову табелу и један запис за сваког купца, са пољима као што су број куповина, просечни износ куповине, проценат поруџбина наплаћених са кредитне картице, проценат артикала под промоцијом итд.

Фаза 4: Моделирање

Изаберите технику моделирања: Као први корак, изабраћете основну технику моделирања коју ћете користити. Иако сте можда већ изабрали алат током фазе пословног разумевања, у овој фази ћете бирати специфичну технику моделирања, нпр. изградња стабла одлучивања са Ц5.0 или генерисање неуронске мреже са пропагацијом уназад. Ако се примењује више техника, извршите овај задатак посебно за сваку технику.

    Техника моделирања:Документујте основну технику моделирања која ће се користити.Претпоставке моделирања:Многе технике моделирања праве специфичне претпоставке о подацима, на пример, да сви атрибути имају уједначену дистрибуцију, да нису дозвољене вредности које недостају, атрибут класе мора бити симболичан итд. Забележите све направљене претпоставке.

Генеришите дизајн теста

цоллецтионс јава

Пре него што направите модел, потребно је да генеришете процедуру или механизам за тестирање квалитета и валидности модела. На пример, у надгледаним задацима рударења података као што је класификација, уобичајено је користити стопе грешке као мере квалитета за моделе рударења података. Због тога обично раздвајате скуп података на скупове за обуку и тестове, градите модел на скупу возова и процењујете његов квалитет на засебном скупу тестова.

    Дизајн теста:Опишите планирани план за обуку, тестирање и евалуацију модела. Примарна компонента плана је одређивање начина на који се расположиви скуп података подели на скупове података за обуку, тестирање и валидацију.

Изградите модел

Покрените алатку за моделирање на припремљеном скупу података да бисте креирали један или више модела.

    Подешавања параметара:Са било којим алатом за моделирање, често постоји велики број параметара који се могу подесити. Наведите параметре, њихове вредности и разлоге за избор подешавања параметара.модели:Ово су модели које производи алат за моделирање, а не извештај о моделима.Описи модела:Опишите добијене моделе, известите о тумачењу модела и документујте све потешкоће на које се сусрећу са њиховим значењима.

Оцените модел

Интерпретирајте моделе у складу са својим знањем из домена, критеријумима успеха рударења података и жељеним дизајном теста. Процијените успјех примјене техника моделирања и откривања, а затим контактирајте пословне аналитичаре и стручњаке из домена касније како бисте разговарали о резултатима рударења података у пословном контексту. Овај задатак разматра само моделе, док фаза евалуације такође узима у обзир све друге резултате произведене током пројекта.

У овој фази, требало би да рангирате моделе и процените их према критеријумима оцењивања. Требало би да размотрите пословне циљеве и критеријуме успеха колико год можете. У већини пројеката рударења података, једна техника се примењује више пута, а резултати рударења података се генеришу са неколико различитих техника.

    Процена модела:Сумирајте резултате овог задатка, наведите квалитете ваших генерисаних модела (нпр. у смислу тачности) и рангирајте њихов квалитет један са другим.Ревидирана подешавања параметара:У складу са проценом модела, ревидирајте их и подесите за следећу вожњу моделирања. Понављајте изградњу и процену модела све док чврсто не верујете да сте пронашли најбољи модел(е). Документујте све такве ревизије и процене.

Фаза 5: Евалуација

Оцените своје резултате: Претходни кораци евалуације бавили су се факторима као што су тачност и општост модела. Током овог корака, проценићете степен у ком модел испуњава ваше пословне циљеве и покушати да утврдите да ли постоји неки пословни разлог зашто је овај модел недовољан. Друга опција је да се модел тестира на тест апликацијама у стварној апликацији ако временска и буџетска ограничења дозвољавају. Фаза евалуације такође укључује процену свих других резултата рударења података које сте генерисали. Резултати рударења података укључују моделе који су нужно повезани са оригиналним пословним циљевима и свим другим налазима који нису нужно повезани са оригиналним пословним циљевима, али такође могу открити додатне изазове, информације или наговештаје за будуће правце.

    Процена резултата рударења података:Сумирајте резултате процене у критеријуме пословног успеха, укључујући коначну изјаву о томе да ли пројекат већ испуњава почетне пословне циљеве.Одобрени модели:Након процене модела према критеријумима пословног успеха, генерисани модели који испуњавају изабране критеријуме постају одобрени модели.

Процес прегледа

У овом тренутку се чини да су добијени модели задовољавајући и задовољавају пословне потребе. Сада је прикладно да урадите детаљнији преглед ангажовања рударења података да бисте утврдили да ли постоји важан фактор или задатак који је на неки начин занемарен. Овај преглед такође покрива питања осигурања квалитета. На пример: да ли смо правилно направили модел? Да ли смо користили само атрибуте које смемо да користимо и који су доступни за будуће анализе?

    Преглед процеса:Сумирајте преглед процеса и истакните активности које су пропуштене и оне које би требало поновити.

Одредите следеће кораке

Сада одлучујете како да поступите у зависности од резултата процене и прегледа процеса. Да ли завршавате овај пројекат и прелазите на примену, покрећете даље итерације или постављате нове пројекте рударења података? Такође би требало да сагледате преостале ресурсе и буџет, што може утицати на ваше одлуке.

    Списак могућих радњи:Наведите потенцијалне даље акције и разлоге за и против сваке опције.Одлука:Опишите одлуку о томе како даље, заједно са образложењем.

Фаза 6: Распоређивање

Планирајте примену: У фази постављања, ви ћете узети своје резултате евалуације и одредити стратегију за њихову примену. Ако је идентификована општа процедура за креирање релевантних модела, ова процедура је овде документована за каснију примену. Има смисла размотрити начине и средства имплементације током фазе пословног разумевања јер је примена кључна за успех пројекта. Овде предиктивна аналитика помаже у побољшању оперативне стране вашег пословања.

    План примене:Сумирајте своју стратегију постављања, укључујући неопходне кораке и како да их изведете.

Планирајте праћење и одржавање

Надгледање и одржавање су важна питања ако резултат рударења података постане део свакодневног пословања и његовог окружења. Пажљива припрема стратегије одржавања помаже да се избегну непотребно дуги периоди нетачне употребе резултата рударења података. Пројекту је потребан детаљан план процеса праћења како би се пратило примену резултата рударења података. Овај план узима у обзир специфичну врсту распоређивања.

    План надзора и одржавања:Сумирајте стратегију праћења и одржавања, укључујући неопходне кораке и како их извести.

Направите завршни извештај

На крају пројекта, написаћете завршни извештај. У зависности од плана примене, овај извештај може бити само резиме пројекта и његових искустава (ако већ нису документовани као текућа активност), или може бити коначна и свеобухватна презентација резултата истраживања података.

    Коначни извештај:Ово је коначни писани извештај о ангажовању дата мининга. Укључује све претходне резултате, сумирање и организовање резултата.Финална презентација:Често ће се одржати састанак након пројекта на којем се резултати презентују купцу.

Преглед пројекта

је однос

Процените шта је пошло како треба, а шта погрешно, шта је добро урађено и шта треба побољшати.

    Документација о искуству:Сумирајте важна искуства стечена током пројекта. На пример, ова документација може да садржи све замке на које сте наишли, обмањујуће приступе или савете за одабир најприкладнијих техника рударења података у сличним ситуацијама. У идеалним пројектима, документација о искуству такође покрива све извештаје које су поједини чланови пројекта написали током претходних фаза пројекта.