Апацхе Спарк водич пружа основне и напредне концепте Спарк-а. Наш водич за Спарк је дизајниран за почетнике и професионалце.
Спарк је обједињени аналитички механизам за обраду података великих размера, укључујући уграђене модуле за СКЛ, стриминг, машинско учење и обраду графова.
Наш Спарк водич укључује све теме Апацхе Спарк-а са уводом у Спарк, инсталацију Спарк-а, Спарк архитектуру, Спарк компоненте, РДД, Спарк примере у реалном времену и тако даље.
Шта је Спарк?
Апацхе Спарк је кластер рачунарски оквир отвореног кода. Његова примарна сврха је руковање подацима генерисаним у реалном времену.
Спарк је изграђен на врху Хадооп МапРедуце-а. Оптимизован је за рад у меморији, док алтернативни приступи као што је Хадооп МапРедуце записује податке на и са хард дискова рачунара. Дакле, Спарк обрађује податке много брже од других алтернатива.
Историја Апацхе Спарк-а
Спарк је покренуо Матеи Захариа у УЦ Беркелеи'с АМЛаб 2009. године. Отворен је код 2010. под БСД лиценцом.
2013. године, пројекат је преузела Апацхе Софтваре Фоундатион. У 2014, Спарк се појавио као врхунски Апацхе пројекат.
Карактеристике Апацхе Спарк-а
Фаст | - Пружа високе перформансе и за пакетне и за стримовање података, користећи најсавременији ДАГ планер, оптимизатор упита и машину за физичко извршавање.
Једноставан за коришћење | - Олакшава писање апликације на Јава, Сцала, Питхон, Р и СКЛ. Такође пружа више од 80 оператера високог нивоа.
Уопштеност | - Пружа колекцију библиотека укључујући СКЛ и ДатаФрамес, МЛлиб за машинско учење, ГрапхКс и Спарк Стреаминг.
Лагана | - То је лагани обједињени аналитички мотор који се користи за обраду података великих размера.
Рунс Еверивхере | - Може лако да ради на Хадооп-у, Апацхе Месосу, Кубернетесу, самостално или у облаку.
Употреба Спарк-а
Интеграција података: | Подаци које генеришу системи нису довољно конзистентни да би се комбиновали за анализу. Да бисмо дохватили конзистентне податке из система, можемо да користимо процесе као што су екстраховање, трансформација и учитавање (ЕТЛ). Спарк се користи за смањење трошкова и времена потребног за овај ЕТЛ процес.
Обрада стрима: | Увек је тешко руковати подацима генерисаним у реалном времену као што су датотеке евиденције. Спарк је довољно способан да управља токовима података и одбија потенцијално лажне операције.
Машинско учење: | Приступи машинском учењу постају изводљивији и све тачнији због повећања обима података. Пошто је Спарк способан да складишти податке у меморији и може брзо да покреће поновљене упите, олакшава рад на алгоритмима за машинско учење.
Интерактивна аналитика: | Спарк може брзо да генерише одговор. Дакле, уместо покретања унапред дефинисаних упита, можемо интерактивно руковати подацима.
Предуслов
Пре него што научите Спарк, морате имати основно знање о Хадооп-у.
Публика
Наш Спарк водич је дизајниран да помогне почетницима и професионалцима.
Проблеми
Уверавамо вас да нећете наћи никакав проблем са овим Спарк водичем. Међутим, ако постоји грешка, објавите проблем у обрасцу за контакт.