Data Scientist vs Data Engineer: у чым розніца?

Навукоўцам дадзеных і інжынерам дадзеных могуць быць новыя назвы вакансій, але асноўныя ролі задач існуюць ужо некаторы час. Традыцыйна кожны, хто аналізаваў дадзеныя, называўся б "аналітыкам дадзеных", а кожны, хто стварыў быткія платформы для падтрымкі аналізу дадзеных, быў бы "распрацоўшчыкам бізнес-аналітыкі".

З з'яўленнем вялікіх дадзеных у карпарацыях і навукова-даследчых цэнтрах пачалі з'яўляцца новыя ролі, а менавіта - Data Scientist і Data Engineers.

Вось агляд роляў Data Analyst, BI Developer, Data Scientist і Data Engineer.

Аналітык дадзеных

Аналітыкі дадзеных з'яўляюцца вопытнымі спецыялістамі ў сваёй арганізацыі, якія могуць запытваць і апрацоўваць дадзеныя, прадастаўляць справаздачы, абагульняць і візуалізаваць дадзеныя. Яны выдатна разумеюць, як выкарыстоўваць існуючыя інструменты і метады для вырашэння праблемы, а таксама дапамагаюць людзям з усёй кампаніі разбірацца ў канкрэтных запытах з дапамогай спецыяльных справаздач і графікаў.

Аднак не чакаецца, што яны будуць займацца аналізам вялікіх дадзеных, і звычайна яны не маюць матэматычнага або даследавання, каб распрацаваць новыя алгарытмы для канкрэтных праблем.

Навыкі і інструменты: Аналітыкі дадзеных павінны мець базавыя ўяўленні пра некаторыя асноўныя навыкі: статыстыку, абмен дадзенымі, візуалізацыю дадзеных, пошукавы аналіз дадзеных, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS .

Распрацоўшчыкі Business Intelligence

Распрацоўшчыкі Business Intelligence - гэта спецыялісты па дадзеных, якія больш цесна ўзаемадзейнічаюць з унутранымі зацікаўленымі бакамі, каб зразумець патрэбы ў справаздачнасці, а затым сабраць патрабаванні, распрацаваць і пабудаваць BI і рашэнні для справаздачнасці для кампаніі. Яны павінны распрацаваць, распрацаваць і падтрымліваць новыя і існуючыя сховішчы дадзеных, пакеты ETL, кубы, прыборныя панэлі і аналітычныя справаздачы.

Акрамя таго, яны працуюць з рэляцыйнымі і шматмернымі базамі дадзеных і павінны мець выдатныя навыкі распрацоўкі SQL для інтэграцыі дадзеных з розных рэсурсаў. Яны выкарыстоўваюць усе гэтыя навыкі для задавальнення патрэб самаабслугоўвання на тэрыторыі ўсяго прадпрыемства. Распрацоўшчыкі BI звычайна не чакаюць аналізу дадзеных.

Навыкі і інструменты: ETL, распрацоўка справаздач, OLAP, кубікі, вэб-разведка, дызайн бізнес-аб'ектаў, Tableau, інструменты прыборнай панэлі, SQL, SSAS, SSIS.

Інжынер дадзеных

Інжынеры дадзеных - прафесіяналы, якія рыхтуюць інфраструктуру "вялікіх дадзеных" для аналізу даследчыкаў. Гэта інжынеры, якія распрацоўваюць, ствараюць, інтэгруюць дадзеныя з розных рэсурсаў і кіруюць вялікімі дадзенымі. Затым яны пішуць складаныя запыты, пераканайцеся, што ён лёгка даступны, працуе бесперашкодна, і іх мэта - аптымізаваць працу экасістэмы вялікіх дадзеных сваёй кампаніі.

Яны могуць таксама запусціць некаторыя ETL (Extract, Transform and Load) па-над вялікіх набораў дадзеных і стварыць сховішчы вялікіх дадзеных, якія могуць быць выкарыстаны для справаздач або аналізу навукоўцамі дадзеных. Акрамя таго, паколькі інжынеры дадзеных больш засяроджваюцца на дызайне і архітэктуры, звычайна не варта ведаць машыннае навучанне і аналітыку для вялікіх дадзеных.

Навыкі і інструменты: Hadoop, MapReduce, Вулей, Pig, MySQL, MongoDB, Cassandra, Струменевая перадача дадзеных, NoSQL, SQL, праграмаванне.

Data Scientist

Вучоны па дадзеных - алхімік 21 стагоддзя: той, хто можа ператварыць неапрацаваныя дадзеныя ў вычышчаную інфармацыю. Дадзеныя навукоўцы прымяняюць статыстыку, машыннае навучанне і аналітычныя падыходы да вырашэння важных бізнес-задач. Іх галоўная функцыя - дапамагчы арганізацыям ператварыць свае вялікія дадзеныя ў каштоўныя і дзейсныя дадзеныя.

Сапраўды, навука дадзеных не абавязкова з'яўляецца новым полем сама па сабе, але гэта можа разглядацца як прасунуты ўзровень аналізу дадзеных, які кіруецца і аўтаматызуецца за кошт машыннага навучання і інфарматыкі. Іншым словам, у параўнанні з "аналітыкамі дадзеных", акрамя навыкаў аналітыкі дадзеных, навукоўцы дадзеных маюць моцныя навыкі праграмавання, здольнасць распрацоўваць новыя алгарытмы, апрацоўваць вялікія дадзеныя, валодаючы некаторымі ведамі ў галіне ведаў.

Больш за тое, чакаецца, што навукоўцы дадзеных інтэрпрэтуюць і красамоўна дадуць вынікі сваіх высноў, выкарыстоўваючы метады візуалізацыі, будуючы прыкладныя навуковыя даныя альбо распавядаючы цікавыя гісторыі пра рашэнне сваіх праблем з дадзенымі (для бізнесу).

Навыкі рашэння праблем навукоўца патрабуюць разумення традыцыйных і новых метадаў аналізу дадзеных для пабудовы статыстычных мадэляў або выяўлення заканамернасцей у дадзеных. Напрыклад, стварэнне рэкамендацыйных рухавікоў, прагназаванне фондавага рынку, дыягностыка пацыентаў з улікам іх падабенства альбо знаходжанне заканамернасцей падробных здзелак.

Дадзеныя Навукоўцы часам могуць прадстаўляць вялікія дадзеныя без асаблівых праблем бізнесу. У гэтым выпадку цікаўны Data Scientist павінен вывучыць дадзеныя, высветліць правільныя пытанні і прадставіць цікавыя высновы! Гэта складана, таму што, каб прааналізаваць дадзеныя, моцныя навукоўцы дадзеных павінны валодаць вельмі шырокімі ведамі аб розных метадах машыннага навучання, здабычы дадзеных, статыстыкі і інфраструктуры вялікіх дадзеных.

Яны павінны мець досвед працы з рознымі наборамі дадзеных рознага памеру і формы, і мець магчымасць эфектыўна і эфектыўна запускаць свае алгарытмы на дадзеных вялікіх памераў, што звычайна азначае быць у курсе ўсіх найноўшых перадавых тэхналогій. Вось чаму важна ведаць асновы інфарматыкі і праграмавання, уключаючы досвед працы з мовамі і тэхналогіямі баз дадзеных (вялікія / маленькія).

Навыкі і інструменты: Python, R, Scala, Apache Spark, Hadoop, інструменты і алгарытмы майнинга дадзеных, машыннае навучанне, статыстыка.

MUORO - Дадзеныя і аналітыка Genius muoro.io