Co je Data Science?
Interdisciplinární obor, který spojuje podnikání, technologie, statistiku a komunikace do jedné role za účel vytěžování velkých dat. K následným analýzám využívají vědecké metody a algoritmy. Termíny „Data Science” a „Data Scientist” vznikly kolem roku 2008 poté, co si společnosti jako Facebook a LinkedIn uvědomily, že mají přístup k obrovskému množství informací a že s nimi mohou nějak pracovat i dál. Vzhledem k obsáhlosti dat bylo nutné postavit někoho do specifické pozice věnované datům a jejich analýze.
Datoví experti kladou otázky, shromažďují informace potřebné k jejich zodpovězení a získávají poznatky, které mohou představit vedoucím společností. Role datového specialisty je neuvěřitelně cenná. Ze všech získaných dat mohou firmy těžit v každém odvětví.
Cíle Data Science
Hlavním cílem datových specialistů je vyčistit a analyzovat velká data. Pomocí softwaru navrženého speciálně pro Big Data musí být tito experti schopni získat informace a prezentovat svá zjištění způsobem, kterému porozumí například business lídři a další strany. Zároveň dodávají datové výstupy, jako jsou analýzy vzorců, optimalizační algoritmy, predikce apod.
Pracovní pozice v datové vědě
- Data Scientist
Co dělá? Kombinuje obchodní znalosti, analýzu dat a komunikaci, aby pomohli firmám najít extrahovat informace z velkých dat. Jakmile svá zjištění odprezentuje vedení společnosti, dostává od něj další postup.
Co by měl umět? Určitě by měl umět ovládat programovací dovednosti jazyka specifického pro datovou vědu (např. Python, R, SAS atd.), dále také statistiku a matematiku a schopnost data předkládat do snadno srozumitelných vizualizací. V neposlední řadě by měl mít znalosti Hadoop, SQL a strojového učení.
- Datový inženýr
Co dělá? Datový inženýr vyvíjí, optimalizuje a spravuje tok dat a jejich infrastrukturu. Tato pozice je potřebná pro řízení toku rychle se měnících dat a pro jejich zpracování pro Data Scientisty.
Co by měl umět? Určitě je nutná znalost v programování, jako je Java a Scala. Musí mít také povědomí o databázích a rámcích NoSQL, jako je Apache Hadoop. - Datový analytik
Co dělá? Často funguje jako prostředník mezi Data Scientistou a Business analytikem. Spíše než generováním otázek se zabývá prohledáváním dat, ve kterých hledá odpovědi a řešení, které jsou v souladu s obchodní strategií.
Co by měl umět? Oproti předchozím pozicím nepotřebuje programovací dovednosti jako Data Scientist, ale potřebuje znalost Pythonu, S a R. Také musí být schopen mapovat a vizualizovat data, aby bylo snadné je pochopit. Potřebuje také statistické a matematické znalosti.
Nástroje datové vědy
Programovací jazyky: Všichni datoví analytici musí znát programovací jazyky včetně R, Pythonu, Scaly, Julie, SQL, Java atd. Nemusí důkladně znát všechny, avšak jejich výběr vám bude k analýze dat určitě užitečný.
Nástroje pro modelování a vizualizaci dat: Tyto nástroje zahrnují Scikit-learn, Pandas, TensorFlow, Numpy, e1071, Mat plotlib, Shiny, D3 a ggplot2 a všechny jsou pomocníky ve statistice, matematice, vizualizaci dat, algoritmech a modelování dat k jejich analýze.
Databázové nástroje: Datoví inženýři mají přehled v databázích NoSQL, jako je MongoDB a Cassandra DB. Scientisté a analytici musí mít přístup k datům a dotazům, takže také musí být schopni používat NoSQL, NewSQL a systémy pro správu relačních databází (tj. MySQL, Redshift, Hadoop, HBase atd.).
Big Data Tools: Hadoop, Spark, Pig, Drill, Hive, Presto a další velké datové technologie se používají k analýze dat a poskytují rámec pro zpracování a distribuci velkých dat.
Jak si osvojit Data Science?
Existuje řada cest, jak se stát odborníkem ve světě dat. Ta tradiční spočívá v získání bakalářského titulu, magisterský nepotřebujete, ačkoliv mnoho specialistů v oboru dat jej má. Pokud se chcete specializovat na konkrétní oblast, jako je zdravotnictví nebo věda, měli byste se ponořit do kurzů a školení i v těchto odvětvích.
Místo vysoké školy vám ale mohou stačit také certifikáty z kurzů, s nimiž rozvinete dovednosti a můžete získat i velmi váženou pozici.
Nejlepší certifikace v oblasti dat
- Microsoft Certified: Azure Data Scientist Associate
- MCSE: Správa dat a analytika
- Google Certified Professional Data Engineer
- EMC Data Science Associate
Staňte se datovým odborníkem s New Horizons
New Horizons, největší společnost v oblasti IT školení, nabízí školicí kurzy v oblasti Data Science. Vybrat si můžete na EduCity nebo na webových stránkách New Horizons.