Big Data met Python

Doelgroep: junior en medior data engineers

De cursist leert programmeren in Python en het Spark framework. We zullen werken met oefeningen en projecten

Iedere lesdag bestaat uit een theoretisch deel en een praktisch deel met oefeningen.

Opzet

Het traject bestaat uit meerdere blokken van 2 dagen.

Het traject vormt één geheel, maar ieder blok is onafhankelijk van de voorgaande blokken.

De cursisten kunnen bepaalde delen volgen en/of overslaan.

Ook kunnen twee blokken achter elkaar in één week gegeven worden.

Programma

blok1 Python

dag 1

Introductie Python
installatie Python en PyCharm

dag 2

de basistaalelementen: variabelen, keuze en herhalingsstructuren

blok 2 Python vervolg

dag 1

werken met lijsten
werken met lambdas, map filter en reduce functies

dag 2

werken met jupyter

blok 2 PySpark

dag 1

installatie van Spark
het inlezen en bevragen van dataframes in Spark

dag 2

het visualiseren van de data met matplot-lib

blok 3 Machine Learning met Spark

dag 1

Overzicht van Machine Learning algoritmen
Classificatie, Clustering, Regressie, Recommandation, Neurale Netwerken

dag 2

werken met de Spark ML library
Vectors, conversie, validatie

blok 4 Pandas

dag 1

introductie van NumPy en Pandas
Het inlezen en bevragen van dataframes in Pandas

dag 2

visualiseren van data in pandas

blok 5 Scikit-learn

dag 1

Overzicht van Machine Learning algoritmen
Classificatie, Clustering, Regressie, Recommandation, Neurale Netwerken

dag 2

werken met Scikit-learn

blok 6 Hadoop

dag 1

intro in het hadoop ecosysteem
mapreduce, hdfs, hive, zeppelin, ambary

dag 2

exploratie van de verschillende onderdelen van hadoop
yarn, pig, cassandra, hbase

blok 7 Project

dag 1, 2

een project met echte casus en een echte dataset. Het liefst komt de data en casus uit het bedrijf zelf. De technieken van de voorgaande dagen wordt toegepast