Einführung in datengetriebene Projekte

"Daten sind das Öl des 21. Jahrhunderts" – so umstritten dieses Zitat ist, so offensichtlich ist die Bedeutung von Daten in unserer heutigen Gesellschaft. Die Auswertung und Nutzung dieser Daten unterliegt heute meist Data Engineers und Data Scientists, deren Vorgehensweise viele Gemeinsamkeiten zur Softwareentwicklung aufweist und gleichzeitig doch viele eigene Vorgehensweisen hat.

Dieses Einsteiger-Training führt in die grundlegenden Prinzipien bei der Arbeit mit Daten ein, spielt typische Abläufe durch, führt in gängige Technologien ein und zeigt die wesentlichen Herausforderungen auf. Dabei geht es darum, schnell die wichtigsten Grundlagen zu verstehen und in kleinen interaktiven Übungen ein Gefühl für den Umgang mit Daten zu bekommen.

Vorkenntnisse

Basis-Kenntnisse in Python werden für die interaktiven Übungen vorausgesetzt.

 

Agenda

Grundlagen

  • Begriffe & Grundlegende Konzepte
  • Rollen und Berufsfelder
  • Programmiersprache (Python vs R vs Java)
  • CRISP-DM

Bibliotheken und Frameworks

  • Anaconda
  • numpy, pandas
  • jupyter
  • scikit-learn
  • matplotlib, plotly

Explorative Datenanalyse

  • Datentypen
  • Missing Values
  • Visualisierungen
  • Correlation Plot

Datenvorverarbeitung und Feature-Engineering

  • Ausreißer-Bereinigung
  • 1-Hot-Encoding
  • Vectorizer / Scaler

Modelltraining

  • Training und Prognose
  • Train-Test-Split

Produktivierung

  • Modell-Deployment

 

Speaker

 

Nico Kreiling
Nico Kreiling ist stets neugierig und technologiebegeistert. Er arbeitet als Data Scientist bei inovex und produziert Techtiefen, einen Entwickler-Podcast, in dem IT-Themen grundlegend erklärt werden.

M3-Konferenz-Newsletter

Sie möchten über die ML Essentials
auf dem Laufenden gehalten werden? Dann abonnieren Sie den Newsletter der zugehörigen Konferenz Minds Mastering Machines (M3).

 

Anmelden