Einführung in die Datenwissenschaft


Data Science ist eine Kombination aus mehreren Disziplinen, die Statistiken, Datenanalyse und maschinelles Lernen verwenden, um Daten zu analysieren und daraus Wissen und Erkenntnisse zu extrahieren.


Was ist Datenwissenschaft?

Bei Data Science geht es um das Sammeln, Analysieren und Treffen von Entscheidungen.

Bei Data Science geht es darum, Muster in Daten durch Analyse zu finden und zukünftige Vorhersagen zu treffen.

Durch den Einsatz von Data Science sind Unternehmen in der Lage:

  • Bessere Entscheidungen (sollten wir A oder B wählen)
  • Vorhersageanalyse (was passiert als nächstes?)
  • Musterentdeckungen (Suchmuster oder möglicherweise versteckte Informationen in den Daten)

Wo wird Data Science benötigt?

Data Science wird heute in vielen Branchen auf der ganzen Welt eingesetzt, z. B. im Bankwesen, in der Beratung, im Gesundheitswesen und in der Fertigung.

Beispiele, wo Data Science benötigt wird:

  • Für die Routenplanung: Um die besten Schiffsrouten zu entdecken
  • Um Verspätungen für Flug/Schiff/Zug etc. vorherzusehen (durch prädiktive Analyse)
  • Um Werbeangebote zu erstellen
  • Um den am besten geeigneten Zeitpunkt für die Lieferung von Waren zu finden
  • Um den Umsatz eines Unternehmens für die nächsten Jahre zu prognostizieren
  • Analyse des gesundheitlichen Nutzens des Trainings
  • Um vorherzusagen, wer Wahlen gewinnen wird

Data Science kann in nahezu allen Bereichen eines Unternehmens angewendet werden, in denen Daten verfügbar sind. Beispiele sind:

  • Konsumgüter
  • Aktienmärkte
  • Industrie
  • Politik
  • Logistikunternehmen
  • E-Commerce

Wie arbeitet ein Data Scientist?

Ein Data Scientist benötigt Fachwissen in mehreren Bereichen:

  • Maschinelles Lernen
  • Statistiken
  • Programmierung (Python oder R)
  • Mathematik
  • Datenbanken

Ein Data Scientist muss Muster in den Daten finden. Bevor er/sie die Muster finden kann, muss er/sie die Daten in einem Standardformat organisieren.

So arbeitet ein Data Scientist:

  1. Stellen Sie die richtigen Fragen - Um das Geschäftsproblem zu verstehen.
  2. Untersuchen und sammeln Sie Daten – aus Datenbanken, Webprotokollen, Kundenfeedback usw.
  3. Extrahieren Sie die Daten – Transformieren Sie die Daten in ein standardisiertes Format.
  4. Daten bereinigen - Entfernen Sie fehlerhafte Werte aus den Daten.
  5. Fehlende Werte suchen und ersetzen - Suchen Sie nach fehlenden Werten und ersetzen Sie diese durch einen geeigneten Wert (z. B. einen Durchschnittswert).
  6. Daten normalisieren - Skalieren Sie die Werte in einem sinnvollen Bereich (z. B. 140 cm ist kleiner als 1,8 m. Die Zahl 140 ist jedoch größer als 1,8. - daher ist die Skalierung wichtig).
  7. Analysieren Sie Daten, finden Sie Muster und treffen Sie Zukunftsprognosen .
  8. Stellen Sie das Ergebnis dar – Präsentieren Sie das Ergebnis mit nützlichen Erkenntnissen so, dass das „Unternehmen“ es verstehen kann.

Wo soll man anfangen?

In diesem Tutorial stellen wir zunächst vor, was Daten sind und wie Daten analysiert werden können.

Sie lernen, wie Sie Statistiken und mathematische Funktionen verwenden, um Vorhersagen zu treffen.