KI-Daten

Bis zu 80 % eines KI-Projekts dreht sich um das Sammeln von Daten :

  • Welche Daten werden benötigt ?
  • Welche Daten sind verfügbar ?
  • Wie wähle ich die Daten aus?
  • Wie werden die Daten erhoben?
  • Wie bereinige ich die Daten?
  • Wie bereitet man die Daten vor?
  • Wie werden die Daten verwendet ?

Was sind Daten?

Daten können vieles sein. Bei Künstlicher Intelligenz muss es eine Sammlung von Fakten sein:

TypBeispiele
ZahlenPreise. Termine.
MessungenGröße. Höhe. Gewicht.
WörterNamen und Orte.
BeobachtungenAutos zählen.
BeschreibungenEs ist kalt.

Intelligenz braucht Daten

Menschliche Intelligenz braucht Daten:

Ein Immobilienmakler benötigt Daten über verkaufte Häuser, um Preise zu schätzen.

Künstliche Intelligenz braucht Daten:

Auch ein Computerprogramm braucht Daten, um Preise zu schätzen.


Daten speichern

Die am häufigsten zu erfassenden Daten sind Zahlen und Maße.

Häufig werden Daten in Arrays gespeichert, die die Beziehung zwischen Werten darstellen.

Diese Tabelle enthält Hauspreise im Vergleich zur Größe:

Preis78899910111414fünfzehn
Größe5060708090100 110120130140150

Quantitativ vs. Qualitativ

Quantitative Daten sind numerisch:

  • 55 Autos
  • 15 Meter
  • 35 Kinder

Qualitative Daten sind beschreibend:

  • Es ist kalt
  • Es ist lang
  • Es hat Spaß gemacht

Volkszählung oder Probenahme

Bei einer Volkszählung sammeln wir Daten für jedes Mitglied einer Gruppe.

Bei einer Stichprobe sammeln wir Daten für einige Mitglieder einer Gruppe.

Wenn wir wissen wollten, wie viele Amerikaner Zigaretten rauchen, könnten wir jede Person in den USA befragen (eine Volkszählung) oder wir könnten 10 000 Menschen befragen (eine Stichprobe).

Eine Volkszählung ist genau , aber schwer durchzuführen. Eine Probe ist ungenau , aber einfacher zu machen.


Sampling-Bedingungen

Eine Population ist eine Gruppe von Personen (Objekten), von denen wir Informationen sammeln möchten.

Bei einer Volkszählung handelt es sich um Informationen über jedes Individuum in einer Population.

Eine Stichprobe sind Informationen über einen Teil der Bevölkerung (um alle zu repräsentieren).


Zufallsstichproben

Damit eine Stichprobe eine Grundgesamtheit repräsentiert, muss sie nach dem Zufallsprinzip erhoben werden.

Eine Zufallsstichprobe ist eine Stichprobe, bei der jedes Mitglied der Bevölkerung die gleiche Chance hat, in der Stichprobe zu erscheinen.


Sampling-Bias

Ein Sampling Bias (Error) tritt auf, wenn Proben so gesammelt werden, dass einige Personen mit geringerer (oder höherer) Wahrscheinlichkeit in die Stichprobe aufgenommen werden.