KI-Daten
Bis zu 80 % eines KI-Projekts dreht sich um das Sammeln von Daten :
- Welche Daten werden benötigt ?
- Welche Daten sind verfügbar ?
- Wie wähle ich die Daten aus?
- Wie werden die Daten erhoben?
- Wie bereinige ich die Daten?
- Wie bereitet man die Daten vor?
- Wie werden die Daten verwendet ?
Was sind Daten?
Daten können vieles sein. Bei Künstlicher Intelligenz muss es eine Sammlung von Fakten sein:
Typ | Beispiele |
---|---|
Zahlen | Preise. Termine. |
Messungen | Größe. Höhe. Gewicht. |
Wörter | Namen und Orte. |
Beobachtungen | Autos zählen. |
Beschreibungen | Es ist kalt. |
Intelligenz braucht Daten
Menschliche Intelligenz braucht Daten:
Ein Immobilienmakler benötigt Daten über verkaufte Häuser, um Preise zu schätzen.
Künstliche Intelligenz braucht Daten:
Auch ein Computerprogramm braucht Daten, um Preise zu schätzen.
Daten speichern
Die am häufigsten zu erfassenden Daten sind Zahlen und Maße.
Häufig werden Daten in Arrays gespeichert, die die Beziehung zwischen Werten darstellen.
Diese Tabelle enthält Hauspreise im Vergleich zur Größe:
Preis | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | fünfzehn |
Größe | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Quantitativ vs. Qualitativ
Quantitative Daten sind numerisch:
- 55 Autos
- 15 Meter
- 35 Kinder
Qualitative Daten sind beschreibend:
- Es ist kalt
- Es ist lang
- Es hat Spaß gemacht
Volkszählung oder Probenahme
Bei einer Volkszählung sammeln wir Daten für jedes Mitglied einer Gruppe.
Bei einer Stichprobe sammeln wir Daten für einige Mitglieder einer Gruppe.
Wenn wir wissen wollten, wie viele Amerikaner Zigaretten rauchen, könnten wir jede Person in den USA befragen (eine Volkszählung) oder wir könnten 10 000 Menschen befragen (eine Stichprobe).
Eine Volkszählung ist genau , aber schwer durchzuführen. Eine Probe ist ungenau , aber einfacher zu machen.
Sampling-Bedingungen
Eine Population ist eine Gruppe von Personen (Objekten), von denen wir Informationen sammeln möchten.
Bei einer Volkszählung handelt es sich um Informationen über jedes Individuum in einer Population.
Eine Stichprobe sind Informationen über einen Teil der Bevölkerung (um alle zu repräsentieren).
Zufallsstichproben
Damit eine Stichprobe eine Grundgesamtheit repräsentiert, muss sie nach dem Zufallsprinzip erhoben werden.
Eine Zufallsstichprobe ist eine Stichprobe, bei der jedes Mitglied der Bevölkerung die gleiche Chance hat, in der Stichprobe zu erscheinen.
Sampling-Bias
Ein Sampling Bias (Error) tritt auf, wenn Proben so gesammelt werden, dass einige Personen mit geringerer (oder höherer) Wahrscheinlichkeit in die Stichprobe aufgenommen werden.