R -Datensatz
Datensatz
Ein Datensatz ist eine Sammlung von Daten, die häufig in einer Tabelle dargestellt werden.
Es gibt einen beliebten integrierten Datensatz in R namens „ mtcars “ (Motor Trend Car Road Tests), der aus dem US-Magazin „Motor Trend“ von 1974 stammt.
In den folgenden Beispielen (und für die nächsten Kapitel) verwenden wir den mtcars
Datensatz für statistische Zwecke:
Beispiel
# Print the mtcars data set
mtcars
Ergebnis:
mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.440 18.90 1 0 4 4 Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3 Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3 Merc 450SLC 15.2 8 275.8 180 3.07 3.780 18.00 0 0 3 3 Cadillac Fleetwood 10.4 8 472.0 205 2.93 5.250 17.98 0 0 3 4 Lincoln Continental 10.4 8 460.0 215 3.00 5.424 17.82 0 0 3 4 Chrysler Imperial 14.7 8 440.0 230 3.23 5.345 17.42 0 0 3 4 Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1 Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2 Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1 Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1 Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2 AMC Javelin 15.2 8 304.0 150 3.15 3.435 17.30 0 0 3 2 Camaro Z28 13.3 8 350.0 245 3.73 3.840 15.41 0 0 3 4 Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2 Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1 Porsche 914-2 26.0 4 120.3 91 4.43 2.140 16.70 0 1 5 2 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2 Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 Maserati Bora 15.0 8 301.0 335 3.54 3.570 14.60 0 1 5 8 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
Informationen zum Datensatz
Über das Fragezeichen ( ?
) erhalten Sie Informationen zum mtcars
Datensatz:
Beispiel
# Use the question mark to get information about
the data set
?mtcars
Ergebnis:
mtcars {Datensätze} | R-Dokumentation |
Motor Trend Auto Straßentests
Beschreibung
Die Daten wurden aus dem US-Magazin Motor Trend von 1974 extrahiert und umfassen den Kraftstoffverbrauch und 10 Aspekte des Automobildesigns und der Leistung für 32 Automobile (Modelle von 1973–74).
Verwendung
mtcars
Format
Ein Datenrahmen mit 32 Beobachtungen zu 11 (numerischen) Variablen.
[, 1] | mpg | Meilen/(US) Gallone |
[, 2] | Zyl | Anzahl der Zylinder |
[, 3] | nutzen | Hubraum (cu.in.) |
[, 4] | PS | Brutto-PS |
[, 5] | drat | Hinterachsübersetzung |
[, 6] | Gew | Gewicht (1000 Pfund) |
[, 7] | qsec | 1/4 Meile Zeit |
[, 8] | vs | Motor (0 = V-förmig, 1 = gerade) |
[, 9] | bin | Getriebe (0 = automatisch, 1 = manuell) |
[,10] | Ausrüstung | Anzahl der Vorwärtsgänge |
[,11] | Kohlenhydrate | Anzahl der Vergaser |
Notiz
Henderson und Velleman (1981) kommentieren in einer Fußnote zu Tabelle 1: „Hocking [ursprünglicher Transkriptor]’s nicht entscheidende Codierung des Wankelmotors von Mazda als Sechszylinder-Reihenmotor und des Boxermotors von Porsche als V-Motor, sowie die Einbeziehung des Diesel-Mercedes 240D, wurden beibehalten, um direkte Vergleiche mit früheren Analysen zu ermöglichen.'
Quelle
Henderson und Velleman (1981), Interaktives Erstellen mehrerer Regressionsmodelle. Biometrics , 37 , 391-411.
Beispiele
require(graphics) pairs(mtcars, main = "mtcars data", gap = 1/4) coplot(mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, rows = 1) ## possibly more meaningful, e.g., for summary() or bivariate plots: mtcars2 <- within(mtcars, { vs <- factor(vs, labels = c("V", "S")) am <- factor(am, labels = c("automatic", "manual")) cyl <- ordered(cyl) gear <- ordered(gear) carb <- ordered(carb) }) summary(mtcars2)
Informationen bekommen
Verwenden Sie die dim()
Funktion, um die Dimensionen des Datensatzes zu finden, und die names()
Funktion, um die Namen der Variablen anzuzeigen:
Beispiel
Data_Cars <- mtcars # create a variable of the mtcars data set for better
organization
# Use dim() to find the dimension of the data set
dim(Data_Cars)
# Use names() to find the names of the variables from
the data set
names(Data_Cars)
Ergebnis:
[1] 32 11 [1] "mpg" "cyl" "disp" "hp" "drat" "wt" "qsec" "vs" "am" "gear" [11] "carb"
Verwenden Sie die rownames()
Funktion, um den Namen jeder Zeile in der ersten Spalte zu erhalten, die der Name jedes Autos ist:
Beispiel
Data_Cars <- mtcars
rownames(Data_Cars)
Ergebnis:
[1] "Mazda RX4" "Mazda RX4 Wag" "Datsun 710" [4] "Hornet 4 Drive" "Hornet Sportabout" "Valiant" [7] "Duster 360" "Merc 240D" "Merc 230" [10] "Merc 280" "Merc 280C" "Merc 450SE" [13] "Merc 450SL" "Merc 450SLC" "Cadillac Fleetwood" [16] "Lincoln Continental" "Chrysler Imperial" "Fiat 128" [19] "Honda Civic" "Toyota Corolla" "Toyota Corona" [22] "Dodge Challenger" "AMC Javelin" "Camaro Z28" [25] "Pontiac Firebird" "Fiat X1-9" "Porsche 914-2" [28] "Lotus Europa" "Ford Pantera L" "Ferrari Dino" [31] "Maserati Bora" "Volvo 142E"
Aus den obigen Beispielen haben wir herausgefunden, dass der Datensatz 32 Beobachtungen (Mazda RX4, Mazda RX4 Wag, Datsun 710 usw.) und 11 Variablen (mpg, cyl, disp usw.) enthält.
Eine Variable ist definiert als etwas, das gemessen oder gezählt werden kann.
Hier eine kurze Erläuterung der Variablen aus dem mtcars-Datensatz:
Variablennamen | Beschreibung |
---|---|
mpg | Meilen/(US) Gallone |
Zyl | Anzahl der Zylinder |
nutzen | Verschiebung |
PS | Brutto-PS |
drat | Hinterachsübersetzung |
Gew | Gewicht (1000 Pfund) |
qsec | 1/4 Meile Zeit |
vs | Motor (0 = V-förmig, 1 = gerade) |
bin | Getriebe (0 = automatisch, 1 = manuell) |
Ausrüstung | Anzahl der Vorwärtsgänge |
Kohlenhydrate | Anzahl der Vergaser |
Variablenwerte drucken
Wenn Sie alle Werte drucken möchten, die zu einer Variablen gehören, rufen Sie den Datenrahmen auf, indem Sie das $
Zeichen und den Namen der Variablen (z. B. cyl
(Zylinder)) verwenden:
Beispiel
Data_Cars <- mtcars
Data_Cars$cyl
Ergebnis:
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
Variablenwerte sortieren
Um die Werte zu sortieren, verwenden Sie die sort()
Funktion:
Beispiel
Data_Cars <- mtcars
sort(Data_Cars$cyl)
Ergebnis:
[1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8
Aus den obigen Beispielen sehen wir, dass die meisten Autos 4 und 8 Zylinder haben.
Analysieren der Daten
Nachdem wir nun einige Informationen über den Datensatz haben, können wir beginnen, ihn mit einigen statistischen Zahlen zu analysieren.
Beispielsweise können wir die summary()
Funktion verwenden, um eine statistische Zusammenfassung der Daten zu erhalten:
Beispiel
Data_Cars <- mtcars
summary(Data_Cars)
Machen Sie sich keine Sorgen, wenn Sie die Ausgabenummern nicht verstehen. Sie werden sie in Kürze beherrschen.
Die summary()
Funktion gibt sechs statistische Zahlen für jede Variable zurück:
- Mindest
- Erstes Quantil (Perzentil)
- Median
- Bedeuten
- Drittes Quantil (Perzentil)
- max
Wir werden sie alle zusammen mit anderen statistischen Zahlen in den nächsten Kapiteln behandeln.