R -Datensatz


Datensatz

Ein Datensatz ist eine Sammlung von Daten, die häufig in einer Tabelle dargestellt werden.

Es gibt einen beliebten integrierten Datensatz in R namens „ mtcars “ (Motor Trend Car Road Tests), der aus dem US-Magazin „Motor Trend“ von 1974 stammt.

In den folgenden Beispielen (und für die nächsten Kapitel) verwenden wir den mtcars Datensatz für statistische Zwecke:

Beispiel

# Print the mtcars data set
mtcars

Ergebnis:

                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
Mazda RX4           21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag       21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
Datsun 710          22.8   4 108.0  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive      21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
Valiant             18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1
Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
Merc 240D           24.4   4 146.7  62 3.69 3.190 20.00  1  0    4    2
Merc 230            22.8   4 140.8  95 3.92 3.150 22.90  1  0    4    2
Merc 280            19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4
Merc 280C           17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4
Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
Fiat 128            32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1
Honda Civic         30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2
Toyota Corolla      33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1
Toyota Corona       21.5   4 120.1  97 3.70 2.465 20.01  1  0    3    1
Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
Fiat X1-9           27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1
Porsche 914-2       26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2
Lotus Europa        30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
Ferrari Dino        19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8
Volvo 142E          21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2

Informationen zum Datensatz

Über das Fragezeichen ( ?) erhalten Sie Informationen zum mtcarsDatensatz:

Beispiel

# Use the question mark to get information about the data set

?mtcars

Ergebnis:

mtcars {Datensätze}R-Dokumentation

Motor Trend Auto Straßentests

Beschreibung

Die Daten wurden aus dem US-Magazin Motor Trend von 1974 extrahiert und umfassen den Kraftstoffverbrauch und 10 Aspekte des Automobildesigns und der Leistung für 32 Automobile (Modelle von 1973–74).

Verwendung

mtcars

Format

Ein Datenrahmen mit 32 Beobachtungen zu 11 (numerischen) Variablen.

[, 1]mpg Meilen/(US) Gallone
[, 2]Zyl Anzahl der Zylinder
[, 3]nutzenHubraum (cu.in.)
[, 4]PS Brutto-PS
[, 5]dratHinterachsübersetzung
[, 6]Gew Gewicht (1000 Pfund)
[, 7]qsec1/4 Meile Zeit
[, 8]vs Motor (0 = V-förmig, 1 = gerade)
[, 9]bin Getriebe (0 = automatisch, 1 = manuell)
[,10]AusrüstungAnzahl der Vorwärtsgänge
[,11]KohlenhydrateAnzahl der Vergaser

Notiz

Henderson und Velleman (1981) kommentieren in einer Fußnote zu Tabelle 1: „Hocking [ursprünglicher Transkriptor]’s nicht entscheidende Codierung des Wankelmotors von Mazda als Sechszylinder-Reihenmotor und des Boxermotors von Porsche als V-Motor, sowie die Einbeziehung des Diesel-Mercedes 240D, wurden beibehalten, um direkte Vergleiche mit früheren Analysen zu ermöglichen.'

Quelle

Henderson und Velleman (1981), Interaktives Erstellen mehrerer Regressionsmodelle. Biometrics , 37 , 391-411.

Beispiele

require(graphics)
pairs(mtcars, main = "mtcars data", gap = 1/4)
coplot(mpg ~ disp | as.factor(cyl), data = mtcars,
       panel = panel.smooth, rows = 1)
## possibly more meaningful, e.g., for summary() or bivariate plots:
mtcars2 <- within(mtcars, {
   vs <- factor(vs, labels = c("V", "S"))
   am <- factor(am, labels = c("automatic", "manual"))
   cyl  <- ordered(cyl)
   gear <- ordered(gear)
   carb <- ordered(carb)
})
summary(mtcars2)

Informationen bekommen

Verwenden Sie die dim()Funktion, um die Dimensionen des Datensatzes zu finden, und die names()Funktion, um die Namen der Variablen anzuzeigen:

Beispiel

Data_Cars <- mtcars # create a variable of the mtcars data set for better organization

# Use dim() to find the dimension of the data set
dim(Data_Cars)

# Use names() to find the names of the variables from the data set
names(Data_Cars)

Ergebnis:

[1] 32 11
 [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
[11] "carb"

Verwenden Sie die rownames()Funktion, um den Namen jeder Zeile in der ersten Spalte zu erhalten, die der Name jedes Autos ist:

Beispiel

Data_Cars <- mtcars

rownames(Data_Cars)

Ergebnis:

 [1] "Mazda RX4"           "Mazda RX4 Wag"       "Datsun 710"         
 [4] "Hornet 4 Drive"      "Hornet Sportabout"   "Valiant"            
 [7] "Duster 360"          "Merc 240D"           "Merc 230"           
[10] "Merc 280"            "Merc 280C"           "Merc 450SE"         
[13] "Merc 450SL"          "Merc 450SLC"         "Cadillac Fleetwood" 
[16] "Lincoln Continental" "Chrysler Imperial"   "Fiat 128"           
[19] "Honda Civic"         "Toyota Corolla"      "Toyota Corona"      
[22] "Dodge Challenger"    "AMC Javelin"         "Camaro Z28"         
[25] "Pontiac Firebird"    "Fiat X1-9"           "Porsche 914-2"      
[28] "Lotus Europa"        "Ford Pantera L"      "Ferrari Dino"       
[31] "Maserati Bora"       "Volvo 142E"         

Aus den obigen Beispielen haben wir herausgefunden, dass der Datensatz 32 Beobachtungen (Mazda RX4, Mazda RX4 Wag, Datsun 710 usw.) und 11 Variablen (mpg, cyl, disp usw.) enthält.

Eine Variable ist definiert als etwas, das gemessen oder gezählt werden kann.

Hier eine kurze Erläuterung der Variablen aus dem mtcars-Datensatz:

Variablennamen Beschreibung
mpg Meilen/(US) Gallone
Zyl Anzahl der Zylinder
nutzen Verschiebung
PS Brutto-PS
drat Hinterachsübersetzung
Gew Gewicht (1000 Pfund)
qsec 1/4 Meile Zeit
vs Motor (0 = V-förmig, 1 = gerade)
bin Getriebe (0 = automatisch, 1 = manuell)
Ausrüstung Anzahl der Vorwärtsgänge
Kohlenhydrate Anzahl der Vergaser

Variablenwerte drucken

Wenn Sie alle Werte drucken möchten, die zu einer Variablen gehören, rufen Sie den Datenrahmen auf, indem Sie das $Zeichen und den Namen der Variablen (z. B. cyl(Zylinder)) verwenden:

Beispiel

Data_Cars <- mtcars

Data_Cars$cyl

Ergebnis:

 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

Variablenwerte sortieren

Um die Werte zu sortieren, verwenden Sie die sort()Funktion:

Beispiel

Data_Cars <- mtcars

sort(Data_Cars$cyl)

Ergebnis:

 [1] 4 4 4 4 4 4 4 4 4 4 4 6 6 6 6 6 6 6 8 8 8 8 8 8 8 8 8 8 8 8 8 8

Aus den obigen Beispielen sehen wir, dass die meisten Autos 4 und 8 Zylinder haben.


Analysieren der Daten

Nachdem wir nun einige Informationen über den Datensatz haben, können wir beginnen, ihn mit einigen statistischen Zahlen zu analysieren.

Beispielsweise können wir die summary()Funktion verwenden, um eine statistische Zusammenfassung der Daten zu erhalten:

Beispiel

Data_Cars <- mtcars

summary(Data_Cars)

Machen Sie sich keine Sorgen, wenn Sie die Ausgabenummern nicht verstehen. Sie werden sie in Kürze beherrschen.

Die summary()Funktion gibt sechs statistische Zahlen für jede Variable zurück:

  • Mindest
  • Erstes Quantil (Perzentil)
  • Median
  • Bedeuten
  • Drittes Quantil (Perzentil)
  • max

Wir werden sie alle zusammen mit anderen statistischen Zahlen in den nächsten Kapiteln behandeln.