Data Science – Regressionstabelle: P-Wert
Die "Statistik des Koeffiziententeils" in der Regressionstabelle
Nun wollen wir testen, ob die Koeffizienten aus der linearen Regressionsfunktion einen signifikanten Einfluss auf die abhängige Variable (Calorie_Burnage) haben.
Das bedeutet, dass wir mit statistischen Tests beweisen wollen, dass es einen Zusammenhang zwischen Average_Pulse und Calorie_Burnage gibt.
Es gibt vier Komponenten, die die Statistik der Koeffizienten erklären:
- std err steht für Standardfehler
- t ist der "t-Wert" der Koeffizienten
- P>|t| wird als "P-Wert" bezeichnet
- [0,025 0,975] stellt das Konfidenzintervall der Koeffizienten dar
In diesem Modul konzentrieren wir uns auf das Verständnis des „P-Werts“.
Der P-Wert
Der P-Wert ist eine statistische Zahl, aus der geschlossen werden kann, ob ein Zusammenhang zwischen Average_Pulse und Calorie_Burnage besteht.
Wir testen, ob der wahre Wert des Koeffizienten gleich Null ist (keine Beziehung). Der statistische Test dafür heißt Hypothesentest.
- Ein niedriger P-Wert (< 0,05) bedeutet, dass der Koeffizient wahrscheinlich nicht gleich Null ist.
- Ein hoher P-Wert (> 0,05) bedeutet, dass wir nicht schlussfolgern können, dass die erklärende Variable die abhängige Variable beeinflusst (hier: wenn Average_Pulse Calorie_Burnage beeinflusst).
- Ein hoher P-Wert wird auch als unbedeutender P-Wert bezeichnet.
Hypothesentest
Hypothesentests sind ein statistisches Verfahren, um zu testen, ob Ihre Ergebnisse gültig sind.
In unserem Beispiel testen wir, ob der wahre Koeffizient von Average_Pulse und der Schnittpunkt gleich Null ist.
Hypothesentest hat zwei Aussagen. Die Nullhypothese und die Alternativhypothese.
- Die Nullhypothese kann kurz als H0 geschrieben werden
- Die Alternativhypothese kann kurz als HA geschrieben werden
Mathematisch geschrieben:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Das Zeichen ≠ bedeutet „ungleich“
Hypothesentest und P-Wert
Die Nullhypothese kann entweder abgelehnt werden oder nicht.
Wenn wir die Nullhypothese ablehnen, schließen wir daraus, dass es eine Beziehung zwischen Average_Pulse und Calorie_Burnage gibt. Für diese Schlussfolgerung wird der P-Wert verwendet.
Ein üblicher Schwellenwert des P-Werts ist 0,05.
Hinweis: Ein P-Wert von 0,05 bedeutet, dass wir in 5 % der Fälle die Nullhypothese fälschlicherweise ablehnen. Das bedeutet, dass wir akzeptieren, dass wir in 5 % der Fälle fälschlicherweise eine Beziehung eingegangen sind.
Wenn der P-Wert niedriger als 0,05 ist, können wir die Nullhypothese ablehnen und schlussfolgern, dass es eine Beziehung zwischen den Variablen gibt.
Der P-Wert von Average_Pulse beträgt jedoch 0,824. Wir können also keine Beziehung zwischen Average_Pulse und Calorie_Burnage schließen.
Dies bedeutet, dass eine Wahrscheinlichkeit von 82,4 % besteht, dass der wahre Koeffizient von Average_Pulse Null ist.
Der Schnittpunkt wird verwendet, um die Fähigkeit der Regressionsfunktion zur genaueren Vorhersage anzupassen. Es ist daher unüblich, den P-Wert des Schnittpunkts zu interpretieren.