Data Science – Regressionstabelle: P-Wert


Die "Statistik des Koeffiziententeils" in der Regressionstabelle

Regressionstabelle – Statistiken der Koeffizienten

Nun wollen wir testen, ob die Koeffizienten aus der linearen Regressionsfunktion einen signifikanten Einfluss auf die abhängige Variable (Calorie_Burnage) haben.

Das bedeutet, dass wir mit statistischen Tests beweisen wollen, dass es einen Zusammenhang zwischen Average_Pulse und Calorie_Burnage gibt.

Es gibt vier Komponenten, die die Statistik der Koeffizienten erklären:

  • std err steht für Standardfehler
  • t ist der "t-Wert" der Koeffizienten
  • P>|t| wird als "P-Wert" bezeichnet
  •  [0,025 0,975] stellt das Konfidenzintervall der Koeffizienten dar

In diesem Modul konzentrieren wir uns auf das Verständnis des „P-Werts“.


Der P-Wert

Der P-Wert ist eine statistische Zahl, aus der geschlossen werden kann, ob ein Zusammenhang zwischen Average_Pulse und Calorie_Burnage besteht.

Wir testen, ob der wahre Wert des Koeffizienten gleich Null ist (keine Beziehung). Der statistische Test dafür heißt Hypothesentest.

  • Ein niedriger P-Wert (< 0,05) bedeutet, dass der Koeffizient wahrscheinlich nicht gleich Null ist.
  • Ein hoher P-Wert (> 0,05) bedeutet, dass wir nicht schlussfolgern können, dass die erklärende Variable die abhängige Variable beeinflusst (hier: wenn Average_Pulse Calorie_Burnage beeinflusst).
  • Ein hoher P-Wert wird auch als unbedeutender P-Wert bezeichnet.

Hypothesentest

Hypothesentests sind ein statistisches Verfahren, um zu testen, ob Ihre Ergebnisse gültig sind.

In unserem Beispiel testen wir, ob der wahre Koeffizient von Average_Pulse und der Schnittpunkt gleich Null ist.

Hypothesentest hat zwei Aussagen. Die Nullhypothese und die Alternativhypothese.

  • Die Nullhypothese kann kurz als H0 geschrieben werden
  • Die Alternativhypothese kann kurz als HA geschrieben werden

Mathematisch geschrieben:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Das Zeichen ≠ bedeutet „ungleich“


Hypothesentest und P-Wert

Die Nullhypothese kann entweder abgelehnt werden oder nicht.

Wenn wir die Nullhypothese ablehnen, schließen wir daraus, dass es eine Beziehung zwischen Average_Pulse und Calorie_Burnage gibt. Für diese Schlussfolgerung wird der P-Wert verwendet.

Ein üblicher Schwellenwert des P-Werts ist 0,05.

Hinweis: Ein P-Wert von 0,05 bedeutet, dass wir in 5 % der Fälle die Nullhypothese fälschlicherweise ablehnen. Das bedeutet, dass wir akzeptieren, dass wir in 5 % der Fälle fälschlicherweise eine Beziehung eingegangen sind.

Wenn der P-Wert niedriger als 0,05 ist, können wir die Nullhypothese ablehnen und schlussfolgern, dass es eine Beziehung zwischen den Variablen gibt.

Der P-Wert von Average_Pulse beträgt jedoch 0,824. Wir können also keine Beziehung zwischen Average_Pulse und Calorie_Burnage schließen.

Dies bedeutet, dass eine Wahrscheinlichkeit von 82,4 % besteht, dass der wahre Koeffizient von Average_Pulse Null ist.

Der Schnittpunkt wird verwendet, um die Fähigkeit der Regressionsfunktion zur genaueren Vorhersage anzupassen. Es ist daher unüblich, den P-Wert des Schnittpunkts zu interpretieren.