Data Science – Regressionstabelle: R-Quadrat
R - quadriert
R-Squared und Adjusted R-Squared beschreibt, wie gut das lineare Regressionsmodell zu den Datenpunkten passt:
Der Wert von R-Squared liegt immer zwischen 0 und 1 (0 % bis 100 %).
- Ein hoher R-Squared-Wert bedeutet, dass viele Datenpunkte nahe an der Linie der linearen Regressionsfunktion liegen.
- Ein niedriger R-Quadrat-Wert bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.
Visuelles Beispiel eines niedrigen R-Quadratwerts (0,00)
Unser Regressionsmodell zeigt einen R-Quadrat-Wert von Null, was bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.
Dies kann visualisiert werden, wenn wir die lineare Regressionsfunktion durch die Datenpunkte von Average_Pulse und Calorie_Burnage zeichnen.
Visuelles Beispiel eines hohen R-Quadrat-Werts (0,79)
Wenn wir jedoch Duration und Calorie_Burnage darstellen , erhöht sich R-Squared. Hier sehen wir, dass die Datenpunkte nahe an der Linie der linearen Regressionsfunktion liegen:
Hier ist der Code in Python:
Beispiel
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Zusammenfassung – Vorhersage von Calorie_Burnage mit Average_Pulse
Wie können wir die lineare Regressionsfunktion mit Average_Pulse als erklärende Variable zusammenfassen?
- Koeffizient von 0,3296, was bedeutet, dass Average_Pulse einen sehr geringen Einfluss auf Calorie_Burnage hat.
- Hoher P-Wert (0,824), was bedeutet, dass wir keine Beziehung zwischen Average_Pulse und Calorie_Burnage schließen können.
- R-Quadrat-Wert von 0, was bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.