Data Science – Regressionstabelle: R-Quadrat


R - quadriert

R-Squared und Adjusted R-Squared beschreibt, wie gut das lineare Regressionsmodell zu den Datenpunkten passt:

Regressionstabelle – Statistiken der Koeffizienten

Der Wert von R-Squared liegt immer zwischen 0 und 1 (0 % bis 100 %).

  • Ein hoher R-Squared-Wert bedeutet, dass viele Datenpunkte nahe an der Linie der linearen Regressionsfunktion liegen.
  • Ein niedriger R-Quadrat-Wert bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.

Visuelles Beispiel eines niedrigen R-Quadratwerts (0,00)

Unser Regressionsmodell zeigt einen R-Quadrat-Wert von Null, was bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.

Dies kann visualisiert werden, wenn wir die lineare Regressionsfunktion durch die Datenpunkte von Average_Pulse und Calorie_Burnage zeichnen.

Niedriges R - quadrierter Wert (0,00)

Visuelles Beispiel eines hohen R-Quadrat-Werts (0,79)

Wenn wir jedoch Duration und Calorie_Burnage darstellen , erhöht sich R-Squared. Hier sehen wir, dass die Datenpunkte nahe an der Linie der linearen Regressionsfunktion liegen:

Niedriges R - quadrierter Wert (0,00)

Hier ist der Code in Python:

Beispiel

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Zusammenfassung – Vorhersage von Calorie_Burnage mit Average_Pulse

Wie können wir die lineare Regressionsfunktion mit Average_Pulse als erklärende Variable zusammenfassen?

  • Koeffizient von 0,3296, was bedeutet, dass Average_Pulse einen sehr geringen Einfluss auf Calorie_Burnage hat.
  • Hoher P-Wert (0,824), was bedeutet, dass wir keine Beziehung zwischen Average_Pulse und Calorie_Burnage schließen können.
  • R-Quadrat-Wert von 0, was bedeutet, dass die Linie der linearen Regressionsfunktion nicht gut zu den Daten passt.