Erfahren Sie, wie Sie die leistungsstärkste lineare Regression für univariate Modelle auswählen

Finden Sie heraus, welches lineare Regressionsmodell am besten zu Ihren Daten passt

Inspiriert von einer Frage nach meinem vorherigen Artikel möchte ich ein Problem angehen, das häufig nach dem Testen verschiedener linearer Modelle auftritt: Sie müssen auswählen, welches Modell Sie verwenden möchten. Insbesondere fragte Khalifa Ardi Sidqi:

„Wie bestimme ich, welches Modell am besten zu meinen Daten passt? Betrachte ich nur das R-Quadrat, SSE usw.?
Da die Interpretation dieses Modells (quadratisch, Wurzel usw.) sehr unterschiedlich sein wird, ist es kein Problem? "

Der zweite Teil der Frage kann leicht beantwortet werden. Suchen Sie zunächst ein Modell, das Ihren Daten am besten entspricht, und interpretieren Sie dann die Ergebnisse. Es ist gut, wenn Sie Ideen haben, wie Ihre Daten erklärt werden könnten. Interpretieren Sie jedoch nur das beste Modell.

Der Rest dieses Artikels befasst sich mit dem ersten Teil seiner Frage. Bitte beachten Sie, dass ich meine Vorgehensweise bei der Auswahl eines Modells erläutern werde. Es gibt mehrere Möglichkeiten, und andere tun dies möglicherweise anders. Aber ich werde beschreiben, wie es für mich am besten funktioniert.

Darüber hinaus gilt dieser Ansatz nur für univariate Modelle. Univariate Modelle haben nur eine Eingabevariable. Ich plane einen weiteren Artikel, in dem ich Ihnen zeigen werde, wie Sie multivariate Modelle mit mehr Eingabevariablen bewerten können. Konzentrieren wir uns heute jedoch auf die Grundlagen und univariaten Modelle.

Um dies zu üben und ein Gefühl dafür zu bekommen, habe ich eine kleine ShinyApp geschrieben. Verwenden Sie es und spielen Sie mit verschiedenen Datensätzen und Modellen. Beachten Sie, wie sich Parameter ändern, und werden Sie sicherer, wenn Sie einfache lineare Modelle bewerten. Schließlich können Sie die App auch als Framework für Ihre Daten verwenden. Kopiere es einfach von Github.

Klicken Sie auf das Bild für eine interaktive Version

Verwenden Sie das angepasste R2 für univariate Modelle

Wenn Sie nur eine Eingabevariable verwenden, gibt Ihnen der angepasste R2-Wert einen guten Hinweis auf die Leistung Ihres Modells. Es zeigt, wie viel Variation durch Ihr Modell erklärt wird.

Im Gegensatz zum einfachen R2 berücksichtigt das angepasste R2 die Anzahl der Eingabefaktoren. Es bestraft zu viele Eingabefaktoren und bevorzugt sparsame Modelle.

Im Screenshot oben sehen Sie zwei Modelle mit einem Wert von 71,3% und 84,32%. Anscheinend ist das zweite Modell besser als das erste. Modelle mit niedrigen Werten können dennoch nützlich sein, da der angepasste R2 empfindlich auf das Rauschen in Ihren Daten reagiert. Vergleichen Sie daher nur diesen Indikator von Modellen für denselben Datensatz, als ihn für verschiedene Datensätze zu vergleichen.

Normalerweise ist die SSE kaum erforderlich

Bevor Sie weiterlesen, sollten Sie sicherstellen, dass es sich um dieselbe SSE handelt. In Wikipedia bezieht sich SSE auf die Summe der Fehlerquadrate. In einigen Statistikbüchern kann sich SSE jedoch auf die erläuterte Quadratsumme beziehen (genau das Gegenteil). Angenommen, SSE bezieht sich vorerst auf die Summe der Fehlerquadrate.

Daher beträgt das eingestellte R2 ungefähr 1 - SSE / SST. Mit SST bezogen auf die Gesamtsumme der Quadrate.

Ich möchte nicht tiefer in die Mathematik dahinter eintauchen. Ich möchte Ihnen zeigen, dass das angepasste R2 mit der SSE berechnet wird. Daher erhalten Sie von der SSE in der Regel keine zusätzlichen Informationen.

Weiterhin wird das eingestellte R2 so normiert, dass es immer zwischen Null und Eins liegt. So ist es für Sie und andere einfacher, ein unbekanntes Modell mit einem angepassten R2 von 75% zu interpretieren, als einen SSE von 394 - auch wenn beide Zahlen möglicherweise dasselbe Modell erklären.

Schauen Sie sich die Residuen oder Fehlerbedingungen an!

Was häufig ignoriert wird, sind Fehlerausdrücke oder sogenannte Residuen. Sie erzählen dir oft mehr als du denkst.

Die Residuen sind die Differenz zwischen Ihren vorhergesagten und den tatsächlichen Werten.

Ihr Vorteil ist, dass sie Ihnen sowohl die Größe als auch die Richtung Ihrer Fehler anzeigen können. Schauen wir uns ein Beispiel an:

Wir wollen nicht, dass die Residuen so um Null variieren

Hier habe ich versucht, einen Polynomdatensatz mit einer linearen Funktion vorherzusagen. Die Analyse der Residuen zeigt, dass es Bereiche gibt, in denen das Modell eine Aufwärts- oder Abwärtsgewichtung aufweist.

Für 50

Für 100

Es ist immer gut zu wissen, ob Ihr Modell zu hohe oder zu niedrige Werte vorschlägt. Normalerweise möchten Sie jedoch keine solchen Muster haben.

Die Residuen sollten im Durchschnitt Null sein (wie durch den Mittelwert angegeben) und sie sollten gleichmäßig verteilt sein. Die Vorhersage des gleichen Datensatzes mit einer Polynomfunktion von 3 Grad ergibt eine viel bessere Anpassung:

Hier sind die Residuen gleichmäßig um Null verteilt. Schlägt eine viel bessere Passform vor

Außerdem können Sie beobachten, ob die Varianz Ihrer Fehler zunimmt. In der Statistik spricht man von Heteroskedastizität. Sie können dies leicht mit robusten Standardfehlern beheben. Andernfalls sind Ihre Hypothesentests wahrscheinlich falsch.

Histogramm der Residuen

Schließlich fasst das Histogramm die Größe Ihrer Fehlerterme zusammen. Es gibt Auskunft über die Bandbreite der Fehler und gibt an, wie oft welche Fehler aufgetreten sind.

Das rechte Histogramm zeigt eine geringere Fehlerbandbreite an als das linke. Es scheint also besser zu passen.

Die obigen Screenshots zeigen zwei Modelle für denselben Datensatz. Im linken Histogramm treten Fehler im Bereich von -338 bis 520 auf.

Im rechten Histogramm treten Fehler zwischen -293 und 401 auf. Die Ausreißer sind also viel niedriger. Darüber hinaus sind die meisten Fehler im Modell des rechten Histogramms näher bei Null. Also würde ich das richtige Modell bevorzugen.

Zusammenfassung

Bei der Auswahl eines linearen Modells sind folgende Faktoren zu berücksichtigen:

  • Vergleichen Sie nur lineare Modelle für denselben Datensatz.
  • Finden Sie ein Modell mit einem hoch eingestellten R2
  • Stellen Sie sicher, dass bei diesem Modell die Residuen gleichmäßig um Null verteilt sind
  • Stellen Sie sicher, dass die Fehler dieses Modells innerhalb einer kleinen Bandbreite liegen
Klicken Sie auf das Bild, um die App zu öffnen

Wenn Sie Fragen haben, schreiben Sie unten einen Kommentar oder kontaktieren Sie mich. Ich freue mich über Ihr Feedback.