15 beliebte Machine Learning-Metriken für Data Scientists

Maschinelles Lernen ist eines der am meisten erforschten Themen der letzten zwei Jahrzehnte. Die menschlichen Bedürfnisse haben kein Ende. Aber ihre Produktions- und Arbeitsfähigkeit ist begrenzt. Deshalb bewegt sich die Welt in Richtung Automatisierung. Maschinelles Lernen spielt eine große Rolle in dieser industriellen Revolution. Entwickler bauen jeden Tag robustere ML-Modelle und -Algorithmen. Aber Sie können Ihr Modell nicht einfach in die Produktion werfen, ohne es zu bewerten. Hier kommen die Machine Learning-Metriken ins Spiel. Datenwissenschaftler verwenden diese Metriken, um zu messen, wie gut ein Modell vorhersagt. Du musst eine gute Vorstellung davon haben. Um Ihre ML-Reise bequem zu gestalten, listen wir die beliebtesten Machine Learning-Metriken auf, die Sie lernen können, um ein besserer Datenwissenschaftler zu werden.

Beliebteste Machine Learning-Metriken

Wir gehen davon aus, dass Sie sich mit den Machine Learning-Algorithmen gut auskennen. Wenn nicht, können Sie unseren Artikel über ML-Algorithmen lesen algorithm. Lassen Sie uns nun die 15 beliebtesten Machine Learning-Metriken durchgehen, die Sie als Datenwissenschaftler kennen sollten.

01. Verwirrung Matrix

Data Scientists verwenden die Konfusionsmatrix, um die Leistung eines Klassifizierungsmodells zu bewerten. Es ist eigentlich ein Tisch. Die Zeilen stellen den tatsächlichen Wert dar, während die Spalten den vorhergesagten Wert ausdrücken. Da der Bewertungsprozess für Klassifikationsprobleme verwendet wird, kann die Matrix so groß wie möglich sein. Nehmen wir das Beispiel, um es besser zu verstehen.

Angenommen, es gibt insgesamt 100 Bilder von Katzen und Hunden. Das Modell sagte voraus, dass 60 von ihnen Katzen und 40 von ihnen keine Katzen waren. In Wirklichkeit waren jedoch 55 davon Katzen und die restlichen 45 Hunde. Unter der Annahme, dass Katzen positiv und Hunde negativ sind, können wir einige wichtige Begriffe definieren.

Das Modell hat 50 Katzenbilder richtig vorhergesagt. Diese werden als True Positives (TP) bezeichnet.
10 Hunde wurden als Katzen vorhergesagt. Dies sind False Positives (FP).
Die Matrix sagte richtig voraus, dass 35 von ihnen keine Katzen waren. Diese werden als True Negative (TN) bezeichnet.
Die anderen 5 werden als False Negatives (FN) bezeichnet, da sie Katzen waren. Aber das Modell sagte sie als Hunde voraus.

02. Klassifizierungsgenauigkeit

Dies ist der einfachste Prozess, um ein Modell zu bewerten. Wir können es als die Gesamtzahl der richtigen Vorhersagen dividiert durch die Gesamtzahl der Eingabewerte definieren define. Im Fall der Klassifikationsmatrix kann man es als das Verhältnis der Summe von TP und TN zur Gesamtzahl der Eingaben sagen.

Daher beträgt die Genauigkeit im obigen Beispiel (50+35/100), d. h.e., 85%. Aber der Prozess ist nicht immer effektiv. Es kann oft falsche Informationen geben. Die Metrik ist am effektivsten, wenn die Stichproben in jeder Kategorie nahezu gleich sind.

03. Präzision und Rückruf

Genauigkeit funktioniert nicht immer gut. Bei ungleicher Stichprobenverteilung kann es zu falschen Informationen kommen. Wir brauchen also mehr Metriken, um unser Modell richtig zu bewerten. Hier kommen Präzision und Erinnerung ins Spiel. Präzision ist das wahre Positive an der Gesamtzahl der Positiven. Wir können wissen, wie sehr unser Modell auf die tatsächlichen Daten reagiert actual.

Die Genauigkeit des obigen Beispiels war 50/60, d.h.e., 83.33 %. Das Modell ist gut in der Vorhersage von Katzen. Auf der anderen Seite ist Recall das Verhältnis von richtig positiv zur Summe von richtig positiv und falsch negativ. Recall zeigt uns im folgenden Beispiel, wie oft das Modell eine Katze vorhersagt.

Der Rückruf im obigen Beispiel ist 50/55, d.h.e., 90%. In 90% der Fälle ist das Modell tatsächlich richtig.

04. F1-Ergebnis

Perfektion kennt kein Ende. Erinnerung und Präzision können kombiniert werden, um eine bessere Bewertung zu erhalten. Das ist der F1-Score. Die Metrik ist im Grunde das harmonische Mittel aus Präzision und Wiedererkennungswert. Mathematisch lässt es sich schreiben als:

Aus dem Katze-Hund-Beispiel ist der F1-Score 2*.9*.8/(.9+.8), ich.e., 86%. Dies ist weitaus genauer als die Klassifizierungsgenauigkeit und eine der beliebtesten Machine Learning-Metriken. Es gibt jedoch eine verallgemeinerte Version dieser Gleichung.

Mit der Beta können Sie entweder der Erinnerung oder der Präzision mehr Bedeutung beimessen. bei binärer Klassifikation beta=1.

05. ROC-Kurve

Die ROC-Kurve oder einfach die Kennlinie des Empfänger-Operators zeigt uns, wie unser Modell für verschiedene Schwellenwerte funktioniert works. Bei Klassifikationsproblemen sagt das Modell einige Wahrscheinlichkeiten voraus. Dann wird eine Schwelle gesetzt. Jeder Ausgang, der größer als der Schwellenwert ist, ist 1 und kleiner als 0. Beispielsweise, .2, .4,.6, .8 sind vier Ausgänge. Für Schwelle .5 ist der Ausgang 0, 0, 1, 1 und für den Schwellenwert .3 ist es 0, 1, 1, 1.

Unterschiedliche Schwellenwerte führen zu unterschiedlichen Rückrufen und Genauigkeiten. Dies wird schließlich die True Positive Rate (TPR) und die False Positive Rate (FPR) ändern. Die ROC-Kurve ist der Graph, der gezeichnet wird, indem TPR auf der y-Achse und FPR auf der x-Achse genommen werden. Genauigkeit gibt uns Informationen über einen einzelnen Schwellenwert. Aber ROC gibt uns viele Schwellenwerte zur Auswahl. Deshalb ist ROC besser als Genauigkeit.

06. AUC

Area Under Curve (AUC) ist eine weitere beliebte Kennzahl für Machine Learning. Entwickler verwenden den Evaluierungsprozess, um binäre Klassifizierungsprobleme zu lösen. Sie kennen die ROC-Kurve bereits. AUC ist die Fläche unter der ROC-Kurve für verschiedene Schwellenwerte. Es gibt Ihnen eine Vorstellung von der Wahrscheinlichkeit, dass das Modell die positive Probe der negativen Probe vorzieht.

AUC reicht von 0 bis 1. Da FPR und TPR für verschiedene Schwellenwerte unterschiedliche Werte haben, unterscheidet sich AUC auch für mehrere Schwellenwerte. Mit der Erhöhung des AUC-Wertes steigt die Leistung des Modells.

07. Protokollverlust

Wenn Sie Machine Learning beherrschen, müssen Sie den Protokollverlust kennen. Es ist eine sehr wichtige und sehr beliebte Kennzahl für maschinelles Lernen. Menschen verwenden den Prozess, um Modelle mit probabilistischen Ergebnissen zu bewerten. Der Logverlust steigt, wenn der prognostizierte Wert des Modells stark vom tatsächlichen Wert abweicht. Ist die tatsächliche Wahrscheinlichkeit .9 und die vorhergesagte Wahrscheinlichkeit ist .012, das Modell wird einen großen Log-Verlust haben. Die Gleichung für den Berechnungsprotokollverlust lautet wie folgt:

Wo,

p(yi) ist die Wahrscheinlichkeit positiver Stichproben.
1-p(yi) ist die Wahrscheinlichkeit negativer Stichproben.
yi ist 1 bzw. 0 für positive bzw. negative Klasse.

Aus der Grafik sehen wir, dass der Verlust mit zunehmender Wahrscheinlichkeit abnimmt. Sie steigt jedoch mit geringerer Wahrscheinlichkeit. Ideale Modelle haben 0 Logverlust.

08. Mittlerer absoluter Fehler

Bisher haben wir die beliebten Machine Learning-Metriken für Klassifizierungsprobleme besprochen. Jetzt werden wir die Regressionsmetriken diskutieren. Mean Absolute Error (MAE) ist eine der Regressionsmetriken. Zunächst wird die Differenz zwischen dem realen Wert und dem prognostizierten Wert berechnet. Dann ergibt der Durchschnitt der absoluten Werte dieser Differenzen den MAE. Die Gleichung für MAE ist unten angegeben:

Wo,

n ist die Gesamtzahl der Eingänge
yj ist der tatsächliche Wert
yhat-j ist der vorhergesagte Wert

Je geringer der Fehler, desto besser ist das Modell. Aufgrund der absoluten Werte kann man jedoch die Fehlerrichtung nicht erkennen.

09. Mittlere quadratische Fehler

Mean Squared Error oder MSE ist eine weitere beliebte ML-Metrik. Die Mehrheit der Data Scientists verwendet es bei Regressionsproblemen. Wie bei MAE müssen Sie die Differenz zwischen realen Werten und vorhergesagten Werten berechnen. Aber in diesem Fall werden die Differenzen quadriert und der Durchschnitt genommen. Die Gleichung ist unten angegeben:

Die Symbole bedeuten dasselbe wie MAE. MSE ist in einigen Fällen besser als MAE. MAE kann keine Richtung zeigen. Es gibt kein solches Problem in MSE. So können Sie den Gradienten damit ganz einfach berechnen. MSE spielt eine große Rolle bei der Berechnung des Gradientenabstiegs.

10. Root Mean Squared Error

Dies ist vielleicht die beliebteste Machine Learning-Metrik für Regressionsprobleme. Root Mean Squared Error (RMSE) ist im Grunde die Quadratwurzel von MSE. Es ist MAE fast ähnlich, mit Ausnahme der Quadratwurzel, die den Fehler genauer macht. Die Gleichung lautet:

Um es mit MAE zu vergleichen, nehmen wir ein Beispiel. Angenommen, es gibt 5 tatsächliche Werte 11, 22, 33, 44, 55. Und die entsprechenden vorhergesagten Werte sind 10, 20, 30, 40, 50. Ihr MAE ist 3. Auf der anderen Seite ist RMSE 3.32, das ist detaillierter. Deshalb ist RMSE vorzuziehen.

11. R-Quadrat

Sie können den Fehler aus RMSE und MAE berechnen. Allerdings ist der Vergleich zwischen den beiden Modellen mit ihnen nicht gerade bequem. Bei Klassifizierungsproblemen vergleichen Entwickler zwei Modelle mit Genauigkeit with. Einen solchen Benchmark braucht man bei Regressionsproblemen. R-squared hilft Ihnen, Regressionsmodelle zu vergleichen. Seine Gleichung lautet wie folgt:

Wo,

Modell MSE ist das oben erwähnte MSE.
Baseline-MSE ist der Durchschnitt des Quadrats der Differenzen zwischen Mittelwertvorhersage und Realwert.

Der Bereich des R-Quadrats reicht von negativ unendlich bis 1. Der höhere Wert der Bewertung bedeutet, dass das Modell gut passt.

12. Angepasstes R-Quadrat

R-Squared hat einen Nachteil. Es funktioniert nicht gut, wenn dem Modell neue Funktionen hinzugefügt werden. In diesem Fall erhöht sich der Wert manchmal und manchmal bleibt er gleich. Das bedeutet, dass es R-Squared egal ist, ob die neue Funktion etwas hat, um das Modell zu verbessern. Dieser Nachteil wurde jedoch in angepasstem R-Squared entfernt. Die Formel lautet: Wo,

P ist die Anzahl der Funktionen.
N ist die Anzahl der Eingänge/Samples.

In R-Squared Adjusted erhöht sich der Wert nur, wenn das neue Feature das Modell verbessert. Und wie wir wissen, bedeutet der höhere Wert von R-Squared, dass das Modell besser ist.

13. Bewertungsmetriken für unbeaufsichtigtes Lernen

Den Clustering-Algorithmus verwenden Sie in der Regel für unüberwachtes Lernen. Es ist nicht wie Klassifikation oder Regression. Das Modell hat keine Etiketten. Die Stichproben werden nach ihren Ähnlichkeiten und Unähnlichkeiten gruppiert. Um diese Clustering-Probleme zu bewerten, benötigen wir eine andere Art von Bewertungsmetrik. Der Silhouette-Koeffizient ist eine beliebte Machine Learning-Metrik für Clustering-Probleme. Es funktioniert mit folgender Gleichung:

Wo,

'a' ist der durchschnittliche Abstand zwischen einer beliebigen Probe und anderen Punkten im Cluster.
'b' ist der durchschnittliche Abstand zwischen einer beliebigen Stichprobe und anderen Punkten im nächsten Cluster.

Der Silhouette-Koeffizient einer Gruppe von Stichproben wird als Durchschnitt ihrer einzelnen Koeffizienten genommen. Es reicht von -1 bis +1. +1 bedeutet, dass der Cluster alle Punkte mit den gleichen Attributen hat. Je höher die Punktzahl, desto höher ist die Clusterdichte.

14. MRR

Wie Klassifizierung, Regression und Clustering ist auch das Ranking ein Problem des maschinellen Lernens. Das Ranking listet eine Gruppe von Stichproben auf und ordnet sie basierend auf bestimmten Merkmalen. Sie sehen dies regelmäßig in Google, in E-Mails, auf YouTube usw. Viele Datenwissenschaftler halten den Mean Reciprocal Rank (MRR) als ihre erste Wahl zur Lösung von Rankingproblemen. Die Grundgleichung lautet:

Wo,

Q ist ein Satz von Stichproben.

Die Gleichung zeigt uns, wie gut das Modell die Stichproben einordnet. Es hat jedoch einen Nachteil. Es berücksichtigt jeweils nur ein Attribut, um Elemente aufzulisten.

fünfzehn. Bestimmtheitsmaß (R²)

Machine Learning hat eine riesige Menge an Statistiken in sich. Viele Modelle benötigen speziell statistische Metriken zur Auswertung. Der Determinationskoeffizient ist eine statistische Metrik. Sie gibt an, wie sich die unabhängige Variable auf die abhängige Variable auswirkt. Die relevanten Gleichungen sind:

fi ist der vorhergesagte Wert.
ybar ist das Mittel.
STot ist die Gesamtsumme der Quadrate.
SSres ist die Restsumme der Quadrate.

Das Modell funktioniert am besten, wenn =1. Wenn das Modell den Mittelwert der Daten vorhersagt, ist 0.

Abschließende Gedanken

Nur ein Dummkopf wird sein Modell in Produktion bringen, ohne es zu bewerten. Wenn Sie Data Scientist werden möchten, müssen Sie sich mit ML-Metriken auskennen. In diesem Artikel haben wir die fünfzehn beliebtesten Machine Learning-Metriken aufgelistet, die Sie als Datenwissenschaftler kennen sollten. Wir hoffen, dass Sie sich jetzt über verschiedene Metriken und deren Bedeutung im Klaren sind. Sie können diese Metriken mit Python und R anwenden.

Wenn Sie den Artikel aufmerksam studieren, sollten Sie motiviert sein, die Verwendung genauer ML-Metriken zu erlernen. Wir haben unseren Job gemacht. Jetzt bist du an der Reihe, Data Scientist zu werden. Irren ist menschlich. In diesem Artikel können einige fehlen this. Wenn Sie welche finden, können Sie uns dies mitteilen. Daten sind die neue Weltwährung. Also, nutze es und verdiene dir deinen Platz in der Welt.