Random & Isolation Forest Modelle (iTrees)

Random & Isolation Forest Modelle (iTrees)


Ein Random Forest (deutsch: Zufallswald) ist ein Klassifikations- und Regressionsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht. Alle Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung während des Lernprozesses gewachsen. Für eine Klassifikation darf jeder Baum in diesem Wald eine Entscheidung treffen und die Klasse mit den meisten Stimmen entscheidet die endgültige Klassifikation. Random Forests können auch zur Regression eingesetzt werden. Der Begriff Random Forest wurde von Leo Breiman im Jahr 2001[1] geprägt. Er erforschte verschiedene Methoden der Randomisierung von Entscheidungsbäumen, beispielsweise mittels Bagging oder Boosting. Seiner Arbeit ging die Forschung von Tin Kam Ho[2] im Jahr 1995 voraus. Zufallswälder sind eine Methode im Bereich des Ensemble learnings. Random Forest ist ein überwachter Algorithmus für maschinelles Lernen, der häufig bei Klassifizierungs- und Regressionsproblemen verwendet wird. Es baut Entscheidungsbäume auf verschiedenen Stichproben auf und nutzt deren Mehrheitsvotum für die Klassifizierung und den Durchschnitt im Falle einer Regression.

Die Prämisse des
Isolation Forest-Algorithmus besteht dann darin, dass in binären Bäumen (Anomalie ja/nein) anomale Datenpunkte leichter vom Rest der Stichprobe getrennt werden können. Um einen Datenpunkt zu isolieren, generiert der "iTree-"Algorithmus rekursiv Partitionen auf der Stichprobe, indem er zufällig ein Attribut auswählt und dann zufällig einen Aufteilungswert zwischen den für dieses Attribut zulässigen Mindest- und Höchstwerten auswählt. Isolation Forest ist ein Algorithmus zur Erkennung von Datenanomalien, der ursprünglich 2008 von Fei Tony Liu und Zhi-Hua Zhou entwickelt wurde. Der Algorithmus hat eine lineare Zeitkomplexität und einen geringen Speicherbedarf, was bei großen Datenmengen gut funktioniert. Im Wesentlichen führt der Algorithmus eine schnelle ungefähre Dichteschätzung ("Density Estimation") durch und betrachtet Punkte mit einer niedrigen Dichteschätzung als Anomalien. Isolation Forest teilt den Datenraum mithilfe von Linien auf, die parallel zur Standardbasis verlaufen, und weist Datenpunkten, die weniger Aufteilungen benötigen (=kürzere leaf nodes), um isoliert zu werden, höhere Anomaliewerte zu.

Share by: