Random & Isolation Forest Modelle (iTrees)
Ein
Random Forest
(deutsch: Zufallswald) ist ein Klassifikations- und Regressionsverfahren, das aus mehreren unkorrelierten Entscheidungsbäumen besteht. Alle Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung während des Lernprozesses gewachsen. Für eine Klassifikation darf jeder Baum in diesem Wald eine Entscheidung treffen und die Klasse mit den meisten Stimmen entscheidet die endgültige Klassifikation. Random Forests können auch zur Regression eingesetzt werden. Der Begriff Random Forest wurde von Leo Breiman im Jahr 2001[1] geprägt. Er erforschte verschiedene Methoden der Randomisierung von Entscheidungsbäumen, beispielsweise mittels Bagging oder Boosting. Seiner Arbeit ging die Forschung von Tin Kam Ho[2] im Jahr 1995 voraus. Zufallswälder sind eine Methode im Bereich des Ensemble learnings. Random Forest ist ein überwachter Algorithmus für maschinelles Lernen, der häufig bei Klassifizierungs- und Regressionsproblemen verwendet wird. Es baut Entscheidungsbäume auf verschiedenen Stichproben auf und nutzt deren Mehrheitsvotum für die Klassifizierung und den Durchschnitt im Falle einer Regression.
Die Prämisse des
Isolation Forest-Algorithmus besteht dann darin, dass in binären Bäumen (Anomalie ja/nein) anomale Datenpunkte leichter vom Rest der Stichprobe getrennt werden können. Um einen Datenpunkt zu isolieren, generiert der "iTree-"Algorithmus rekursiv Partitionen auf der Stichprobe, indem er zufällig ein Attribut auswählt und dann zufällig einen Aufteilungswert zwischen den für dieses Attribut zulässigen Mindest- und Höchstwerten auswählt. Isolation Forest ist ein Algorithmus zur Erkennung von Datenanomalien, der ursprünglich 2008 von Fei Tony Liu und Zhi-Hua Zhou entwickelt wurde. Der Algorithmus hat eine lineare Zeitkomplexität und einen geringen Speicherbedarf, was bei großen Datenmengen gut funktioniert. Im Wesentlichen führt der Algorithmus eine schnelle ungefähre Dichteschätzung ("Density Estimation") durch und betrachtet Punkte mit einer niedrigen Dichteschätzung als Anomalien. Isolation Forest teilt den Datenraum mithilfe von Linien auf, die parallel zur Standardbasis verlaufen, und weist Datenpunkten, die weniger Aufteilungen benötigen (=kürzere leaf nodes), um isoliert zu werden, höhere Anomaliewerte zu.
Rechnungsprüfung 4.0
Die Level-Ebenen sind frei wähl- oder kombinierbar und umfassen selbst jeweils zwei Teilmodule im Umfang von jeweils fünf Seminartagen, je nach individuellem Bedarf. Das Angebot wird überwiegend online bereitgestellt und ist mit zahlreichen Praxisbeispielen und Give-Aways (Musterdateien, Skripten) angereichert.
Es ist nicht erforderlich, das gesamte Programm in numerischer Reihenfolge zu absolvieren.
Nach jedem Einzelmodul können bereits Analyseschritte und -verfahren im Echtbetrieb erprobt werden. Ansonsten können Einzelmodule nach Bedarf über gewünschte Zeiträume gestreckt werden. Zur Vertiefung bietet CHE zahlreiche sogenannte Methodenworkshops (ganztägige Prakikerseminare) zu einzelnen Themen an, beispielsweise zum Monetary Unit Sampling oder zur Benford-Ziffernanalyse einschließlich Tool-Training (Umsetzung mit digitalen Werkzeugen von Excel bis KNIME).
Da in den für Rechnungsprüfer/-innen besonders relevanten einschlägigen Studiengängen / Ausbildungsgängen Kenntnisse zur Statistik wie auch zu umsetzungsbezogenen Excel-Kenntnissen nicht systematisch vermittelt werden, wird jeweils die Möglichkeit geschaffen, sich vor, während und/oder zwischen einzelnen Modulen derartige Kenntnisse noch anzueignen.
Für jedes Modul kann auf Basis eines Multiple-Choice-Tests ein qualifizierter Leistungsnachweis erworben werden.
Das gesamte Kursprogramm und die Beschreibung der Inhalte der einzelnen Modulbausteine finden Sie hier
QUICKLINKS
ANSCHRIFT
CHE - Kommunalberatung
Christoph Heck
Gonellastraße 62
40668 Meerbusch
KONTAKT
Tel.: 02150 794320
Fax: 02150794323
Mail: info@che-kommunalberatung.de