CHE-Kommunalberatung Meerbusch

Klassifikations- und Regressionsbäume (ML Decision Trees)

Klassifikations- und Regressionsbäume (Decision Trees)

Datenanalytische Verfahren zur Klassifikation nominaler oder numerischer Variablen auf Grundlagen der mathematischen Informationstheorie (Entropie und GINI Impurity). Ein Entscheidungsbaum ist ein nichtparametrischer überwachter Lernalgorithmus, der sowohl für Klassifizierungs- (bei Nominalvariablen) als auch für Regressionsaufgaben (bei metrischen Variablen) verwendet wird. Er verfügt über eine hierarchische, baumartige Struktur, die aus einem Wurzelknoten, Zweigen, internen Knoten und Blattknoten besteht. Man kann drei grundlegende Arten von Algorithmen unterscheiden: ID3, C4.5 und CART - Algorithmen (s.u.).

• ID3: Ross Quinlan wird die Entwicklung von ID3 zugeschrieben, was eine Abkürzung für „Iterative Dichotomiser 3" ist. Dieser Algorithmus nutzt Entropie und Informationsgewinn als Metriken zur Bewertung der Aufteilung der Kandidaten. Auf einige von Quinlans Forschungsarbeiten zu diesem Algorithmus aus dem Jahr 1986 kann hier (PDF, 1,3 MB) (Link führt zu einer anderen Seite) zugegriffen werden.
• C4.5: Dieser Algorithmus gilt als spätere Iteration der ID3-Algorithmus, der ebenfalls von Quinlan entwickelt wurde. Dieser Algorithmus kann Informationsgewinn oder Gewinnverhältnisse verwenden, um Teilungspunkte innerhalb der Entscheidungsbäume zu bewerten.
• CART: Der Begriff CART ist eine Abkürzung für „Classification and Regression Trees" und wurde von Leo Breiman eingeführt. Dieser Algorithmus verwendet typischerweise die Gini-Impurity, um das ideale Attribut für die Aufteilung zu identifizieren. Die Gini-Unreinheit misst, wie oft ein zufällig ausgewähltes Attribut falsch klassifiziert wird. Bei der Bewertung mit Gini-Unreinheit ist ein niedrigerer Wert besser.

Rechnungsprüfung 4.0

Die Level-Ebenen sind frei wähl- oder kombinierbar und umfassen selbst jeweils zwei Teilmodule im Umfang von jeweils fünf Seminartagen, je nach individuellem Bedarf. Das Angebot wird überwiegend online bereitgestellt und ist mit zahlreichen Praxisbeispielen und Give-Aways (Musterdateien, Skripten) angereichert.

Es ist nicht erforderlich, das gesamte Programm in numerischer Reihenfolge zu absolvieren.

Nach jedem Einzelmodul können bereits Analyseschritte und -verfahren im Echtbetrieb erprobt werden. Ansonsten können Einzelmodule nach Bedarf über gewünschte Zeiträume gestreckt werden. Zur Vertiefung bietet CHE zahlreiche sogenannte Methodenworkshops (ganztägige Prakikerseminare) zu einzelnen Themen an, beispielsweise zum Monetary Unit Sampling oder zur Benford-Ziffernanalyse einschließlich Tool-Training (Umsetzung mit digitalen Werkzeugen von Excel bis KNIME).

Da in den für Rechnungsprüfer/-innen besonders relevanten einschlägigen Studiengängen / Ausbildungsgängen Kenntnisse zur Statistik wie auch zu umsetzungsbezogenen Excel-Kenntnissen nicht systematisch vermittelt werden, wird jeweils die Möglichkeit geschaffen, sich vor, während und/oder zwischen einzelnen Modulen derartige Kenntnisse noch anzueignen.

Für jedes Modul kann auf Basis eines Multiple-Choice-Tests ein qualifizierter Leistungsnachweis erworben werden.

Das gesamte Kursprogramm und die Beschreibung der Inhalte der einzelnen Modulbausteine finden Sie hier

QUICKLINKS

Impressum

Datenschutz

ANSCHRIFT

CHE - Kommunalberatung

Christoph Heck

Gonellastraße 62

40668 Meerbusch

KONTAKT

Tel.: 02150 794320

Fax: 02150794323

Mail: info@che-kommunalberatung.de