Datenquellen für Datenanalysen

Was sind die drei besten Datenquellen für die Finanzanalyse?


Der erste Schritt zur Gewährleistung hoher Datenqualität besteht darin, Daten aus den richtigen Quellen zu sammeln. Um die Genauigkeit der Finanzdaten sicherzustellen, ist es deshalb wichtig, die richtigen Quellen für die Datenerfassung zu kennen. Welche sind das?


Die drei Hauptdatenquellen für die Finanzanalyse sind

- Buchhaltungsdaten,

- Statistiken und

- "aTT" (analytische Tools und Techniken).



Die erste und wichtigste Quelle für Finanzdatenanalysen sind die Buchhaltungsdaten (Journaldaten). Sie werden üblicherweise in folgende Hauptgruppen unterteilt:


1. Zahlungsverkehrsdaten ("Cash Flow"):

Der Cashflow (Liquidität) ist der wichtigste Bestandteil der Finanzdatenanalyse, da nur er es einer Organisation ermöglicht, ihren finanziellen Verpflichtungen nachzukommen und gleichzeitig für die Zukunft vorzusorgen (Investitionen). In einer Finanzrechnung werden alle Geldzuflüsse und -abflüsse aufgeführt, die in der Organisation während eines bestimmten Zeitraums stattfinden. Hierfür werden alle Ein- und Auszahlungen in drei Hauptbereiche unterteilt: Mittelzu- oder Abfluss aus dem operativen Geschäft (1), Investitionen (2) und deren Finanzierung (3).


2. Haushaltsdaten in Plan und IST: In der kommunalen Haushaltswirtschaft werden der Ressourcenbedarf (Aufwand) und das Ressourcenaufkommen (Erträge) geplant und der tatsächliche Verbrauch nach einer gesetzlich vorgeschriebenen Gliederung - sowohl von der Versursachungsseite (Produkte) als auch von der Verbrauchsartenseite (Personalaufwand, Abschreibungen usw.) erfasst (Ist). Als Daumenregel können 50 Produkte (~gruppen) und 20 Arten verwendet werden, was zusammen (50 x 20 =) 1.000 originäre Datenpunkte für weitere Analysen ergibt.


3. Vermögensbestandsdaten (Bilanzdaten): In einer Bilanz werden die technischen Ressourcen einer Organisation (Umlaufvermögen und Anlagevermögen) und ihre Finanzquelle (Eigenkapital und Verbindlichkeiten) zu einem bestimmten Zeitpunkt geordnet ausgewiesen und deswegen die jährlichen Änderungen von Periode zu Periode (i.d.R. Haushaltsjahr) als Vermögensbestandsrechnung erfasst.


Die zweite wichtige Quelle für Finanzdatenanalysen sind einschlägige Statistiken. Meistens können Finanzdaten - insbesondere in der zeitlichen Entwicklung - nur zutreffend beurteilt werden, wenn sie an bestimmten statistischen Merkmalen gemessen werden, z.B. Einnahmen und Ausgaben "pro Kopf" (Bevölkerungsstatistik), Unterbringungskosten "pro Fall" (Produktstatistiken) usw. Hier können drei statistische Hauptquellen unterschieden werden:


1. Amtliche Statistiken: eine wesentliche Quelle für vertiefende Analysen sind die zahlreichen Veröffentlichungen der statistischen Landesämter (z.B. it.nrw) und des Bundes (destatis), gelegentlich auch EU-Statistiken aus Brüssel (EUROSTAT). Hierzu zählen aber auch die Fachstatistiken großer Behörden wie beipielsweise die Arbeitsagentur Nürnberg u.Ä.


2. Fachstatistiken: zu nahezu jedem kommunalen Aufgabenbereich gibt es wissenschaftliche oder institutionelle Fachstatistiken aus Berufsverbänden, Interessenvertretungen (Gewerkschaften usw.) oder Universitäten. Sie erfordern zumeist beträchtliches Fachwissen, manche sind aber auch als Presseveröffentlichung für den allgemeinen Informationsmarkt erstellt worden und entsprechend allgemein verständlich.


3. Ortsstatistiken: schließlich sind die örtlichen eigenen Statistiken zu erwähnen - vielleicht die wichtigste Informationsquelle. Hierbei handelt es sich um die aus der eigenen Aufgabenerledigung örtlich resultierenden Statistiken, die i.d.R. nach Aufgabenbereichen oder Einzelfragen aus der operativen Organisationstätigkeit entstehen und nur wenig gesetzlich geregelt sind. Diese Ebene der Statistik obliegt dem Ermessen der jeweiligen Handelnden und ist teilweise auch subjektiv geprägt - je nach Erkenntnisinteresse und individuellen Möglichkeiten. Sie ist sicherlich die genaueste Datenumgebung, aber dementsprechend auch heterogen und fehleranfällig.



Die dritte wichtige Quelle für Finanzdatenanalysen sind die analytischen Tools und Techniken (aTT). Hierbei handelt es sich um die in Schrifttum und Praxis entwickelten, allgemein anerkannten methodischen Konzepte (überwiegend aus mathematisch-statistischen Ursprüngen, in neuerer Zeit als Data Mining, Deep Learning oder KI bezeichnet) und deren computergestütze Umsetzung (Programme, Programmiersprachen, Tools).


Die verschiedenen Perspektiven und Herausforderungen in dieser Hinsicht werden meistens als Data Sciences bezeichnet und zusammenfasst, wobei die Data Science neben den datenanalytischen Verfahren auch Computerwissenschaften und das technische Datenmanagement (Datenhaltung, Datensicherheit usw.) umfasst. Auch hier können wiederum drei Hauptbereiche unterschieden werden.


1. Deskriptive Analysen: Ausgangsbasis und Grundlage jeder Datenanalyse ist eine gründliche deskriptive Aufbereitung des Datenmaterials. Hierzu gehören - neben der sorgfätigen Auswahl, Transformation und Bereitstellung von Daten im sogenannten ETL-Prozess - v.a. die Populationsanalyse und elementare Visualisierung. Dabei geht es zunächst um Verteilungen, Ausreißer, Dimensionalsierung, Labelling u.Ä. allgemeine Grundlagen. Ergebnisse sind hier zunächst die zentralen Lagemaße und erste Erkenntnisse über die Datenvolumina und deren Verteilung bzw. Muster. Das ist wichtig für die Auswahl vertiefender Analyseinstrumente, die meistens von den Datenparamentern (bzw. Mustern) abhängen.


2. Statistische Verfahren: hier handelt es sich um die klassischen statistischen Verfahren der sogenannten "schließenden" Statistik. Die in der deskriptiven Analyse festgestellten Parameter werden unter Zuhilfenahme der Wahrscheinlichkeits- bzw. Testtheorie näher untersucht. Es werden Schätzungen und Testverfahren durchgeführt, um verschiedene Hypothesen zum Datenbestand zu bestätigen oder zu widerlegen. Hierfür werden in der Regel Stichproben gebildet, die möglichst repräsentativ für die Populationen sein sollen. Deshalb drehen sich zentrale Fragen um die Themenkreise Stichprobengröße, Auswahlverfahren und statistische Auswertungen. Ergebnisse sind Erkenntnisse über bestimmte Eigenschaften des Datenbestands wie beispielsweise die Ordnungsmäßigkeit von Forderungsbuchungen oder die Zuverlässigkeit von internen Kontrollen zur Qualitätssicherung.


3. Data Mining Verfahren: die stetig steigende Verfügbarkeit von großen Datenmengen, deren exponentiell zunehmendes Wachstum und die ebenfalls ständig zunehmende Rechengeschwindigkeit von Computern erfordern entsprechende Konzepte und Verfahren, um die riesigen Datenmengen noch analysieren zu können (Schlagwort "big data"). Man unterscheidet zunächst danach, ob die Daten bereits geordnet sind oder nicht in "überwachtes" und "unüberwachtes" Data Mining. Ersteres sind Daten, die in üblichen Tabellen abgebildet werden könnten (wenn auch im n-dimensionalen Raum). Letzteres sind Daten, die noch nicht eineutig geordnet sind, d.h. bildlich gesprochen, dass den entsprechenden Datenspalten noch die "Überschrift" fehlt (das sogenannte "Label"). Des weiteren werden Verfahren zur Bildung von Datengruppen ("Cluster, Clustering") und Verfahrenstypen zur Zuordnung einzelner Datenpunkte zu einer vorhandenen Gruppe (Klassifikation) unterschieden. Demnach ergeben sich - grob gesprochen - vier Verfahrenstypen: (1) unüberwachtes Clustering, (2) unüberwachte Klassifikationsverfahren, (3) überwachtes Clustering und (4) überwachte Klassifikationen. An der Spitze der anspruchsvollen Verfahren stehen die Massendatenverfahren des unüberwachten Bereiches wie etwa die Bilderkennung und die selbstlernenden Verfahren (Machine Learning bzw. Deep learning). Letztere werden im Bereich der Finanzdatenanalysen z.B. für die Musteranalyse in komplexen Buchungsumgebungen von sehr großen Organisationen eingesetzt, mit deren Hilfe Anomalieen und Betrugsversuche aufgedeckt werden sollen.

Share by: