Die Daten-Schatztruhe

NEW BUSINESS Guides - IT- & DIGITALISIERUNGS-GUIDE 2023
Nur durch eine effiziente Datenverwaltung im Unternehmen kann der Datenschatz in Umsatz- und Gewinnsteigerungen umgemünzt werden. © AdobeStock/Krakenimages.com

Daten sind eine der wichtigsten Ressourcen eines Unternehmens. Sie dienen als ­Grundlage für strategische Entscheidungen und bieten immense Potenziale ...

... Dieser ­Goldschatz wird jedoch nicht selten ­stiefmütterlich behandelt und fristet ein ­Dasein im Verborgenen.

Im Zuge der Digitalisierung sehen sich Unternehmen zunehmend mit komplexeren und umfangreicheren IT-Systemen zur Unterstützung ihrer Geschäftsprozesse konfrontiert. Daten und Informationen sind zum kritischen Faktor für den erfolgreichen Geschäfts­betrieb geworden und bilden die Basis von technologischen Trends wie Industrie 4.0. Das zunehmende Datenwachstum bietet für Unternehmen neue Potenziale zur Realisierung von Geschäftsmodellen und zum systematischen Lernen aus den Daten für schnellere sowie bessere Entscheidungs- und Anpassungsprozesse.

Hierfür dürfen Daten jedoch nicht nur gesammelt, sondern müssen zu höherwertigen Informationen aufbereitet und in Entscheidungen überführt werden. Essenziell wird dabei die Fähigkeit zur automatischen Datenanalyse, um Ursache-Wirkungs-Beziehungen aus Daten verschiedener Quellen abzuleiten und zukünftige Ereignisse zu prognostizieren.

Der gewinnbringenden Nutzung des vorhandenen Datenbestands im betrieblichen Kontext stehen in vielen Unternehmen jedoch nicht selten schwer zu überwindende Hürden im Weg. Gewachsene heterogene Systemlandschaften, die die Unternehmens­daten auf zahlreiche Software-Applikationen in verschiedenen Formaten und Strukturen und auf unterschiedliche Speicherorte verteilen, sind in der Praxis eher die Regel als die Ausnahme.

Das Management der Daten beschränkt sich hier häufig auf das Management von Problemen, die im Zusammenhang mit fehlerhaft erfassten und veralteten Informationen sowie doppelter Datenhaltung entstehen. Unternehmensentscheidungen stützen sich dann auf manuell erstellte Berichte, die Informationen aus den verschiedenen Datenquellen und Systemen zusammenfassen. Eine weitergehende und automatisierte Wertschöpfung, die die Integration und Bereinigung des Datenbestands voraussetzen würde, ist in einem solchen Szenario nicht direkt umzusetzen.

Eine datenorientierte Neuausrichtung des Unternehmens erfordert Basiswissen in der Kategorisierung, Modellierung und Integra­tion von Daten sowie Kenntnisse über verschiedene Praktiken und Werkzeuge zu deren Verwaltung und Analyse. Die Beschaffung und Akkumulation dieses Wissens im Unternehmen stellt eine Grundvoraussetzung dar, um die Datenlandschaft des eigenen Unternehmens bewerten und analysieren zu können. Darauf aufbauend können Maßnahmen zur Integration und Qualitätssteigerung des Da­ten­bestands ergriffen sowie Abläufe und Werkzeuge zur automatisierten Verwaltung der Daten im Unternehmen etabliert werden.

Ziel muss es dabei sein, aus dem so erschlossenen Datenbestand unmittelbaren Nutzen für bestehende und neue Geschäftsmodelle zu ziehen. In den folgenden Abschnitten wird skizziert, welche Aspekte eine wesentliche Rolle in einer effizienten Datenverwaltung im Unternehmen spielen.

DB-MANAGEMENTSYSTEME, DATENMODELLE UND METADATENMANAGEMENT
Der Großteil aller (strukturierten) Daten in Unternehmen findet sich heute in relationalen Datenbanken, die von entsprechenden relationalen Datenbankmanagementsystemen verwaltet werden. Herausragende Eigenschaften dieser Systeme sind:

Anwendungsunabhängigkeit der Daten. In den Anfängen der Datenspeicherung wurden Daten in einfachen Betriebssystemdateien gespeichert. Die interne Struktur dieser Dateien unterschied sich von Programm zu Programm, je nachdem, welches Format und welchen Zeichensatz sich der entsprechende Programmierer ausgedacht hatte (z. B. Byteposition 1: Nachname; Byte­position 17: Vorname; Byteposition 37: Straße usw.). Für andere Programme bzw. Programmierer, die dieses Format nicht kannten, waren die Daten nichts weiter als eine Kette von Nullen und Einsen.

Spätestens während der Apollo-Mondmissionen der 1960er-Jahre, bei denen Hunderte von Zulieferern und Zigtausende von Teilen verwaltet werden mussten, erkannte man, dass diese Form der Programmierung nicht mehr zu beherrschen war. Ergebnis dieser Entwicklung waren Datenbankmanagement­systeme, die nicht nur die eigentlichen Daten verwalteten, sondern auch die Metadaten (Daten über die Daten), die die Struktur der verwalteten Daten enthielten. Fortan konnten nun beliebig viele Programme „gegen“ eine Datenbank geschrieben werden, die die Daten aller in den Programmen benötigten Daten enthielt.

Relationales Datenmodell. Die Daten werden in Tabellenform gespeichert, wobei jede Zeile einem Datensatz (z. B. Personen mit Adresse) und jede Spalte einem Attribut (z. B. Hausnummer) entspricht. Die Datentypen der Attribute werden dabei genau definiert (z. B. Zeichen­ketten/Texte mit bestimmter Länge oder Zahlen mit einer bestimmten Anzahl von Nachkomma­stellen). Jede Tabelle erhält als Attribut oder Attributmenge einen eindeutigen Schlüssel (z. B. Personal- oder Artikelnummer), d­essen Werte jeden Datensatz eindeutig identifizieren.

Beziehungen zwischen diesen Tabellen werden dann über sogenannte Fremdschlüssel hergestellt: Zwischen einer Abteilungstabelle und einer Mitarbeitertabelle wird z. B. eine Beziehung hergestellt, indem die Mitarbeiterdatensätze jeweils als Attribut den Schlüssel der Abteilung enthalten, zu der die entsprechenden Mitarbeiter gehören. Die Struktur der Gesamtheit aller Tabellen und Beziehungen einer Datenbank (das „Datenbankschema“) kann dann sehr anschaulich über ein sogenanntes Entity-Relationship-Diagramm dargestellt werden, das die in der Datenbank gespeicherten „Entitäten“ (Abteilungen, Mitarbeiter etc.) über Abhängigkeitspfeile untereinander verbindet.

Die Anfragesprache SQL (Structured Query Language), die es Programmen bzw. Programmierern auf einheitliche Weise erlaubt, sowohl Datenbank­tabellen anzulegen (Data Definition) als auch Daten in diese zu schreiben (Data Manipula­tion). Sowohl die Tabellen(strukturen) als auch die darin enthaltenen Daten können über SQL natür­lich auch geändert oder gelöscht werden.

Das ACID-Prinzip (atomicity, consistency, isolation, durability). Das Datenbankmanagementsystem sorgt dafür, dass
• Datenbankoperationen immer komplett ausgeführt werden,
• sich die Datenbank immer in einem konsistenten Zustand befindet,
• parallele Zugriffe unabhängig voneinander erfolgen,
• Änderungen dauerhaft gespeichert bleiben.

Fragen, die sich ein Unternehmen in diesem Zusammenhang stellen muss, sind z. B.

Liegen die Daten überhaupt in einem ­relationalen Datenbanksystem? 
Auch heute finden sich noch alte Systeme, bei denen Daten in einfachen Dateien verwaltet und z. B. über die antiquierte Programmiersprache COBOL abgefragt werden. Programmierer, die aus dem Ruhestand geholt werden müssen, da sie als Einzige die Struktur der Daten kennen und auch noch COBOL beherrschen, sind hier z. B. die Folge.

Entspricht das Datenbankschema den ­aktuellen Anforderungen? 
Häufig werden Datenbanken z. B. über ein ERP- oder CRM-System verwaltet, das von einer bestimmten Datenstruktur ausgeht. Wenn sich Geschäftsprozesse in einem Unternehmen ändern, müssen die verwendeten Systeme an die neuen Abläufe angepasst werden. Bei alten ­Systemen lassen sich die benötigten Funktionen oft nicht mehr umsetzen, da diese nicht im zugrunde liegenden Datenbankschema berücksichtigt wurden. Die Mitarbeiter müssen dann ineffizient „neben“ dem System (z. B. in Office-Dokumenten) arbeiten, um die benötigten Daten festzuhalten. Hier bleibt als Ausweg in der Regel nur der Umstieg auf ein neues System.

Sind die Geschäftsregeln, die z. B. die ­Formate von bestimmten Daten (z. B. Artikelnummern) regeln (also Metadaten), dokumentiert, und werden diese auch eingehalten? 
Oft findet man z. B. Tabellen mit sehr kreativen Schlüsselattributen (Einbettung z. B. bestimmter Untergruppen, Eigenschaften etc.), die eine automatisierte Verarbeitung erschweren.

DATENLEBENSZYKLUSMANAGEMENT, DATENQUALITÄT UND DATA-GOVERNANCE
Unter Datenlebenszyklusmanagement versteht man (sehr grob) das Management von Prozessen, innerhalb derer Daten angelegt, verarbeitet oder archiviert/gelöscht werden. Fragen, die sich in diesem Zusammenhang stellen, sind z. B.: 

• Wie werden die Daten erfasst (z. B. durch eine oder mehrere Personen oder automatisiert)? Geschieht diese Erfassung effizient, das heißt werden z. B. falsch formatierte oder doppelt eingegebene Informationen automatisch abgefangen? Ist dies nicht der Fall, finden sich z. B. in Telefonfeldern uneinheitliche Formate oder gar Texte, die die automatisierte Verarbeitung (z. B. durch eine Telefonanlage) erschweren. Auch Dubletten können hier entstehen, wenn bei der Eingabe nicht geprüft wird, ob der Datensatz eventuell schon im System vorhanden ist.

• Was passiert mit den Daten während ihrer Verwendung? Werden fehlende Informationen ergänzt oder falsche Informationen korrigiert? Z. B. Adressdaten können mit der Zeit altern, wenn Adressänderungen nicht erfasst werden. Stehen für Analysen benötigte Daten überhaupt zur Verfügung?

• Was passiert mit den Daten nach ihrem Lebensende? Werden z. B. rechtliche Vorgaben eingehalten, die eine Löschung von Daten nach einem bestimmten Vorgang oder Zeitraum fordern? Geistern alte Daten weiterhin in der Datenbank herum, da sie z. B. nur mit einer „Lösch-Flag“ versehen werden, wodurch die Datenbestände stark anwachsen und unübersichtlich werden?

Werden diese Umstände im Unternehmen nicht konsequent adressiert, kann daraus eine mangelnde Datenqualität resultieren. Diese kann Geschäftsprozesse negativ beeinflussen (z. B. falsche Zustellung von Artikeln) und führt zu einem erhöhten Verarbeitungsaufwand (Mitarbeiter müssen häufig prüfen und nachfragen). Zudem können Datenanalysen, auf denen wichtige strategische Entscheidungen beruhen, fehlerhaft sein.

Um solche Missstände zu umgehen, sind Maßnahmen erforderlich, die üblicherweise unter dem Begriff Data-Governance zusammengefasst werden. Dazu gehören z. B.

• Benennung von Rollen bzw. Personen, die für die Aufrechterhaltung der Datenqualität zuständig sind,
• Etablierung fester Prozesse für die Datenpflege im Unternehmen, die die Datenqualität, den Datenschutz und die Datensicherheit adressieren,
• Anschaffung entsprechender Data-Governance-Software, die bei der Umsetzung der Maßnahmen unterstützt.

TECHNOLOGIEN FÜR DATENMANAGEMENT
Zur Unterstützung des Datenmanagements im Unternehmen kann spezifische Datenqualitätssoftware in der Bearbeitung resultierender Aufgaben gezielt unterstützen. Auf dem Markt ist eine Vielzahl von Softwareanbietern aktiv, die in ihrem Fokus und Funktionsumfang von kleinen Tools zur Bereinigung einzelner Datensätze bis hin zu umfangreichen Serverapplikationen zum ganzheitlichen Datenmanagement von Konzernen reichen.

Je nach Anforderungsbedarf wird in drei grundlegende Softwarekategorien unterschieden: Stammdaten-Management-Suite (MDM-Suite), Stammdatenintegration (DI) und Stammdaten­qualitätsmanagement (DQ). 

Dabei können die Funktionen der Kategorien Stammdatenintegration (DI) und Stammdatenqualitätsmanagement (DQ) durchaus Bestandteil einer umfangreichen Stammdaten-Management-Suite sein. Es existiert aber auch eine Vielzahl von Stand-alone-Lösungen für einzelne Aufgaben. Dazu kommt, dass unterschiedliche Funktionsumfänge den Vergleich einzelner Angebote und damit die Auswahl von Lösungen für das Stamm­datenmanagement komplex machen.

Produkte in der Kategorie Datenintegration (DI) unterstützen die konsistente und fehlerfreie Verteilung der Stammdaten in voneinander isolierten Applikationen. Dies beseitigt Redundanzen und Inkonsistenzen der Stammdaten und beinhaltet drei Funktionsbereiche: Datenimport, Datentransformation und Datenexport.

Wie bereits oben erläutert, führt eine schlechte Datenqualität erfahrungsgemäß zu schrittweise ineffizienteren und ineffektiveren Prozessen durch erforderliche Rückfragen, Uneindeutigkeiten und Missverständnisse. Zum Beispiel entstehen bei fehlerhaften Kundenstammdaten aufgrund der Rückläufer und Fehlsendungen Kosten und Image-Verlust. 

Produkte in der Kategorie Datenqualität (DQ) unterstützen die Schaffung und Sicherung einer angemessenen Qualität. Dies steigert die Verlässlichkeit und Nutzbarkeit der Stammdaten und beinhaltet drei Funktionsbereiche: Datenanalyse, Datenanreicherung und Datenbereinigung. Der Funktionsbereich Datenanalyse beinhaltet Funktionen zur Identifikation von Pro­blemen im Stammdatenbestand. Bei der Datenanreicherung versucht man eine Datenqualitätsverbesserung der eigenen Stammdaten durch Vergleich und Übernahmen externer Referenzdaten oder das Verknüpfen von beispielsweise Bildern zu erreichen. Bei der Analyse erkannte Datendefekte können durch Funktionen aus dem Bereich der Datenbereinigung gemindert oder geheilt werden. 

Produkte in der Kategorie Stammdaten­mana­ge­ment (MDM) unterstützen schließlich die Verwaltung im Rahmen des Lebenszyklus der Stammdatenobjekte und beinhalten die Funktionsbereiche Stammdatenanlage, Stammdatenpflege und Stammdatendeaktivierung. Die korrekte und strukturierte Erfassung und Anlage von Stammdaten sowie die Verteilung auf die verschiedenen Zielsysteme (z. B. unterschiedliche ERP-Systeme in Regionalgesellschaften) werden durch MDM-Suiten im Funktions­bereich Stammdatenanlage unterstützt.

Die Stammdatenpflege umfasst die Unterstützung des Anwenders bei der Veränderung von Daten inklusive der gesamten zugehörigen Geschäftslogik. So müssen alle Transaktionen, die sich auf veränderte Attribute beziehen, ebenfalls angepasst werden. Im Rahmen der Stammdaten­deaktivierung wird die sukzessive Sperrung, Löschung und Archivierung von Stammdatenobjekten gesteuert. Der Umfang reicht dabei von einer Deaktivierung einer Dublette über die Deaktivierung, weil ein Datenobjekt nicht mehr real existiert, bis hin zur sofortigen Deaktivierung aufgrund rechtlicher, finanzieller oder personengefährdender Gründe.

DATENINTEGRATION
Im betrieblichen Umfeld verteilen sich Daten in der Regel auf mehrere verschiedenen Quellen, innerhalb eines Unternehmensstandorts z. B. auf verschiedene Systeme (ERP, CRM usw.) und darunter liegende Datenbanken, fast immer aber auch auf Office-Dokumente oder auf die Köpfe der Mitarbeiter. Verschiedene Standorte können wiederum unterschiedliche Systeme einsetzen, ebenso überbetrieblich z. B. Lieferanten des Unternehmens.

Oft ist es notwendig, diese Daten zusammenzuführen, um Geschäftsprozesse zu steuern oder Datenanalysen für strategische Entscheidungen zu erstellen. Aufgrund der verschiedenen Formate der Systeme und Datenquellen ist dies eine herausfordernde Aufgabe, die jedoch gemeistert werden muss, um nicht wertvolle Informationen und Zusammenhänge zwischen diesen brachliegen zu lassen.

Manchmal ist eine solche Datenintegration nur eine singuläre Aufgabe, z. B. bei einer Datenmigration auf ein neues System, das bisher getrennte Informa­tionsquellen zusammenfasst. Oft ist jedoch eine fortwährende Integration sich verändernder Datenbestände notwendig, die sich z. B. in isolierten Applikationen bzw. Datenquellen befinden. Wie bereits im vorigen Abschnitt beschrieben, ist das Ziel hierbei die Beseitigung von Redundanzen und Inkonsistenzen in den Daten und umfasst die Funktionsbereiche Datenimport, Datentransformation und Datenexport. 

Insbesondere für komplexe Auswertungen, die strategische Entscheidungen unterstützen sollen, werden Daten aus verschiedenen Quellen häufig in einem sogenannten Data-Warehouse zusammengefasst. In regelmäßigen Abständen werden hierbei Daten aus den Produktivdatenbanken in das Data-Warehouse migriert, wo „offline“ Daten­analysen (zur Bestimmung bestimmter Kennzahlen) und Data-Mining (zum Finden „versteckter“ Zusammenhänge) betrieben werden.

EINSATZ VON KÜNSTLICHER INTELLIGENZ
Sehr häufig lassen Methoden der künstlichen Intelligenz eine Optimierung der Geschäftsprozesse und ein Ermitteln hilfreicher Zusammenhänge für Unternehmensentscheidungen zu, die auf konventionellem Weg nicht zu erreichen wären. Dahinter stecken in der Regel komplexe Algorithmen und Verfahren, die alle verfügbaren Unternehmensdaten betrachten und nach verschiedenen Kriterien in Beziehung zueinander setzen. Eine sehr große Rolle spielt hier vor dem eigentlichen Einsatz die Aufbereitung der Daten, da Fehler oder fehlende Informationen in den Ausgangsdaten zu deutlichen Abweichungen in den Ergebnissen führen können.

Eine Untersuchung, ob Methoden der künst­lichen Intelligenz (KI) für ein Unternehmen gewinnbringend eingesetzt werden können, kann in der Regel nur von speziellen KI-Experten durch­geführt werden, die die Sammlung und Aufbereitung der relevanten Daten organisieren, dann geeignete Algorithmen auf diese ansetzen und die Ergebnisse am Ende interpretieren. Werden bei einer solchen Untersuchung entsprechende Potenziale entdeckt, kann innerhalb eines gesonderten Implementierungsprojekts eine KI-Lösung im Unternehmen etabliert ­werden. (JE & AR)


DIE AUTOREN
Jost Enderle und Alex Ron sind Berater im Trovarit-Competence Center Datenmanagement.

INFO- BOX
Über Trovarit
Die Trovarit AG versteht sich als Marktanalyst und anbieterneutraler Ansprechpartner in allen Fragen rund um den Einsatz von Business-Software in Unternehmen. Als Spin-off des Forschungsinstituts für Rationalisierung (FIR) e. V. an der RWTH Aachen steht sie in einer langjährigen Tradition, die wissenschaftlich fundierte Unternehmens- und Prozessmodelle mit praxiserprobten Verfahren zur Software-Evaluation und Einsatzanalyse verknüpft.
Mit bewährten Werkzeugen, exklusiven Marktdaten und professionellen Beratungsleistungen bietet Trovarit Unternehmen Unterstützung bei der strukturierten Analyse des Softwareeinsatzes, der Optimierung des Zusammenspiels von Geschäftsprozessen und Software sowie bei der effizienten und sicheren Auswahl von Softwarelösungen.

www.trovarit.com