Big Data – beim Thema Daten rät SEEBURGER zur Besonnenheit

Täglich werden massenhaft Daten generiert. Unternehmen suchen verstärkt nach Lösungen, um diese sinnvoll zu nutzen und mittels Big-Data-Initiativen Wettbewerbsvorteile zu definieren und neue Geschäftsmodelle zu identifizieren. Grundvoraussetzung hierfür ist auf der einen Seite die technologische Infrastruktur für eine Big-Data-Analyse verbunden mit der Fähigkeit, die gesammelten Daten ausreichend zu schützen. Auf der anderen Seite erfordert dies eine wohlüberlegte Managementstrategie, um Big Data in ein profitables Geschäftsmodell umwandeln zu können sowie Fachexperten, die wissen, wie man die gewünschten Daten technisch verfügbar und nutzbar machen kann.

Im Rahmen unserer SEEOcta-Reihe befasst sich dieser Beitrag mit Aggregierung und Nutzung von Big Data. In weiteren Blogs der Perspektive „Daten“ geht es um den medienbruchfreien Datenaustausch, die Bedeutung von Data Governance sowie OCR-Erkennung.

Die SEEOcta-Blog-Serie beleuchtet die acht wichtigsten Perspektiven für ein erfolgreiches Projektmanagement. Sie erhalten einen Überblick über alle Bereiche, die bei der Planung von Digitalisierungs- und Integrationsvorhaben in Unternehmen zum Tragen kommen. Diese Impulse bilden eine Grundlage und einen Leitfaden für Ihre Projektplanung und helfen Ihnen sicherzustellen, dass Sie alle Aspekte bei der Einführung eines IT-Projektes berücksichtigen.

Was ist Big Data?

Big Data ist ein Überbegriff für die Methoden und Technologien, anhand derer Daten aller Art erfasst, gespeichert und analysiert werden können. Dabei können diese Daten aus unterschiedlichsten Quellen stammen:

Interne Datenquellen	Externe Datenquellen
Kundendaten	Soziale Medien
ERP-Module	Offizielle Statistiken
Daten von technischen Netzwerken	Wettervorhersage
Interne Dokumente	Öffentliche zugängliche Datensätze
Sensoren	Geodaten
Inhouse Callcenter	Verkehrsdaten
Daten von Sendern, wie beispielsweise RFID-Tags
Audiodaten aus Callcentern
Bilddaten aus der Videoüberwachung
Website-Logs

Abbildung 1: Exemplarische Auflistung möglicher Quellen für Big Data

Diese und viele weitere Quellen sollen bis 2025 schätzungsweise 163 Zettabyte an Daten weltweit generiert haben^[1]. Überraschend dabei ist, dass laut Oxford Mathematics Center über die Hälfte dieser Daten zwar erfasst und gespeichert, jedoch überhaupt nicht genutzt werden. Man bezeichnet diese Daten auch als Dark Data.

Abbildung 2: Die Verteilung von Big Data und Dark Data in Unternehmen (Quelle: Marktmonitor, newplayersnetwork.jetzt)

Sinnvolle Big Data-Nutzung muss gut vorbereitet werden

Um die Sinnhaftigkeit der Daten, also ihre Qualität und der Nutzen und die Vertrauenswürdigkeit der daraus abgeleiteten Ergebnisse einordnen zu können, müssen die Daten zunächst einmal bereinigt werden. Primär hängen der Wert großer Datenmengen und die daraus abgeleiteten Visionen von drei wesentlichen Faktoren ab:

Datenquelle
Vollständigkeit der Daten
Datenreinheit

In der Studie „Preparing Clean Views of Data for Data Mining“ ^[2] der London Guildhall University in Zusammenarbeit mit dem Rutherford Appleton Laboratory wird postuliert, dass der Prozess der Datenaufbereitung zwischen 60 % und 80 % der Zeit eines datengesteuerten Projekts in Anspruch nehmen kann. Das kommt daher, dass Daten in ganz unterschiedlichen Formen vorliegen:

Strukturiert (SQL, Tabellen)
Semistrukturiert (E-Mail, XML, JSON)
Unstrukturiert (Textdateien, Bilddateien, Videodateien)

Für die Speicherung, Sammlung und Auswertung von Daten bedarf es also zunächst der rein physischen Infrastruktur, die in der Lage ist, die Daten zu aggregieren, egal in welcher Form sie vorliegen, als auch einer Auswertungsmethodik, die anschließend die Daten nutzbar macht.

Wo wird Big Data eingesetzt?

Daten können auf unsagbar vielseitige Weise genutzt werden, und das Potenzial ist nicht annähernd ausgeschöpft, wie Abbildung 2 verdeutlicht. Vor allem die sinnvolle Kombination von Daten aus Quellen, die scheinbar überhaupt nichts miteinander zu tun haben, kann hilfreiche Planungsgrundlagen liefern. So kann mit Big Data beispielsweise aus der Kombination von Wettervorhersagen und historischen Verkaufsdaten der Absatz von Sonnencreme oder Glühwein im Supermarkt vorhersagt werden. Auf Basis von Web-Suchanfragen ist es möglich, die Verbreitung von Krankheiten zu überwachen. Über kontinuierlich gemeldete Maschinendaten kann beispielsweise der Reparaturbedarf von technischen Geräten prognostiziert werden.

In unserem Beitrag Big Data, IoT und die SEEBURGER AG zeigen wir am Beispiel von Verkehrsdaten auf, wie diese mithilfe der SEEBURGER Business Integration Suite (BIS) in einen Data Lake fließen, um von dort, für die Nutzbarmachung für Big Data Tools, in entsprechende Formate konvertiert und an weitere Systeme übertragen zu werden. So können sie für die Erstellung aller Arten von Streaming Dashboards eingesetzt werden, um die Echtzeitbewegung auf den Straßen nicht nur genau wiederzugeben, sondern im nächsten Schritt, durch den Einsatz von (englisch: Machine Learning ) und (Künstliche Intelligenz, englisch: AI, Artificial Intelligence) sogar sehr zuverlässige Prognosen für die Verkehrsentwicklung zu bestimmten Uhrzeiten zu erstellen.

In der Praxis gibt es viele weiter Beispiele für den Einsatz von Big Data:

Abbildung 3: Big Data Anwendungsbeispiele (Quelle: https://www.fostec.com/de/kompetenzen/market-intelligence/big-data/)

Immer mehr Unternehmen versuchen, das Datengold mittels Big Data zu schürfen. Bei der Untersuchung großer Datenmengen anhand verschiedener statistischer Analyseverfahren ist es möglich, versteckte systematische Muster, Korrelationen und Zusammenhänge erkennen und so aus Big Data entscheidungsrelevante Informationen für Optimierungspotentiale oder strategische Entscheidungen abzuleiten.

Der Nutzen von Big-Data-Inivitativen

Die BARC Studie 2015 „Getting real on Data Monetization“^[3] zeigt, dass bereits 2015 viele Unternehmen mit Big Data beachtliche Vorteile durch die Analyse und Einbeziehung großer Mengen unterschiedlich strukturierter Daten erzielen konnten. Danach bieten ihnen diese Informationen eine Grundlage für strategische Entscheidungen (59 Prozent), sie ermöglichen eine effektivere Steuerung operativer Prozesse (51 Prozent), helfen, die eigenen Kunden besser zu verstehen (32 Prozent) und allgemein die Kosten zu senken (28 Prozent).

Abbildung 4: Worin sehen Sie die wichtigsten Vorteile einer Nutzung von Big Data Technologien? (Quelle: https://www.channelpartner.de/g/big-data-vorteile-und-probleme,104048,2)

Bemerkenswert ist, dass praktisch alle Fachbereiche eines Unternehmens ein signifikantes Potenzial für Big Data Uses Cases sehen. In Abbildung 5 ist ersichtlich, dass auch im Bereich Controlling/Finance mehr als zwei Drittel der befragten Unternehmen den Einsatz von Big Data zumindest langfristig planen oder schon entsprechende Anwendungen betreiben. Neben Kostenanalyse und -optimierung sind vor allem Verbesserungen in der Planung, bei der Budgetierung und beim Forecasting von vorrangigem Interesse.

Abbildung 5: In welchen Bereichen nehmen Sie in Ihrem Unternehmen Big-Data-Analysen vor bzw. planen Sie Big-Data-Analysen vorzunehmen? Quelle: BARC Studie Big Data Use Cases 2015 – Getting real on data monetization, (n=423), S. 17

Kundenanalyse häufigster Projekttreiber für Big Data

Einer der häufigsten Projektreiber ist, wie die BARC-Studie zeigt, die Analyse des Kundenverhaltens, um den Kunden zielgerichteter und individueller anzusprechen. Mit Big Data sollen neue Kunden gewonnen werden und die Ursachen für Abwanderungstendenzen bestehender Kunden frühzeitig erkannt und bekämpft werden. Somit zählen Marketing und Vertrieb zu den Vorreitern bei Big-Data Projekten.

Für eine umfassende Kundenanalyse werden in der Praxis u.a. folgende Daten herangezogen^[4]:

Demografische Daten über Geschlecht, Alter, Familienstatus, Anzahl der Kinder etc.
Transaktionsdaten über Kaufverhalten und Inanspruchnahme von Dienstleistungen
Daten über Online-Verhalten, die zeigen, was sich der Kunde angesehen, auf die Wunschliste gesetzt, in den Warenkorb gelegt, gelöscht und tatsächlich gekauft hat
Daten aus den von Kunden geschriebenen Texten Bewertungen des Händlers, Kunden, Service
Angaben zur Nutzung eines Produkts oder Dienstleistung wie Kundenrezensionen zur Qualität und Funktionalität der bestellten Ware bzw. Services, der Liefergeschwindigkeit, Verpackungsqualität, Aufbauanleitung usw.

Von Kundenanalysen anhand der Auswertungen von Big Data profitieren beide Seiten – Händler wie Kunden. Der Händler kann sein Produkt und Leistungsportfolio gemäß den Kundenwünschen anpassen, um diese passgenau zu erfüllen. Der Kunde erfreut sich über eine zielgenaue personalisierte Ansprache durch den Händler sowie höhere Produkt- und Servicequalität.

Herausforderung bei der Nutzung von Big Data

Diese riesige Datenmenge für Big Data bringen jedoch viele Herausforderungen in der Praxis mit sich. Die wichtigsten Herausforderungen hierbei sind folgende:

Welche Daten?
Um diese Frage beantworten zu können, sollte man zunächst genau definieren, welche Erkenntnisse man sich von der Auswertung der Daten erhofft. Also, welche Antworten sucht man eigentlich? Wie bereits beschrieben, existiert eine schier unendliche Menge unternehmensinterner sowie -externer Daten, und es werden stetig mehr. Die Unmenge an ungefilterten und unstrukturierten Daten, die täglich über unterschiedlichste Eingangskanäle in ein Unternehmen gelangen, macht die Entscheidung welche Daten herangezogen werden sollen, zu einer strategischen Herkulesaufgabe. Ganz entscheidend ist also, zunächst so konkret und eindeutig wie möglich zu definieren, welche Antworten die Daten liefern sollen, um dann entscheiden zu können, welche Daten hierfür von Nutzen sein können. Dabei kann die Kombination von Daten aus scheinbar völlig zusammenhangslosen Kontexten wertvolle Planungsergebnisse liefern.
Datenqualität
Die Menge an strukturierten und vor allem unstrukturierten Daten nimmt rapide zu. Die Datenqualität ist daher ein Thema, das zunehmend wichtiger wird. Damit die aus der Auswertung von Big Data abgeleiteten Ergebnisse valide und für das Unternehmen wertstiftend sind, muss die Qualität der zugrundeliegenden Daten sichergestellt werden. Die kann, wie bereits oben erwähnt, 60 % bis 80 % der Projektzeit in Anspruch nehmen. Doch die Berücksichtigung der Zeit für eine sorgfältige Bereinigung der verwendeten Daten lohnt sich. Was hat man schließlich von fehlerhaften Erkenntnissen, die zu falschen Entscheidungen führen und am Ende eher schaden? Die aus Big Data resultierenden Entscheidungen können ganz nach dem Prinzip „Garbage in – Garbage out“ also nur so gut sein, wie es die Daten sind, auf die sie sich stützen. Dabei funktioniert der Ansatz, Datenfehler durch höhere Datenmengen herauszurechnen nur, wenn die Fehlerursache zu einem „zufälligen Rauschen“ in den Daten führt, wobei die hierzu benötigte Datenmenge im Allgemeinen exponentiell ansteigt. In der Praxis haben wir es jedoch nur selten mit zufälligen Datenfehlern, sondern meist mit systematischen Fehlern zu tun, bei denen auch große Datenmengen nicht helfen. Insofern sind der Mehrwert und der resultierende Wettbewerbsvorteil einer fundierten und adäquaten Messung, Steuerung und Verbesserung der Datenqualität sehr hoch (vgl. SEEBURGER Blog SEEOcta –Daten – Datenqualität).
Datensilos
Daten werden in Unternehmen an verschiedenen Orten, oft als in sich geschlossene Systeme gespeichert. Man spricht in der Praxis von sogenannten Datensilos. Die Gründe für die Entstehung ungewollter Silos können technischer oder organisatorischer Art sein. Zu Datensilos kommt es typischerweise als Folge fehlender oder unzureichender Prozess- und Datenarchitekturen innerhalb eines Unternehmens. Datensilos entstehen beispielsweise dann, wenn einzelne Abteilungen ihre Daten nicht auf Basis einer übergreifenden Daten-Governance, sondern nach eigenen Regeln und in unterschiedlichen IT-Systemen ablegen. So werden in Unterhemen häufig Kundendaten aus dem Vertrieb, dem Service oder der Buchhaltung auf mehrere Orte verteilt, ohne eine Verknüpfung zwischen diesen Orten zu pflegen. Damit Analysen durchgeführt werden können und diese Daten einheitlich nutzen, müssen in Folge Datensätze von einem Silo in ein anderes kopiert werden. Dies ist ist in jeder Hinsicht ineffizient. Für den Echtzeitzugriff auf alle Daten sollten moderne Anwendungen frei zwischen lokalen, privaten oder öffentlichen Clouds wechseln können.

Big Data, Datensicherheit und Datenschutz

Je mehr Daten für Big-Data-Initiativen herangezogen werden, desto höher die Gefahr von Sicherheits- und Datenschutzverletzungen. Generell sollten bei der Nutzung von Big Data folgende Aspekte berücksichtigt werden:

gefälschte Daten
Big Data ist zunächst eine Ansammlung von Daten aus einer Vielzahl interner und externer Quellen. Die Qualität und Herkunft der Daten spielt zunächst keine Rolle. Es können also ungültige, gefälschte oder falsche Daten vorliegen, die Analysen und die daraus abgeleiteten Ergebnisse verfälschen können.
Datensicherheit und Datenschutz
Die gesammelten Daten bedürfen ein hohes Maß an Datenschutzmaßnahmen, die die Sicherheit der Daten – insbesondere der Kundendaten – sicherstellt. Verschlüsselung, Zugriffskontrolle und Firewalls sind hier nur einige Beispiele, um Probleme wie Datenlecks, Malware und Data Harvesting zu verhindern.

Datenschutzgesetz
Bei Big Data Projekten ist insbesondere die Gewährleistung der Einhaltung des Datenschutzgesetzes für alle Datenquellen zu berücksichtigen.

Fazit

Daten sind Vermögenswerte, aus denen Unternehmen Geschäftserfolge schöpfen können. Es geht längst nicht mehr nur um die Speicherung von Daten, sondern viel mehr um das, was mit Daten erreicht werden kann. Unternehmen nutzen Big Data vermehrt als relevante Zukunftstechnologie für die Schaffung von Wettbewerbsvorteilen. Die rasant wachsende Datenflut und deren Bewältigung ist eine der Schlüsselherausforderungen neuer digitaler Lösungen. Der Einsatz von Big Data ist für viele Unternehmen der dringend nötige Impuls, sich einen ganzheitlichen und zugleich detaillierten Überblick über ihre Daten zu verschaffen. Big Data wird unternehmerische Entscheidungen zukünftig maßgeblich beeinflussen und lenken.

Dieser Beitrag ist Teil der SEEOcta-Reihe. In der Blog-Kategorie „SEEOcta“ finden Sie alle gesammelten Beiträge dieser Serie rund um die Einführung eines neuen IT-Projektes.

^[1] Marktmonitor New Players Network

^[2] https://www.ercim.eu/publication/ws-proceedings/12th-EDRG/EDRG12_JeDiRe.pdf

^[3] BARC: Big Data Use Cases (sas.com)

^[4] In Anlehnung an https://www.scnsoft.de/blog/was-ist-big-data

Vielen Dank für Ihre Nachricht

Wir freuen uns über Ihr Interesse an SEEBURGER

Haben Sie Fragen oder Anmerkungen?

Wir freuen uns hier über Ihre Nachricht.