Das Team von Mostly AI © Mostly.ai
Worin die EU führend ist, wird aktuell in die USA „exportiert“ – die Schutzwürdigkeit von Personendaten. Wie lässt sich das mit Big Data in Big Apple & Co. verbinden? ...
... Ein heimisches Start-up hat die Antwort.
KI, DSGVO und der „EU AI ACT“ – das Thema Daten ist sprichwörtlich in aller Munde. Dabei dürfen Unternehmen nur die wenigsten ihrer Daten verwenden. Abhilfe schaffen synthetische Daten, die aus allen Richtlinien herausfallen.
Zwei Drittel aller Daten weltweit sind durch irgendeine Datenschutzrichtlinie geschützt, Tendenz steigend. Nach der DSGVO, die im Mai dieses Jahres ihr fünfjähriges Jubiläum beging, bastelt die EU aktuell am sogenannten EU AI Act. Er soll das weltweit erste umfassende Gesetz für den verantwortungsvollen Einsatz von künstlicher Intelligenz sein. Viele Details sind mangels endgültiger Definition noch nicht bekannt, was aber sicher ist, ist, dass die Strafen für ein Zuwiderhandeln höher ausfallen sollen als bei Verletzungen der DSGVO.
Die Vorteile synthetischer Daten
Und dennoch braucht jedes Unternehmen seine Kundendaten, um neue Produkte zu entwickeln, Trends zu identifizieren oder schlichtweg „nur“ neue Software zu testen. Kleine Unternehmen stehen weiters vor der Herausforderung, dass sie oftmals zu wenige Daten haben, um damit arbeiten zu können. Eine Antwort auf all diese Themen bieten die sogenannten synthetischen Daten. Ihr großer Vorteil: Sie unterliegen keinerlei Datenschutzrichtlinie, weil sie eben keinerlei persönliche, rückverfolgbare Informationen auf einzelne Menschen enthalten.
Synthetische Daten werden mittels künstlicher Intelligenz (KI) erzeugt. Dazu werden maschinelle Lernalgorithmen so trainiert, dass sie die statistischen Informationen und Strukturen des Originaldatensatzes bis ins kleinste Detail erlernen. Mit diesem „Wissen“ erzeugt die KI einen völlig neuen, synthetischen Datensatz. Dieser enthält keine Originaldaten mehr. Damit sind sensible persönliche Daten, die auf einen „echten“ Menschen rückführbar wären, nicht mehr identifizierbar.
Besonders häufig in Verwendung sind synthetische Daten bei Versicherungen, Banken und Telekommunikationsunternehmen, allesamt Branchenvertreter, die über teils enorm große Kundendatenmengen verfügen, diese oftmals aufgrund der Datenschutzregularien aber nicht in vollem Umfang nutzen können.
Österreicher sind weltweit führend
Mostly AI ist als österreichisches Start-up weltweit führend beim Thema synthetische Daten und zählt Konzerne wie KMUs im EU-Raum zu seinen Kunden, wie zum Beispiel die österreichische Merkur-Versicherung, die Erste Bank, die deutsche Ingef, das Institut für angewandte Gesundheitsforschung in Berlin, oder die Telefonica.
Seit sechs Jahren hat sich Mostly AI der Herstellung von synthetischen Daten verschrieben und beschäftigt mittlerweile weltweit mehr als 50 Mitarbeitende aus 25 Nationen. Das Start-up mit Sitz in Wien und New York hat für sein Geschäftsmodell bereits mehr als 31 Millionen US-Dollar Marktkapital eingesammelt und viele Kunden in Europa und den USA von den Vorteilen synthetischer Daten überzeugen können. Sie alle setzen wohl aufs richtige Pferd. Schließlich prophezeien die Marktforscher von Gartner den synthetischen Daten eine fulminante Zukunft. Bereits in zwei bis drei Jahren sollen rund 70 Prozent aller verwendeten Daten synthetisch, also künstlich erzeugt, sein.
CEO Tobias Hann baut das Geschäft von Mostly AI in den USA auf: „Wer Datenschutz in Europa kann, der kann ihn erst recht in den USA“, berichtet er. „Ja, die USA hinken in Sachen Datenschutz, sowohl was Bewusstsein als auch Umsetzung betrifft, weit hinter Europa hinterher. Aber, und das ist für Mostly AI die große Chance, Amerikaner tendieren dazu, zu Marktführern zu gehen, weil sie sich selbst als Marktführer sehen, in allen Bereichen.“
Und hier kommt die sechsjährige Expertise von Mostly AI in Europa ins Spiel: „Mehr und mehr amerikanische Bundesstaaten führen Datenschutzrichtlinien ein. Das heißt, auch hier steigt die Notwendigkeit, aus Datensätzen alle persönlichen Informationen rauszuholen, die auf einen Menschen zurückführen sind. Und das können wir mit unseren synthetischen Daten.“ Seit einem Jahr in New York City wohnhaft, hat Tobias Hann schon eine Reihe von Neukunden in den USA gewonnen.
Zusätzlich zu der On-Prem-Lösung des Unternehmens bietet Mostly AI eine kostenlose Version seiner Plattform an, auf der sich Datenexperten anmelden und mit KI-generierten synthetischen Daten experimentieren können. Sie können sich aus erster Hand von der Leistungsfähigkeit der Plattform überzeugen und sehen, wie schnell und einfach es ist, mit der Synthese von Datensätzen zu beginnen. (RNF)
INFO-BOX
EU: Synthetische Daten als „Treiber“ von KI
Erst vor Kurzem hat die EU die Bedeutung von synthetischen Daten besonders unterstrichen. Im Rahmen eines Reports der gemeinsamen Forschungsstelle der EU (JRC) über synthetische Daten wurden diese als „die“ Treiber für die Verwendung von AI innerhalb der EU identifiziert. Sie werden als wenig kostenintensives und ausgereiftes Tool identifiziert, das im Rahmen von AI und Datenschutz für Fairness, Diversity und Inklusion steht.
Wie kann das gehen? Ein Beispiel: Werden KI-Anwendungen mit Echtdaten „gefüttert“, entstehen in den KI-getriebenen Anwendungen genau jene gesellschaftlichen Ungleichheiten, wie sie im realen Leben auch vorkommen, etwa die Bevorzugung von „weißen Männern“ bei Bewerbungen oder die Benachteiligung von Frauen bei Kreditvergaben.
Synthetische Daten sind die Antwort schlechthin auf alle Fragen rund um Fairness in der KI, auch ethische KI genannt, und um den Datenschutz. Synthetische Daten erlauben es, historisch vorurteilsbehaftete Echtdaten (etwa in den genannten Bewerbungs- oder Kreditvergabeprozessen) auszugleichen. Damit bringen sie mehr Diversität in KI-Trainingsdatensätze.