Mit dem Aufkommen von KI-Anwendungen geht auch die Bestrebung einher, die Entwicklung eines eigenen KI-Modells anzustoßen. Das hierfür erforderliche Training ist mit der Verarbeitung einer großen Menge an Daten verbunden. Indem regelmäßig nicht auszuschließen ist, dass sich hierunter personenbezogene Daten befinden, sind die Anforderungen der DSGVO im Rahmen eines Trainings von KI-Modellen zu berücksichtigen.
KI Training = Verarbeitungstätigkeit
Die Entwicklung eines KI-Modells erfordert das Training des Modells mit großen Datenmengen. Bereits aufgrund des Volumens der für das Training benötigten Daten, kann dabei regelmäßig nicht ausgeschlossen werden, dass sich unter den Trainingsdaten auch personenbezogene Daten befinden.
Soweit es sich hierbei um Daten von Personen handelt, die sich in der Europäischen Union befinden, sind daher die Regelungen der DSGVO im Rahmen des Trainings von KI-Modellen zu berücksichtigen. Indem das Training als Verarbeitung nach Art. 4 Nr. 2 DSGVO einzustufen ist, bedarf es einer Rechtsgrundlage nach Art. 6 DSGVO.
Anonymisierung von Trainingsdaten als Lösung?
Die Vorschriften der DSGVO finden auf anonymisierte Daten keine Anwendung. Diese weisen keinen Personenbezug mehr auf, und können daher verarbeitet werden, ohne dass hierbei die Einschränkungen der DSGVO zu beachten sind.
Eine Anonymisierung von Daten (z.B. von Bestandsdaten im Vorfeld des Trainings) könnte datenschutzrechtliche Bedenken folglich ausräumen.
In der Umsetzung scheitert eine Anonymisierung jedoch häufig an praktischen Erwägungen. Einerseits geht sie mit einem erheblichen technischen Aufwand einher, der von einem Großteil der verantwortlichen Unternehmen nicht geleistet werden kann.
Andererseits folgt aus der Anonymisierung von Trainingsdaten ein signifikanter Qualitätsverlust, durch den sich mittelbar eine Einbuße der Genauigkeit des KI-Modells ergibt. Darüber hinaus ist es, abhängig vom Anwendungsszenario eines KI-Modells nicht immer möglich, ausschließlich auf anonyme Daten zurückzugreifen.[1]
Beispielhaft kann hier die Entwicklung einer Gesichtserkennungssoftware angeführt werden, die gerade an „echten“ Gesichtern trainiert werden soll, um dann als KI-Modell gerade für diesen Anwendungsfall brauchbar zu sein.
Die Anonymisierung und die Herstellung sog. synthetischer Daten ist daher häufig keine Lösung, um Datenschutzanforderungen zu umschiffen.
Folglich werden sich Verantwortliche bei der Entwicklung von KI-Modellen regelmäßig mit den Anforderungen der DSGVO auseinanderzusetzen haben.
Voraussetzungen für Zweckänderung
Um eine ausreichende und qualitative Datenmenge verwenden zu können, wird für das Training von KI-Modellen oftmals auf Bestandsdaten des Unternehmens, wie Kundendaten, zurückgegriffen.
Diese wurden regelmäßig nicht für die Entwicklung einer KI, sondern für die jeweiligen Geschäftszwecke des Unternehmens (z.B. Lieferung von Waren oder Erbringung von Dienstleistungen) erhoben.
Wenn nun diese Daten für einen anderen Zweck – nämlich der Entwicklung einer KI – genutzt werden sollen, gilt es, die Vorgaben der Zweckänderung nach Art. 6 Abs. 4 zu beachten. Zunächst müssen Verantwortliche die Betroffenen über die dann erfolgende Weiterverarbeitung informieren, Art. 13 Abs. 3, Art. 14 Abs. 4 DSGVO.
Darüber hinaus müssen die für eine Zweckänderung in Art. 6 Abs. 4 DSGVO genannten fünf Kriterien berücksichtigt werden. Eine Prüfung dessen erfolgt im Rahmen eines sog. „Kompatibilitätstests“[2], es sei denn dieser ist bereits entbehrlich (dazu sogleich):
Entbehrlichkeit eines Kompatibilitätstests
In bestimmten Konstellationen kann die Durchführung eines Kompatibilitätstestes nach Art. 6 Abs. 4 DSGVO entbehrlich sein.
Nach Art. 5 Abs.1 lit.b DSGVO ist das für eine „Weiterverarbeitung für im öffentlichen Interesse liegende Archivzwecke, für wissenschaftliche oder historische Forschungszwecke oder für statistische Zwecke“ der Fall.
Damit ist auf erster Ebene eine Betrachtung des Zwecks, den das zu trainierende KI-Modell verfolgen soll, erforderlich.
Einerseits kommen hier statistische Zwecke in Betracht. Im Einzelnen können diese einschlägig sein, wenn das zu trainierende Modell „auf Grund geeigneter (…) Maßnahmen als anonym im Sinne der DSGVO gilt und nicht für Maßnahmen oder Entscheidungen gegenüber einzelnen natürlichen Personen verwendet wird.“[3]
Statistische Zwecke kommen folglich in Betracht, wenn Prozesse mittels KI „allgemein verbessert, Anomalien oder Systembeeinträchtigungen erkannt werden oder neue Daten generiert werden, wie etwa bei Chatbots.“[4]
Andererseits können wissenschaftliche Forschungszwecke für die Entwicklung eines KI-Modells herangezogen werden.[5]
Darüber hinaus kann ein Kompatibilitätstest entfallen, wenn die Verarbeitung „auf einer Rechtsvorschrift der Union oder der Mitgliedstaaten (beruht), die in einer demokratischen Gesellschaft eine notwendige und verhältnismäßige Maßnahme zum Schutz der in Art. 23 Abs. 1 DSGVO genannten Ziele darstellt“. Hierfür kommt § 24 BDSG für eine Weiterverarbeitung zu Zwecken der Gefahrenabwehr oder Geltendmachung (…) zivilrechtlicher Ansprüche in Betracht.[6]
Ob der Kompatibilitätstest für das Training eines konkreten KI-Modells entbehrlich ist, ist anhand des Einzelfalls zu ermitteln.
Implementierung von Privacy-Enhancing-Technologies
Art. 6 Abs. 4 lit.e DSGVO fordert im Rahmen des Kompatibilitätstests „das Vorhandensein geeigneter Garantien, wozu Verschlüsselung oder Pseudonymisierung gehören können.
Hieraus wird deutlich, dass für die erfolgreiche Durchführung eines Kompatibilitätstests die Implementierung von datenschutzfördernden Maßnahmen, sog. „Privacy-Enhancing-Technologies“ („PET-Maßnahmen“) zentraler Bestandteil ist. Diese ermöglichen insbesondere gegenüber Aufsichtsbehörden einen weiten Argumentationsspielraum des Verantwortlichen.
Darüber hinaus ist die frühzeitige Implementierung von PET-Maßnahmen erforderlich, um eine „Infizierung“ des KI-Modells zu vermeiden.[7]
Als PET-Maßnahmen kommen insbesondere in Betracht:
Anonymisierung oder Pseudonymisierung von Trainingsdaten
Verwendung synthetischer Trainingsdaten
„Federated Learning“ Methoden[8]
Durchführung des Kompabilitätstests
Die Durchführung eines Kompatibilitätstest erfordert stets eine Einzelfallprüfung. Dabei sind insbesondere folgende Faktoren zu berücksichtigen:
Zweckzusammenhang
Den Zusammenhang zwischen den ursprünglichen und den neuen Verarbeitungszwecken: Je enger der Zusammenhang, desto wahrscheinlicher ist die Vereinbarkeit.
Art der personenbezogenen Daten
Sensible oder besonders schützenswerte Daten könnten höhere Anforderungen an die Vereinbarkeit stellen.
Folgen für Betroffene
Die möglichen Folgen der Weiterverarbeitung für die betroffenen Personen: Negative Auswirkungen auf die Privatsphäre der Betroffenen können die Vereinbarkeit der Zwecke beeinträchtigen.
Schutzmaßnahmen
Das Vorhandensein geeigneter Schutzmaßnahmen: Die Implementierung von Schutzmaßnahmen (PET-Maßnahmen) wie Pseudonymisierung oder Anonymisierung kann die Vereinbarkeit der Verarbeitungszwecke unterstützen.
Ausblick und Fazit
Unternehmen, die ein KI-Modell trainieren wollen, haben datenschutzrechtliche Vorgaben zu beachten.
Erfolgt das Training mit Bestandsdaten, ist dabei die Durchführung eines Kompatibilitätstests erforderlich. Um hier erfolgreich zu sein, sind vom Unternehmen datenschutzfreundliche Maßnahmen (Privacy-Enhancing-Technologies) zu implementieren.
Über die Anforderungen der DSGVO hinaus werden Unternehmen zukünftig auch die Bestimmungen der KI-VO zu beachten haben. Insbesondere ergeben sich hier aus Art. 10 KI-VO Maßgaben für die Qualität von Trainingsdaten.
Quellen
[1] Vgl. Leicht/Sorge, Einsatz von KI-Systemen im Unternehmen: Datenschutzrechtliche Voraussetzungen und technische Lösungsansätze, in: Roth/Corsten, Handbuch Digitalisierung (im Erscheinen), u.a. mit Verweis auf die exemplarische Darstellung dieser Problematik beim Einsatz von Differential Privacy: Bagdasarayan, et. al, Differential privacy has disparate impact on Modell accuracy, Advances in Neural Information Processing Systems 32 (2019): 15479–15488.
[2] Buchner/Petri, in: Kühling/Buchner DSGVO, 3. Aufl . 2020, Art. 6, Rn. 186.
[3] Kaulartz, Rechtshandbuch Artificial Intelligence und Machine Learning, 1. Auflage S. 476.
[4] Kaulartz, Rechtshandbuch Artificial Intelligence und Machine Learning, 1. Auflage 2020, S. 476.
[5] So Stefan Brink, früherer Datenschutzbeauftrater von Baden-Württemberg, ChatGPT-Verbot: Das fordert Italien von OpenAI - Übersicht! | SÜDKURIER (suedkurier.de).
[6] Leffer/Leicht, Datenschutzrechtliche Herausforderungen beim Einsatz von Trainingsdaten für KI-Systeme, *34_p_28_IRIS22_Leffer+ES.indd (uni-saarland.de).
[7] Vgl. Kaulartz, Rechtshandbuch Artificial Intelligence und Machine Learning, S. 476.
[8] https://www.bigdata-insider.de/wie-entwickelt-man-dsgvo-konforme-Modelle-kuenstlicher-intelligenz-a-aefe48c90aa8e08bc579a3f3f43b183d/; https://www.cmshs-bloggt.de/tmc/machine-learning-datenschutz-compliance-bei-ki-am-beispiel-federated-learning/.