Worauf man achten sollte

KI-Tools: Datenschutz und Falschinformationen

Spätestens seit dem Release von OpenAI’s ChatGPT ist das Thema Künstliche Intelligenz (KI) bzw. Artificial Intelligence (AI) in fast aller Munde. Dessen Gebrauch im Arbeitsalltag kann viele Prozesse optimieren und bietet hohes Potenzial, vor allem in der Softwareentwicklung. Doch diese neue Technologie sollte nicht ohne Bedacht verwendet werden. Im folgenden Artikel möchten wir über Falschinformationen und Datenschutz bei KI aufklären.

Wie AI funktioniert und wie Falschinformationen entstehen #

Der bekannteste Makel von aktuellen AI Tools ist wohl, dass sie sehr oft nicht wahrheitsgemäßen oder verwirrenden Output generieren. Diese Vorkommnisse sind teilweise so unterhaltsam, dass jemand derartigen Ergebnissen ein GitHub Repository gewidmet hat.

Solche falschen oder auch lustigen Ergebnisse wirken oft auf den ersten Blick wie ein bloßer Zitierfehler, tatsächlich sind sie aber ein nicht so ungewöhnliches Nebenprodukt von KIs. Denn ein Tool wie z.B. ChatGPT ist keine Suchmaschine wie Google. Eine Suchmaschine durchforstet mittels “Crawlern” das Web und rankt gewisse Websites nach bestimmten Kriterien, um bei einer Google Anfrage die für die Nutzer:innen relevanten Websites möglichst weit oben anzuzeigen. Zum Beispiel spielt bei Suchmaschinen auf der einen Seite technisches SEO eine Rolle, auf der anderen Seite werden Autorität und Glaubwürdigkeit der Informationen durch Links und Verweise von anderen Websites “bestätigt”.

Wenn wir jedoch eine Anfrage an ChatGPT stellen, ist die technische Basis eine ganz andere. Generative AI Tools basieren nämlich auf Large Language Models (kurz LLMs), dessen Aufgabe es ist, menschliche Sprache zu verstehen und möglichst richtige Zeichenreihenfolgen vorherzusagen. Diese werden wie ein Sportler vor einem Wettkampf trainiert, jedoch nicht mit Ausdauerübungen, sondern mit dem Verarbeiten von größtenteils öffentlichen Informationen und Interaktionen mit menschlichen Trainer:innen. Diese menschlichen Trainer:innen sind einerseits die Entwickler:innen und Tester:innen hinter den Tools, die dem System Feedback darüber geben, ob etwas eine gute oder schlechte Antwort gewesen ist. Aber auch wir, die Nutzer:innen, trainieren mit jedem Chatverlauf die KI und beeinflussen deren zukünftiges Rechenverhalten.

Nehmen wir als Beispiel den simplen Satzanfang: “Die Ampel schaltet von Rot auf …”. Wenn eine KI gut trainiert ist, wird sie wohl mit hoher Wahrscheinlichkeit etwas wie Gelb vorschlagen, da wohl die meisten Texte und die meisten Menschen, die die KI trainieren, das als sinnvollste Antwort deklarieren würden. Nehmen wir jedoch an, ein Großteil der menschlichen Nutzer:innen gibt als Feedback, dass Gelb überhaupt nicht stimmt und eher etwas anderes wie z.B. Lila zurückkommen soll. Dies ist natürlich nicht ganz akkurat, aber die KI “glaubt” das den Nutzer:innen und bewertet sein LLM neu, sodass die Wahrscheinlichkeit höher wird, dass der Satz nicht mit “Gelb”, sondern mit “Lila” beendet wird.

Was ein ganz üblicher Prozess hinter den Algorithmen ist, kann natürlich verheerende Auswirkungen auf die Glaubwürdigkeit und den Wahrheitsgehalt der KI haben. In solchen Fällen spricht man auch von “Model Poisoning”.

3 Tipps für einen verantwortungsvollen Umgang mit KI Chatbots #

Mit diesem Wissen kann man wohl KIs vielleicht etwas mehr verzeihen, wenn die Antworten doch nicht so zufriedenstellend sind. Um dabei nicht den Spaß an den AI Tools zu verlieren, sind hier ein paar Tipps, wie man verantwortungsvoll damit umgeht:

Fact-Checking #

Benutzt KIs als Hilfestellung, aber nie als letzte Instanz. Prüft die Ergebnisse und hinterfragt die Antworten.

Gebt möglichst viele Details #

Eine KI wirft auf die allgemeinen Fragen mit allgemeinen Antworten zurück. Wenn ihr eine schöne Antwort bekommen wollt, beschreibt euer Problem so detailliert wie möglich. Somit kommen öfter Outputs zurück, die mehr Sinn ergeben.

Feedback #

Eine KI ist nichts ohne Trainingsdaten. Und die kommen auch von euch. Sagt der KI also, wenn sie Recht hat und vor allem, wenn sie sich irrt. Dies wird zukünftigen Anfragen zugutekommen.

Die Grauzone zwischen Datenkontrolle und Autonomie #

Wenn wir eine KI etwas fragen, können wir davon ausgehen, dass dieser Inhalt auf dessen Server zwischengespeichert und verarbeitet wird. Ob dieser Inhalt schlussendlich nach der Anfrage auf dem Server bleibt, um z.B. personenbezogene Daten zu erheben und für Werbezwecke zu nutzen, hängt rein von den KI-Entwickler:innen und deren Datenschutzerklärung ab. Der weltweite Vorreiter OpenAI nimmt hierzu speziell Stellung, dass sie diese Daten nicht für kommerzielle Zwecke nutzen und vor allem DSGVO-konform behandeln. Dies muss jedoch nicht immer der Fall sein, denn es wäre möglich, dass die Daten auch dafür genutzt werden können, um Nutzerprofile zu erstellen. Zum Beispiel formuliert Google die Stellungnahme zum Datenschutz beim hauseigenen Chatbot Bard sehr vage:

Google zeichnet Ihr Feedback und Ihre Unterhaltungen mit Bard auf, erhebt zugehörige Informationen zur Produktnutzung und ermittelt Informationen zu Ihrem Standort. Google verwendet diese Daten gemäß seiner Datenschutzerklärung, um Google-Produkte und ‑Dienste sowie Technologien für maschinelles Lernen, einschließlich Google Unternehmensprodukte wie Google Cloud, bereitzustellen, zu verbessern und zu entwickeln. (Stand 19. September 2023)

Da Googles Produktpalette sehr divers ist, wissen wir als Endnutzer:in nicht genau, ob hier die Daten nur zum Optimieren der AI-Systeme genutzt werden, oder auch für Googles personalisierte Werbedienste.

Was jedoch bei fast allen KI Chatbots oft unklar ist: Wie und ob vorher eingegebene Daten wieder als Output zurückkommen. Trotz der menschlichen Kontrolle ist die KI ein oftmals autonomes System, das seine Antworten selbst durch Wahrscheinlichkeiten und frühere Interaktionen berechnet. Es ist nicht unwahrscheinlich, dass früher genannte Informationen wieder in Form eines Outputs vorkommen. Ein Verhalten, worüber man im Gegensatz zu DSGVO-geschützten Daten wenig Einfluss hat, selbst als KI-Entwickler:in. Deshalb sollte man niemals persönliche und sensible Informationen einer KI preisgeben. Und sollte dies doch versehentlich passieren, sucht sofort die Datenschutz oder Kontaktseite des KI-Betreibers auf und sendet eine Widerrufungsanfrage. OpenAI hat hierzu ein dezidiertes Kontaktformular.

Unser Fazit #

Der Einsatz von AI-Tools, insbesondere von Large Language Models wie ChatGPT, bietet zweifellos viele Vorteile und Potenziale, um Prozesse zu optimieren und neue Möglichkeiten zu erschließen (einen Überblick über aktuell beliebte AI-Tools zeigen wir übrigens hier). Dennoch sollten wir uns der Herausforderungen und Risiken bewusst sein. Falschinformationen können entstehen, weil KI-Modelle anhand der ihnen zur Verfügung gestellten Daten trainiert werden und von den Rückmeldungen der Nutzer:innen beeinflusst werden. Als verantwortungsvolle User:innen sollten wir AI-Generierungen daher kritisch hinterfragen und das Ergebnis gegebenenfalls überprüfen. Fact-Checking und das Bereitstellen detaillierter Informationen können dazu beitragen, dass die Antworten der KI genauer und relevanter werden.

Zudem sollten wir uns über den Datenschutz im Klaren sein. KI-Tools speichern und verarbeiten unsere Anfragen und es ist wichtig zu wissen, wie diese Daten verwendet werden. Unternehmen wie OpenAI haben Richtlinien zum Schutz der Privatsphäre, aber dies gilt nicht immer für alle Anbieter:innen. Wir sollten daher persönliche und sensible Informationen nicht leichtfertig an KIs preisgeben und bei Bedenken sofort die Datenschutz- oder Kontaktseite des Betreibers bzw. der Betreiberin aufsuchen.

Insgesamt können AI-Tools eine wertvolle Ergänzung für den Arbeitsalltag sein, aber wir sollten sie mit Bedacht und Verantwortung nutzen, um ihre Potenziale zu entfalten, während wir die Risiken minimieren. Indem wir als Nutzer:innen bewusst handeln und Feedback geben, können wir dazu beitragen, dass AI-Systeme sich weiterentwickeln und ihren Nutzen maximieren, ohne dass wir dabei die Kontrolle über unsere Daten und die Glaubwürdigkeit der Informationen verlieren.