Forscher Aditya Kumar vom Sprint-ML Lab am Cispa Helmholtz-Zentrum für Informationssicherheit in Saarbrücken hat mit "Toxicbench einen Testdatensatz zur Verhinderung beleidigender Eingaben bei Bild-KIs entwickelt. Toxicbench besteht aus einem Vergleichs-Datensatz und zugehöriger Evaluations-Pipeline.
Der Datensatz umfasst 218 Prompt-Templates, 437 unsichere Worte gepaart mit harmlosen Alternativen und über 73.000 Trainings- und 21.000 Test-Bild-Paare.
Konkret hat Kumar auch eine "Fine-Tuning-Strategie" realisiert, um die Modelle anzupassen. Die Ergebnisse hat er im Paper "Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images" auf der "40. AAAI Conference on Artificial Intelligence" in Singapur vorgestellt.
"Memes enthalten Textbeschriftungen, die direkt in Bilder eingebettet sind", so Kumar. Es sei immer dann problematisch, sobald diese Texte Beleidigungen oder diskriminierende Inhalte enthielten. Ziel war es herausfinden, wie sich die Generierung solcher problematischen Textbotschaften in KI-Bildern - ob Memes oder andere Bildtypen - kontrollieren lässt.
Am Sprint-ML Lab hat sich das Cispa-Team zunächst verfügbare Bildsicherheitsdetektoren angesehen. Diese wurden entwickelt, um sogenannte "NSFW-Inhalte" zu erkennen. "Während sie sehr gut bei grenzwertigen Inhalten im Bild funktionierten, stossen sie bei unsicherem Text an ihre Grenzen", erklärt der Wissenschaftler die Ausgangslage. Um das zu lösen, adressiert die Fine-Tuning-Strategie gezielt die Textgenerierungsschichten der Modelle. "Normalerweise erzeugt ein unsicherer Prompt ein unsicheres Bild. Unser Ansatz sorgt dafür, dass derselbe Prompt ein sicheres Bild erzeugt", so Kumar. Das problematische Wort werde hier durch ein neutrales Wort ersetzt, während die Bildkomposition erhalten bleibt.
"Anstatt also ein beleidigendes Wort zu generieren, wird das Modell auf ein konkretes harmloses Zielbild optimiert, das dem Ursprungswort ähnlich ist", unterstreicht Kumar. Dieses Nach-Training verändere die internen Schichten des Diffusionsmodells, was den Prozess nachhaltig effektiv mache. Da der Prozess nur wenige der bis zu 40 Schichten der Modelle verändert, bleibt der Grossteil des Bildgenerierungsprozesses unverändert.
