Wissenschaftler erstellen OpinionGPT, um menschliche Vorurteile zu erforschen und es für öffentliche Tests zugänglich zu machen

Ein Forscherteam der Humboldt-Universität zu Berlin hat ein Modell der Künstlichen Intelligenz (KI) entwickelt. große Sprache, Mit dem Unterschied, dass sie absichtlich angepasst wurden, um Ergebnisse mit expliziter Verzerrung zu erzielen.

Das Modell des Teams heißt OpinionGPT und ist eine modifizierte Version von Metas Llama 2, einem KI-System mit ähnlichen Fähigkeiten wie ChatGPT von OpenAI oder Claude 2 von Anthropic.

Mithilfe eines Prozesses namens „anweisungsbasierte Feinabstimmung“ kann OpinionGPT auf Anfragen reagieren, als ob sie eine von 11 voreingenommenen Gruppen repräsentieren würden: Amerikaner, Deutsche, Lateinamerikaner, Nahöstliche, Teenager, 30+, Ältere, Männer, Frauen, Liberale oder konservativ.

Ankündigung von „OpinionGPT: Extrem voreingenommenes GPT-Modell“! Probieren Sie es hier aus: https://t.co/5YJjHlcV4n
Um die Auswirkung von Verzerrungen auf Modellantworten zu untersuchen, stellten wir eine einfache Frage: Was wäre, wenn wir A kontrollieren würden? #GBT Ein Modell, bei dem nur Texte von rechtsorientierten Menschen geschrieben werden?
[1/3]
— Alan Akbik (@alan_akbik) 8. September 2023

OpinionGPT wird mithilfe von Daten optimiert, die von „AskX“-Communitys, sogenannten Subreddits, auf Reddit stammen. Beispiele für solche Subreddits sind r/AskaWoman und r/AskAnAmerican.

Das Team begann damit, Subreddit-Beiträge zu finden, die sich auf die 11 identifizierten Vorurteile beziehen, und daraus die 25.000 beliebtesten Beiträge zu extrahieren. Ich habe dann nur Beiträge behalten, die die Upvote-Grenze erreichten, kein Inline-Zitat enthielten und weniger als 80 Wörter umfassten.

Was übrig blieb, scheint es, dass die Forscher A Nähert sich Ähnlich der konstitutionellen KI von Anthropic. Anstatt völlig neue Modelle zur Darstellung jeder Polarisationsbezeichnung zu erstellen, modifizierten sie im Wesentlichen das einzelne 7-Milliarden-Parameter-Llama2-Modell mit separaten Befehlssätzen für jede vorhergesagte Polarisation.

Das Ergebnis basierte auf Methodik, Architektur und Daten beschrieben In der Arbeit des deutschen Teams scheint es sich um ein KI-System zu handeln, das eher als Stereotypengenerator denn als Werkzeug zur Untersuchung von Vorurteilen in der realen Welt fungiert.

Angesichts der Art der Daten, anhand derer das Modell verfeinert wird, und der fragwürdigen Beziehung zwischen diesen Daten und den von ihnen definierten Bezeichnungen erstellt OpinionGPT nicht unbedingt einen Text, der mit einer messbaren Verzerrung in der realen Welt übereinstimmt. Es wird lediglich Text erstellt, der die Richtung Ihrer Daten widerspiegelt.

Die Forscher selbst erkennen einige der Einschränkungen an, die sich daraus für ihre Studie ergeben, und schreiben:

„Zum Beispiel sollten Antworten von „Amerikanern“ besser als „Amerikaner, die auf Reddit posten“ oder sogar „Amerikaner, die auf diesem speziellen Subreddit posten“ verstanden werden. Ebenso sollten „Deutsche“ als „Deutsche, die auf diesem speziellen Subreddit posten“ verstanden werden Subsite“ und so weiter.

Diese Warnungen könnten weiter verfeinert werden, um zu sagen, dass Beiträge beispielsweise von „Personen stammen, die behaupten, Amerikaner zu sein und auf dieser speziellen Unterseite posten“, da in dem Papier nicht erwähnt wird, dass überprüft werden soll, ob die Verfasser hinter einem bestimmten Beitrag in sind Tatsächlich repräsentieren sie die demografische oder voreingenommene Gruppe, für die sie sich ausgeben.

Die Autoren weisen weiterhin darauf hin, dass sie Modelle untersuchen wollen, die demografische Merkmale (d. h. liberales Deutsch, konservatives Deutsch) am besten erfassen.

Die von OpinionGPT bereitgestellten Ergebnisse scheinen von repräsentativ für nachweisbare Vorurteile bis hin zu völligen Abweichungen von der etablierten Norm zu reichen, was es schwierig macht, seinen Nutzen als Instrument zur Messung oder Erkennung tatsächlicher Vorurteile zu erkennen.

*OpinionGPT-Antworttabelle. Quelle: Tabelle 2, Haller et al., 2023*

Laut OpinionGPT neigen Lateinamerikaner, wie im Bild oben zu sehen ist, dazu, Basketball als ihren Lieblingssport zu betrachten.

Experimentelle Untersuchungen jedoch Indica Fußball und Baseball sind in ganz Lateinamerika eindeutig die beiden beliebtesten Sportarten, gemessen an Zuschauerzahl und Beteiligung.

Aus derselben Tabelle geht auch hervor, dass OpinionGPT „Wasserball“ als bevorzugte Sportart angibt, wenn es darum gebeten wird, eine „Teenager-Antwort“ zu geben, eine Antwort, die statistisch gesehen vorkommt Es ist unwahrscheinlich Das ist die Mehrheit der jungen Menschen im Alter zwischen 13 und 19 Jahren auf der ganzen Welt.

Das Gleiche gilt für die Vorstellung, dass das Lieblingsessen des durchschnittlichen Amerikaners „Käse“ ist. Cointelegraph hat Dutzende Online-Umfragen gefunden, in denen behauptet wurde, Pizza und Burger seien die Lieblingsspeisen der Amerikaner, konnte jedoch keine einzige Umfrage oder Studie finden, die behauptete, das erste Gericht der Amerikaner sei einfach Käse.

Während OpinionGPT möglicherweise nicht für die Untersuchung realer menschlicher Vorurteile geeignet ist, kann es als Werkzeug zur Untersuchung inhärenter Stereotypen in großen Dokument-Repositories, wie etwa einzelnen Subreddits oder KI-Trainingssätzen, nützlich sein.

Forscher Zur Verfügung gestellt o OpinionGPT online zum öffentlichen Testen. Laut der Website sollten sich potenzielle Nutzer jedoch darüber im Klaren sein, dass „die generierten Inhalte falsch, ungenau oder sogar obszön sein können“.

Mehr lesen:

Karlotte Peters

„Zertifizierter Food-Guru. Internet-Experte. Bacon-Junkie. TV-Enthusiast. Begeisterter Schriftsteller. Gamer. Beeraholic.“

Wissenschaftler erstellen OpinionGPT, um menschliche Vorurteile zu erforschen und es für öffentliche Tests zugänglich zu machen

Deutsche Spieler führen „Tänze“ mit der WM auf. Sehen Sie sich das Video an

Hansi Flick vermeidet den Vergleich des Barcelona-Real-Madrid-Spiels mit deutschen Klassikern: „Es gibt nichts Besseres als El Clásico“

Deutsche Vereine nehmen aufgrund des Coronavirus den Trainingsbetrieb unter strengen Regeln wieder auf

Schreibe einen Kommentar Antworten abbrechen

More Stories

Deutsche Spieler führen „Tänze“ mit der WM auf. Sehen Sie sich das Video an

Hansi Flick vermeidet den Vergleich des Barcelona-Real-Madrid-Spiels mit deutschen Klassikern: „Es gibt nichts Besseres als El Clásico“

Deutsche Vereine nehmen aufgrund des Coronavirus den Trainingsbetrieb unter strengen Regeln wieder auf