AI HöRTE AUF DIE STIMMEN DER LEUTE. DANN ERZEUGTE ES IHRE GESICHTER.

Send

Haben Sie jemals ein mentales Bild einer Person erstellt, das Sie noch nie gesehen haben, basierend auf ihrer Stimme? Künstliche Intelligenz (KI) kann dies jetzt tun und ein digitales Bild des Gesichts einer Person erzeugen, wobei nur ein kurzer Audioclip als Referenz verwendet wird.

Das neuronale Netzwerk mit dem Namen Speech2Face - ein Computer, der ähnlich wie das menschliche Gehirn "denkt" - wurde von Wissenschaftlern an Millionen von Lehrvideos aus dem Internet trainiert, in denen über 100.000 verschiedene Personen miteinander sprachen.

Aus diesem Datensatz lernte Speech2Face Assoziationen zwischen Stimmreizen und bestimmten physischen Merkmalen in einem menschlichen Gesicht, schrieben Forscher in einer neuen Studie. Die KI verwendete dann einen Audioclip, um ein fotorealistisches Gesicht zu modellieren, das zur Stimme passt.

Die Ergebnisse wurden online am 23. Mai im Preprint-Journal arXiv veröffentlicht und nicht von Experten begutachtet.

Zum Glück weiß die KI (noch) nicht genau, wie eine bestimmte Person allein aufgrund ihrer Stimme aussieht. Das neuronale Netzwerk erkannte bestimmte Marker in der Sprache, die auf Geschlecht, Alter und ethnische Zugehörigkeit hinwiesen, Merkmale, die von vielen Menschen geteilt werden, berichteten die Autoren der Studie.

"Als solches wird das Modell nur durchschnittlich aussehende Gesichter erzeugen", schrieben die Wissenschaftler. "Es werden keine Bilder von bestimmten Personen erzeugt."

AI hat bereits gezeigt, dass es unheimlich genaue menschliche Gesichter erzeugen kann, obwohl seine Interpretationen von Katzen ehrlich gesagt ein wenig erschreckend sind.

Die von Speech2Face erzeugten Gesichter - alle nach vorne gerichtet und mit neutralem Ausdruck - stimmten nicht genau mit den Personen überein, die hinter den Stimmen standen. Laut der Studie erfassten die Bilder jedoch in der Regel die richtigen Altersgruppen, Ethnien und Geschlechter der einzelnen Personen.

Die Interpretationen des Algorithmus waren jedoch alles andere als perfekt. Speech2Face zeigte "gemischte Leistung", wenn es mit Sprachvariationen konfrontiert wurde. Wenn die KI beispielsweise einen Audioclip eines asiatischen Mannes hörte, der Chinesisch sprach, erzeugte das Programm ein Bild eines asiatischen Gesichts. Als jedoch derselbe Mann in einem anderen Audioclip auf Englisch sprach, erzeugte die KI das Gesicht eines weißen Mannes, berichteten die Wissenschaftler.

Der Algorithmus zeigte auch eine geschlechtsspezifische Voreingenommenheit, indem er tiefe Stimmen mit männlichen Gesichtern und hohe Stimmen mit weiblichen Gesichtern assoziierte. Und weil der Trainingsdatensatz nur Lernvideos von YouTube darstellt, "repräsentiert er nicht gleichermaßen die gesamte Weltbevölkerung", schrieben die Forscher.

Ein weiteres Problem mit diesem Videodatensatz trat auf, als eine Person, die in einem YouTube-Video aufgetreten war, überrascht war, dass ihre Ähnlichkeit in die Studie aufgenommen wurde, berichtete Slate. Nick Sullivan, Leiter der Kryptografie bei der Internet-Sicherheitsfirma Cloudflare in San Francisco, entdeckte sein Gesicht unerwartet als eines der Beispiele für das Training von Speech2Face (und das der Algorithmus ziemlich ungefähr reproduziert hatte).

Sullivan hatte nicht zugestimmt, in der Studie zu erscheinen, aber die YouTube-Videos in diesem Datensatz werden laut Slate allgemein als für Forscher verfügbar angesehen, ohne zusätzliche Berechtigungen zu erhalten.

Send