Text im Bild: Die ungelösten Rätsel von Schrift-Darstellung mit DALL-E

Die Aufgabe:

Eine Visualisierung des Lebens und Wirkens von Henry Miller

In meinem letzten Artikel widmete ich mich der Eleganz von Zeitstrahlen als Werkzeug zur Darstellung historischer Sequenzen. Die gewonnenen Erkenntnisse haben mich nicht nur in meinem Vorgehen bestärkt, sondern auch zu weiteren kreativen Anwendungen motiviert. Den Prompt im erwähnten Artikel hatte ich nur leicht angepasst.

Das nächste Projekt sollte das faszinierende Leben und die Werke Henry Millers in Form eines dualen Zeitstrahls erfassen. Ziel war es, einerseits die Veröffentlichungsdaten seiner Literatur und andererseits die Orte seines Schaffens zum Zeitpunkt dieser Veröffentlichungen zu visualisieren. Ein ambitioniertes Unterfangen, wie sich herausstellte. Die ersten Resultate waren ganz OK:

Die gleichzeitige Abbildung der Publikationsdaten und der Wohnsitze Millers stellte sich rasch als eine zu hohe Hürde heraus. Die Komplexität des Vorhabens überstieg die Fähigkeiten von ChatGPT – oder präziser: die Grenzen meines Prompts. Nachdem ich einige Modifikationen am ursprünglichen Prompt vorgenommen hatte, zeichnete sich ein erstes Bild des Zeitstrahls ab, das hoffnungsvoll stimmte, obwohl ich kaum etwas entziffern konnte. (Für bessere Darstellung die Illustration in neuem Fenster öffnen):

Doch die anfängliche Zuversicht wich bald der Ernüchterung. Die Aufgabe ähnelte der mühsamen Arbeit des Sisyphos – immer wieder stiess ich an die gleichen Grenzen und musste von Neuem beginnen.

Die Grenzen der KI bei Text und Bild

Auf der Suche nach Antworten konfrontierte ich meinen Bot mit der zentralen Frage: Warum gelingt die Verbindung von Schrift und Bild nicht zuverlässiger? Und warum haben die gezeigten Köpfe nichts mit Henry Miller zu tun? Die Antwort beleuchtete verschiedene Aspekte:

  • Auflösung: Die begrenzte Auflösung KI-generierter Bilder erschwert es, Text klar und lesbar darzustellen.
  • Texterkennung: Die Erkennung und Generierung von Text stellt KI-Modelle vor Herausforderungen, die die menschliche Fähigkeit zur Erkennung verschiedener Schriftarten weit übersteigen.
  • Semantik: Das Verstehen und sinnvolle Einbetten von Text in Bilder erfordert ein Verständnis für den semantischen Kontext, der oft fehlt.
  • Sprachkomplexität: Die Generierung korrekter Sprache unter Berücksichtigung von Syntax, Grammatik und Orthografie stellt eine nicht zu unterschätzende Schwierigkeit dar.
  • Trainingsdaten: Die Qualität der Trainingsdaten hat direkten Einfluss auf die Leistungsfähigkeit von KI-Modellen beim Textverständnis.
  • Urheberrechte: Richtlinien zur Vermeidung von Urheberrechtsverletzungen begrenzen die Textproduktion durch KI-Modelle.

Trotz der Schwierigkeiten bleibt die Aussicht auf Verbesserung ein Lichtblick. Fortschritte in der KI-Forschung versprechen kontinuierliche Verbesserungen in der Integration von Text und Bild. Bis dahin bleibt es eine spannende Herausforderung, die Grenzen der Technologie auszuloten und die Fähigkeiten von Tools wie DALL-E zu erweitern.

Die Reise durch Henry Millers Leben und Werk mag vorerst abgeschlossen sein, doch die Suche nach der perfekten Verbindung von Wort und Bild geht weiter. Es bleibt viel Raum für Innovation und Verbesserung, aber genau diese Aspekte sind es, die die Arbeit mit KI so aufregend und unvorhersehbar machen.

Wer mehr über Millers Werke erfahren möchte, ist bei Wikipedia besser aufgehoben.

PS: Inzwischen habe ich ein grossartiges Tool für die Erstellung von eines Zeitstrahls gefunden: Preceden

Illustrationen sind hier leider auch nicht möglich, aber mit der kostenlose Version kann man mit Hilfe von KI bereits sehr gute graphische Ergebnisse erzielen:

Auf Reddit eine schöne Darstellung von einem Zeitstrahl gefunden:

The Big Map of Who Lived When — I charted out the overlapping lives of historical figures, from 1400 to today
byu/profound_whatever incoolguides

Wie das so ist, bei der rasenden Entwicklung der Tools: Inzwischen gibt es eine sehr gute Lösung für die Integrierung von Text und Bild. Ab August 2024 ist bei dem Tool Ideogram vieles möglich!

Rainer Luginbühl

Journalist BR, Basel, Ehemaliges Radiogesicht mit Moderationshintergrund, nun in Pixeln gefangen. 🎙️ #Urknallfan. Love what you do and do what you love