Meta entwickelt KI-Modell für «menschliche» Bild-Generierung
Der Facebook-Konzern Meta Platforms hat ein neues Modell Künstlicher Intelligenz der Öffentlichkeit zur Verfügung gestellt. Das teilte das Unternehmen in einem Blogeintrag mit. Dieses Modell, das von Meta als «menschenähnlich» beschrieben wurde, soll vor allen die Generierung von Bildern verbessern. Bislang weisen KI-Bilder oft Fehler auf und stellen beispielsweise oft Menschen mit zusätzlichen Fingern an der Hand dar.
Das neue Modell I-JEPA weise verbesserte Fähigkeiten bei der Analyse und effektiven Vervollständigung unfertiger Bilder auf und übertreffe damit die Genauigkeit der aktuellen Modelle. Im Gegensatz zu herkömmlichen generativen KI-Modellen, die sich vor allem an den benachbarten Pixel eines Bildes verlassen, nutze I-JEPA «umfassendes Hintergrundwissen über die Welt».
Bislang ist der Silicon-Valley-Riese Meta, dem Facebook, Instagram und WhatsApp gehören, vor allem mit einer KI-Technologie namens LLaMA präsent, die Online-Chatbots betreiben kann. Konzernchef Mark Zuckerberg hatte im Februar überraschend beschlossen, das KI-Sprachmodell unter eine Open-Source-Lizenz zu stellen und damit der Öffentlichkeit einen kostenlosen und freien Zugang zu der KI-Technologie zu gewähren. Das neue Modell I-JEPA soll ebenfalls als Open Source veröffentlicht werden.
«Menschenähnliches Denkvermögen in KI-Systemen»
Die nun vorgestellte KI-Technologie geht auf die Vorstellungen des führenden KI-Wissenschaftlers von Meta, Yann LeCun zurück, der ein «menschenähnliches Denkvermögen in KI-Systemen» anstrebt. Durch die Einbeziehung dieses Denkens soll I-JEPA häufige Fehler in KI-generierten Bildern korrigieren.
In dem Blogeintrag heißt es: «KI-Forscherinnen und -Forscher bei Meta haben versucht, Lernalgorithmen zu entwickeln, die das Hintergrundwissen des gesunden Menschenverstands über die Welt erfassen und dann in eine digitale Darstellung kodieren, auf die der Algorithmus später zugreifen kann.»
Konkret heißt das: Anders als bei bisherigen Modellen wird das System nicht darauf trainiert, jedes einzelne Pixel eines Bildes auszuwerten. Stattdessen konzentriert sich das KI-Modell auf zentrale Elemente. Anstatt beispielsweise das Foto einer menschlichen Person Pixel für Pixel zu analysieren, wurde I-JEPA darauf optimiert, zentrale Bereiche zu erkennen und dadurch darauf zu schließen, dass ein Mensch abgebildet wurde, der auch nur fünf Finger an einer Hand haben soll.