Unser humanoider Avatar Kilian kann jetzt sehen. Wir haben ihn mit einem Vision-LLM ausgestattet: Über eine Kamera erkennt er Objekte und liest Texte – und im Anschluss kann man mit ihm ganz natürlich über das Gesehene sprechen. Halten Sie ihm etwa einen Zeitungsartikel oder ein Schreiben vor die Linse, fasst er den Inhalt in Sekunden zusammen und beantwortet Rückfragen dazu.
Entstanden ist die Lösung als Showcase für eine Veranstaltung des Hessischen Digitalministeriums – ein Blick darauf, was mit aktueller KI-Technologie heute praktisch möglich ist.
Wie funktioniert das?
Hinter dem Avatar steckt ein abgestimmtes Zusammenspiel mehrerer Bausteine: Der Kamera- und Tonstrom wird zunächst in Text umgewandelt, ein Vision-Modell wertet Bild und Frage aus und erzeugt eine Antwort. Diese Antwort wird wieder in Sprache übersetzt – samt passender Lippenbewegung und Mimik. Den sichtbaren Avatar rendert dabei in Echtzeit eine Spiele-Engine (Unreal mit MetaHuman) und schickt ihn als Videostream an den Browser.
Dadurch braucht es auf Nutzerseite keine eigene Software – ein normaler Browser am Desktop oder Handy genügt. Interessant: „Die KI" ist dabei nur ein kleiner Teil des Ganzen; der weitaus größere Aufwand steckt in der Orchestrierung, die alle Komponenten live zusammenführt.
Warum bauen wir so etwas?
Kilian ist ein Showcase – und genau das ist der Punkt. Wir bauen solche Lösungen, um aus erster Hand Erfahrung mit aktuellen Vision-Modellen aufzubauen, die Stabilität eines komplexen Gesamtsystems zu erproben und ein Gefühl dafür zu bekommen, wo Mensch-Maschine-Schnittstellen über Avatare echten Mehrwert schaffen.
Viele Anwendungsfälle sind denkbar und reichen vom Bürgerservice, der ein kompliziertes Behördenschreiben in einfacher Sprache erklärt, bis zum Pharmaunternehmen, dessen Kunden einen halb abgerissenen Beipackzettel vor die Kamera halten und die wesentlichen Punkte vorgelesen bekommen.
Selbst ausprobieren
Kilian ist über unsere Website live erreichbar – probieren Sie es aus, am Desktop oder direkt am Handy: INOSOFT.de/kilian
Ein Hinweis: Wie bei einem Telefonat kann Kilian immer nur mit einer Person gleichzeitig sprechen. Ist das System gerade belegt, kommen Sie nach kurzer Wartezeit automatisch an die Reihe.
Hinter den Kulissen
Wie das Zusammenspiel aus Vision-Modell, Spracherkennung und Echtzeit-Rendering technisch funktioniert besprechen wir ausführlich in der Folge Kilian liest mit – vom Dokument zum KI-Gespräch unseres WeeklyTalk.