Projektbeschreibung

Am 13. März 2024 stellte das Robotikunternehmen Figure mit seinen Kooperationspartnern OpenAI und NVIDIA den Roboter “Figure 01” vor, der in der Lage ist, mit Menschen nicht nur natürlichsprachlich, sondern auch kontextspezifisch in Bezug zu seiner lokalen Umgebung zu interagieren. Dies wird ermöglicht durch die großen Fortschritte im Bereich Foundation Models, insbesondere für semantische Bildanalyse sowie große Sprachmodelle (Large Language Models,LLMs). Die Entwicklung solcher KI-basierten Interaktionsmechanismen, die Foundation Models aus Computer Vision und LLMs integrieren, steht jedoch bisher nicht im Fokus von Forschungs- und Entwicklungsaktivitäten. So könnten bei einer Baustellenbegehung kontextspezifische, natürlichsprachliche Anfragen ausgewertet werden, z.B. “Entsprechen alle Fenster und Türen in diesem Raum der Spezifikation im BIM-System und wurden alle Vorgaben bzgl. Barrierefreiheit eingehalten?” Die Entwicklung dieses Forschungsfeldes befindet sich derzeit noch am Anfang, wird aber für alle kontextbezogenen Sprachinteraktionssysteme zukünftig eine herausragende Rolle spielen.

Das hier beantragte Projekt setzt hier an und soll den Einsatz derartiger generativer KI-Modelle in einer Anwendungsdomäne - Digitalisierung des Bausektors - demonstrieren. In diesem Projekt soll mit Generativer KI eine Technologiebasis für Mensch-Maschine-Schnittstellen entwickelt werden, die nicht nur eine natürlichsprachliche Bedienung von Software und Maschinen auf Basis von LLMs erlaubt, sondern insbesondere auch visuell erkannte Objekte im lokalen Umgebungskontext der Systeme in Prompts berücksichtigen kann.

Projektpartner