Show2Instruct

Projektbeschreibung

Große Fortschritte im Bereich Foundation Models, insbesondere für semantische Bildanalyse sowie große Sprachmodelle (Large Language Models, LLMs), ermöglichen die natürlichsprachliche und kontextspezifische Interaktion zwischen physischen Systemen und Menschen. Die Entwicklung solcher KI-basierten Interaktionsmechanismen, die Foundation Models aus Computer Vision und LLMs integrieren, steht jedoch bisher nicht im Fokus von Forschungs- und Entwicklungsaktivitäten. So könnten bei einer Baustellenbegehung kontextspezifische, natürlichsprachliche Anfragen ausgewertet werden, z.B. “Entsprechen alle Fenster und Türen in diesem Raum der Spezifikation im BIM-System und wurden alle Vorgaben bzgl. Barrierefreiheit eingehalten?” Die Entwicklung dieses Forschungsfeldes befindet sich derzeit noch am Anfang, wird aber für alle kontextbezogenen Sprachinteraktionssysteme zukünftig eine herausragende Rolle spielen.

Das hier beantragte Projekt setzt hier an und soll den Einsatz derartiger generativer KI-Modelle in einer Anwendungsdomäne - Digitalisierung des Bausektors - demonstrieren. In diesem Projekt soll mit Generativer KI eine Technologiebasis für Mensch-Maschine-Schnittstellen entwickelt werden, die nicht nur eine natürlichsprachliche Bedienung von Software und Maschinen auf Basis von LLMs erlaubt, sondern insbesondere auch visuell erkannte Objekte im lokalen Umgebungskontext der Systeme in Prompts berücksichtigen kann.

Show2Instruct

Projektbeschreibung

Projektpartner