Zwei Wissenschaftlerinnen im Gespräch

ThWIC Sonar

KI-basierte Navigationsunterstützung im Dokument- und Data Lake zum Thema Wasser
Zwei Wissenschaftlerinnen im Gespräch
Foto: Jürgen Scheere (Universität Jena)

Kurzbeschreibung des Projekts

Öffentlich zugängliche Dokumente und Publikationen sind wertvolle Informationsquellen zu Erkenntnissen, Ankündigungen und Entwicklungen im Bereich des Grundwassers, Oberflächenwassers und Trink- und Abwassers. Angesichts der Fülle und Heterogenität dieser Quellen besteht jedoch die Gefahr, Wichtiges zu übersehen. Zudem sind die Relevanz unterschiedlicher Quellen und die Anforderungen an die Aufarbeitung und Präsentation der Inhalte stark zielgruppenabhängig. Deshalb benötigt der Thüringer Wasser-Innovationscluster ein semi-automatisches Monitoring- und Empfehlungssystem, das diese Informationsquellen regelmäßig überwacht, einsammelt und aufbereitet. Ziel der Maßnahme „ThWIC Sonar“ ist die Entwicklung eines Komplettsystems für Wasserdokumente mit einer modularen Architektur, das Umweltinformationen einsammelt, taxonomisch und relevanzindiziert aufbereitet und unterschiedlichen Benutzendengruppen proaktiv empfiehlt.

„ThWIC Sonar“ beinhaltet zwei Teilprojekte. Im Vorhaben „Sprachmodell und Ontologie-Einbindung“ wird ein KI-System (ein sogenanntes Sprachmodell) entwickelt, mit dem neue Text-Dokumente zum Thema Wasser automatisch klassifiziert und verschlagwortet werden können. Diese Verschlagwortung wird Verknüpfungen zu bestehenden maschinenlesbaren formalen Vokabularien (Ontologien) und Wissensgraphen enthalten, die die automatische Extraktion weiterer Informationen ermöglichen. Bei der Entwicklung wird vor allem auf einen gut dokumentierten und transparenten Prozess im Sinne der FAIR-Prinzipien geachtet, die fordern, dass Daten und Prozesse für Dritte auffindbar, zugreifbar, interoperabel und wiederverwendbar sein sollen (engl. Findable, Accessible, Interoperable and Reusable). Es wird zudem ein ressourcenschonender Prozess entwickelt, der mit möglichst wenig Trainingsdaten auskommt und so den Energieverbrauch bei der Erstellung des Modells minimiert.

Im Teilprojekt „Validierung eines Frameworks zur Integration von Umweltinformationen in ein Informationshub und relevanzbasierte Informationsdistribution“ werden KI-basierte Technologien dazu genutzt, ein intelligentes Informationsmanagement mit hohem Grad an Personalisierung zu entwickeln und den Cluster-Akteuren zur Verfügung zu stellen. Hierfür werden Daten und Informationen rund um das Themenfeld Wasser aus den verschiedenen Datenquellen beobachtet und zu einem Informationshub („Sonar-Hub“) zusammengeführt und zugänglich gemacht. Kontextuale Faktoren aus dem Nutzungsverhalten werden methodisch mit dem Output der Sprachmodelle bzw. Ontologien verbunden und in einer Empfehlungsalgorithmik berücksichtigt. Die Wasserthemen werden zusätzlich zur semantischen Verknüpfung dynamisch in Beziehung gesetzt. Die selbstlernende Algorithmik passt sich dem Informationsbedürfnis unterschiedlicher Zielgruppen und deren Verhalten auf dem Hub an und stellt damit die Informationen dynamisch und relevanzbasiert für jeden Nutzenden zur Verfügung.

Kontakt

Birgitta König-Ries, Univ.-Prof. Dr.
vCard
Professur für Verteilte Informationssysteme
JenTower, Raum 21N05
Leutragraben 1
07743 Jena Google Maps – LageplanExterner Link