Direkt zum Inhalt

Research Cluster

Im Rahmen des DiTraRe-Arbeitsprogramms gehen vier Forschungscluster jeweils von einem wissenschaftlichen Anwendungsfall aus, der konkrete Fragen aufwirft.

Weißer Kubus mit einzelnen Würfelteilchen, die sich nach oben hin ausdünnen.
Research Cluster

Geschützte Datenräume

Verschiedene Kategorien von Forschungsdaten unterliegen rechtlichen Einschränkungen, einschließlich Datenschutzgesetzen, Persönlichkeitsrechten und Urheberrechten. Es können auch ethische Einschränkungen für die Datenteilung gelten, wie etwa die Geolokalisierung sensibler Orte oder politisch oder gesellschaftlich sensibler Inhalte.
Trotzdem besteht ein legitimes Forschungsinteresse daran, auf solche Daten zuzugreifen. Am LSC bewerten wir, welche Datenkategorien für Forschungszwecke wiederverwendet werden können, und schlagen rechtliche, ethische und technische Lösungen vor, die verschiedene Sensitivitätsstufen der Daten berücksichtigen.
Unsere Arbeit umfasst die Untersuchung von Methoden zur Pseudonymisierung und Anonymisierung sowie Techniken zur Verknüpfung sensibler Daten mit nicht-kritischen Daten in verteilten Wissensorganisation Systemen. Darüber hinaus prüfen wir das Bewusstsein von Forschenden für Sicherheits- und Datenschutzrisiken sowie die möglichen Konsequenzen im Umgang mit sensiblen Daten.

Comichafte Darstellung von Datenspeichern und Verlinkungen zu Datennutzungsmöglichkeiten.
USE CASE
Sensible Daten in den Sportwissenschaften

Die MO|RE-Datenplattform macht Daten zur körperlichen Fitness aus sportwissenschaftlichen Studien sowohl für die Wissenschaft als auch für die Öffentlichkeit zugänglich. Die Forschung würde stark von der Verknüpfung von Gesundheitsdaten mit Daten zur körperlichen Fitness profitieren, z. B. in Längsschnittdatensätzen. Die Veröffentlichung sensibler Gesundheitsdaten (z. B. BMI, Blutdruck) und anderer persönlicher Daten (z. B. Geolokalisierung, sozialer Status) ist jedoch eine Herausforderung. Es fehlt ein übergreifendes Konzept für den sicheren Umgang mit sensiblen Daten, das von einer vertrauenswürdigen IT-Umgebung bis hin zu ausgefeilten Zugriffsmanagement- und Prüfmechanismen reicht, die die Einhaltung gesetzlicher Vorschriften gewährleisten.

logo-more-data.png
Schemenhafte Darstellung von Datenströmen durch verschiedene Ebenen.
Research Cluster

Smarte Datenakquise

Dieser Forschungscluster untersucht innovative technische und gesellschaftliche Methoden sowie Qualitätskriterien für die Datenerhebung und teilweise automatisierte Verfahren zur Dokumentation, Analyse und Interpretation von Daten, um so die Beschleunigung von Forschungsprozessen zu fördern.
Er bewertet die damit verbundenen Chancen und Risiken, einschließlich rechtlicher Herausforderungen im Zusammenhang mit dem Schutz geistigen Eigentums.

Das Chemotion Electronic Lab Notebook (ELN) wird als Testumgebung dienen, um die Effizienz der Datenerhebung und -analyse sowie die Etablierung von Vertrauen und Verantwortung zu untersuchen.

Comichafte Darstellung eines Laptops, welcher mit sämtlichen Datenquellen verbunden ist.
USE CASE
Chemotion Electronic Lab Notebook
(KIT-IBCS, Dr. Nicole Jung)

In den Chemielaboren der Hochschulen werden Laborautomatisierung und Geräteintegration nur begrenzt genutzt. Trotz aktueller Forschungsdatenrichtlinien von Geldgebern und positiver Beispiele in der Industrie zögert man, Technologien wie ELNs zu übernehmen. Zu den Bedenken gehören Abhängigkeiten von Software und Technologien, die nicht unter der Kontrolle der Wissenschaftlerinnen und Wissenschaftler stehen, fehlerhafte Methoden für die Datenzuordnung und -analyse sowie fehlende Kontrolle über die Weiterverwendung ihrer Daten.

logo-chemotion.svg
Netzhafte Darstellung des menschlichen Gehirns.
Research Cluster

KI-gestützte Wissensbereiche

Maschinelles Lernen und KI haben das Potenzial, neue Entdeckungen und Innovationen zu ermöglichen. Sie bewältigen die Herausforderungen wachsender Datenmengen und bieten die Möglichkeit, derzeit getrennte Informationen semantisch zu verknüpfen.

Allerdings gibt es auch damit verbundene Risiken, darunter die rechtliche Bewertung der Nutzung synthetischer Trainingsdaten für KI-Systeme, begrenzte oder verzerrte Trainingsdaten sowie Qualitätsprobleme bei der Indexierung. Zudem kann die Akzeptanz durch Nutzer fehlen, wenn KI-Systeme nicht nachvollziehbare Entscheidungen treffen.

Dies ist besonders relevant im Hinblick auf die sozialen, politischen und wirtschaftlichen Auswirkungen von KI-basierten Entscheidungen, die von Modellen getroffen werden, deren Funktionsweise schwer erklärbar oder verständlich ist.

Comichafte Darstellung eines lesenden Roboters, dessen Gehirn zu sechzig Prozent geladen ist.
USE CASE
Künstliche Intelligenz in der Biomedizintechnik
(KIT-IBT, Dr. Axel Loewe)

Das KIT-IBT entwickelt Computermodelle des menschlichen Herzens, um mit Hilfe von Software-Engineering, Algorithmik, Numerik, Signalverarbeitung und maschinellem Lernen Herz-Kreislauf-Erkrankungen früher und genauer vorherzusagen.Wir setzen KI-Methoden ein, die auf rein synthetischen oder hybriden (simulierten + klinischen) Datensätzen trainiert werden, um Krankheitsmechanismen zu entschlüsseln. Simulierte Daten sind oft unerlässlich, um Probleme des Datenschutzes und bestehende Verzerrungen in den meisten verfügbaren Datensätzen zu überwinden, werfen aber Fragen der Erklärbarkeit von KI-Entscheidungen und des Vertrauens auf.

img-artificial-intelligence-biomedical-engineering.png
Schemenhafte Darstellung von Datenverknüpfungen.
Research Cluster

Publikationskulturen

Neue Publikationsformate jenseits des klassischen peer-reviewten Artikels gewinnen an Bedeutung. Datenpublikationen gewährleisten die Transparenz und Reproduzierbarkeit wissenschaftlicher Erkenntnisse und bilden die Grundlage für weitere Forschung, wodurch Ressourcen eingespart werden. Es ist essenziell, die zur Generierung oder Interpretation von Daten verwendete Software als Maßnahme zur Qualitätssicherung in Datenpublikationen einzubeziehen. Datenpublikationen und Software müssen als erstklassige wissenschaftliche Ergebnisse anerkannt werden.

Bestehende Publikationsinfrastrukturen sind derzeit noch nicht optimal darauf ausgelegt, Daten und Software angemessen zu berücksichtigen. Die dynamische Entwicklung des rechtlichen Rahmens erfordert eine umfassende Analyse europäischer und nationaler Datenschutzgesetze und -richtlinien sowie deren Auswirkungen auf diese neuen Formate und die Bereitschaft von Forschenden, Daten, Algorithmen und Software zu teilen.

Der Übergang zu Open Science muss von einer geeigneten Kommunikationsstrategie begleitet werden, um Fehlinterpretationen von Forschungsergebnissen zu vermeiden. Diese Strategie sollte neue Kommunikationsformate und Akteure wie Wissenschaftskommunikatoren oder Entscheidungsträger einbeziehen, um den Austausch zwischen Wissenschaft und Gesellschaft zu verbessern.

Comichafte Darstellung eines Roboters, der an vier Armen jeweils ein unterschiedliches Datenmedium hält.
USE CASE
Publikation großer Datensätze

Das KIT-IMK ist für die Generierung und Analyse umfangreicher Datensätze aus Chemie-Klima-Simulationen und Satellitendaten zur Atmosphärenbeobachtung verantwortlich. Der aktuelle Publikationsansatz ist jedoch aufgrund der Datenmenge ineffizient. Die Wiederverwendung ist derzeit eingeschränkt, da effektive Methoden zur effizienten Erkundung solcher Datensätze und zur Bewertung ihrer Relevanz für andere Forschungsfragen fehlen. Die Auswahl von Teilmengen zur Wiederverwendung oder für Peer-Reviews ist derzeit nicht möglich.

img-use.case-publication-large-datasets.png