Direkt zum Inhalt

Research Cluster

Im Rahmen des DiTraRe-Arbeitsprogramms gehen vier Forschungscluster jeweils von einem wissenschaftlichen Anwendungsfall aus, der konkrete Fragen aufwirft.

Weißer Kubus mit einzelnen Würfelteilchen, die sich nach oben hin ausdünnen.
Research Cluster

Geschützte Datenräume

Verschiedene Kategorien von Forschungsdaten unterliegen rechtlichen Beschränkungen wie Datenschutzgesetzen, Persönlichkeitsrechten oder Urheberrechten. Zu den ethischen Beschränkungen für die gemeinsame Nutzung von Daten gehören z. B. die Geolokalisierung sensibler Websites oder politisch oder gesellschaftlich inakzeptabler Inhalte.

Dennoch gibt es ein legitimes Forschungsinteresse an solchen Daten. In der Leibinz-WissenschaftsCampus DiTraRe klären wir, welche Datenkategorien für Forschungszwecke weiterverwendet werden können. Wir schlagen rechtliche, ethische und technische Lösungen vor und berücksichtigen dabei verschiedene Ebenen der Datensensibilität. 
Wir untersuchen Verfahren zur Pseudonymisierung und Anonymisierung sowie zur Verknüpfung sensibler Daten mit unkritischen Daten in verteilten Systemen der Wissensorganisation. 
Wir untersuchen das Bewusstsein der Forschenden für die damit verbundenen Sicherheits- und Datenschutzrisiken und mögliche Konsequenzen.

Comichafte Darstellung von Datenspeichern und Verlinkungen zu Datennutzungsmöglichkeiten.
USE CASE
Sensible Daten in den Sportwissenschaften

Die MO|RE-Datenplattform macht Daten zur körperlichen Fitness aus sportwissenschaftlichen Studien sowohl für die Wissenschaft als auch für die Öffentlichkeit zugänglich. Die Forschung würde stark von der Verknüpfung von Gesundheitsdaten mit Daten zur körperlichen Fitness profitieren, z. B. in Längsschnittdatensätzen. Die Veröffentlichung sensibler Gesundheitsdaten (z. B. BMI, Blutdruck) und anderer persönlicher Daten (z. B. Geolokalisierung, sozialer Status) ist jedoch eine Herausforderung. Es fehlt ein übergreifendes Konzept für den sicheren Umgang mit sensiblen Daten, das von einer vertrauenswürdigen IT-Umgebung bis hin zu ausgefeilten Zugriffsmanagement- und Prüfmechanismen reicht, die die Einhaltung gesetzlicher Vorschriften gewährleisten.

logo-more-data.png
Schemenhafte Darstellung von Datenströmen durch verschiedene Ebenen.
Research Cluster

Intelligente Datenerfassung

Dieser Research Cluster erforscht innovative technische und gesellschaftliche Methoden, Qualitätskriterien für die Datenerfassung sowie teilautomatisierte Verfahren zur Dokumentation, Analyse und Interpretation von Daten und fördert damit die Beschleunigung von Forschungsprozessen. 
Es werden die damit verbundenen Chancen und Risiken, einschließlich rechtlicher Herausforderungen im Zusammenhang mit dem Schutz des geistigen Eigentums, bewertet.

Das Chemotion Electronic Lab Notebook (ELN) wird als Testumgebung dienen, um die Effizienz der Datenerfassung und -analyse sowie die Schaffung von Vertrauen und Verantwortlichkeit zu untersuchen.

Comichafte Darstellung eines Laptops, welcher mit sämtlichen Datenquellen verbunden ist.
USE CASE
Chemotion Electronic Lab Notebook
(KIT-IBCS, Dr. Nicole Jung)

In den Chemielaboren der Hochschulen werden Laborautomatisierung und Geräteintegration nur begrenzt genutzt. Trotz aktueller Forschungsdatenrichtlinien von Geldgebern und positiver Beispiele in der Industrie zögert man, Technologien wie ELNs zu übernehmen. Zu den Bedenken gehören Abhängigkeiten von Software und Technologien, die nicht unter der Kontrolle der Wissenschaftlerinnen und Wissenschaftler stehen, fehlerhafte Methoden für die Datenzuordnung und -analyse sowie fehlende Kontrolle über die Weiterverwendung ihrer Daten.

logo-chemotion.svg
Schemenhafte Darstellung von Datenverknüpfungen.
Research Cluster

Publikationskulturen

Neue Publikationsformate jenseits der klassischen "peer-reviewed" Fachzeitschriftartikel gewinnen an Bedeutung. Datenpublikationen machen wissenschaftliche Erkenntnisse reproduzierbar und bilden die Grundlage für weitere Forschung. Software, die zur Generierung oder Interpretation von Daten verwendet wird, muss  den Datenpublikationen als Qualitätssicherungsmaßnahme beigefügt werden. Beides sollte als erstklassiger wissenschaftlicher Output verstanden werden.

Die bestehenden Publikationsinfrastrukturen sind für Daten und Software noch nicht gut geeignet. Der sich dynamisch verändernde Rechtsrahmen erfordert eine eingehende Analyse der europäischen und nationalen Datengesetze und -politiken und ihrer Auswirkungen auf neue Publikationsformate sowie der Bereitschaft der Forscher, Daten, Algorithmen und Software gemeinsam zu nutzen.

Der Übergang zu Open Science muss von einer geeigneten Kommunikationsstrategie begleitet werden, um Fehlinterpretationen von Forschungsergebnissen zu vermeiden. Sie berücksichtigt neue Kommunikationsformate und Interessengruppen wie Wissenschaftskommunikatoren oder Entscheidungsträger, um den Austausch zwischen Wissenschaft und Gesellschaft zu verbessern.

Comichafte Darstellung eines Roboters, der an vier Armen jeweils ein unterschiedliches Datenmedium hält.
USE CASE
Publikation großer Datensätze

Das KIT-IMK erzeugt und analysiert sehr große Datensätze in Chemie-Klima-Simulationen oder in Satellitendaten zur Beobachtung des Zustands der Atmosphäre. Die Veröffentlichung dieser Daten ist derzeit aufgrund ihres Umfangs sehr ineffizient. Die Wiederverwendung wird dadurch erschwert, dass Methoden fehlen, um solche Datensätze effizient zu erforschen und um ihre Relevanz für andere Forschungsfragen zu bewerten. Die Auswahl von Teilmengen von Datensätzen für die Weiterverwendung oder die Begutachtung durch Fachkollegen ist derzeit noch nicht möglich.

img-use.case-publication-large-datasets.png
Netzhafte Darstellung des menschlichen Gehirns.
Research Cluster

KI-gestützte Wissensbereiche

Maschinelles Lernen und künstliche Intelligenz sind vielversprechend, um neue Entdeckungen und Innovationen zu ermöglichen. Sie helfen bei der Bewältigung der ständig wachsenden Datenmengen und bieten Möglichkeiten zur semantischen Verknüpfung derzeit getrennter Informationen.

Sie sind jedoch auch mit Risiken verbunden, die von der rechtlichen Bewertung der Verwendung synthetischer Trainingsdaten für KI-Systeme, begrenzten oder verzerrten Trainingsdaten und Qualitätsproblemen bei der Indexierung bis hin zu mangelnder Akzeptanz bei den Nutzern aufgrund nicht überprüfbarer Entscheidungen der KI-Systeme reichen.

Dies gilt insbesondere für die sozialen, politischen und wirtschaftlichen Folgen von KI-basierten Entscheidungen, die von nicht mehr erklärbaren oder nachvollziehbaren Modellen getroffen werden („Black Boxes“).

Comichafte Darstellung eines lesenden Roboters, dessen Gehirn zu sechzig Prozent geladen ist.
USE CASE
Künstliche Intelligenz in der Biomedizintechnik
(KIT-IBT, Dr. Axel Loewe)

Das KIT-IBT entwickelt Computermodelle des menschlichen Herzens, um mit Hilfe von Software-Engineering, Algorithmik, Numerik, Signalverarbeitung und maschinellem Lernen Herz-Kreislauf-Erkrankungen früher und genauer vorherzusagen.Wir setzen KI-Methoden ein, die auf rein synthetischen oder hybriden (simulierten + klinischen) Datensätzen trainiert werden, um Krankheitsmechanismen zu entschlüsseln. Simulierte Daten sind oft unerlässlich, um Probleme des Datenschutzes und bestehende Verzerrungen in den meisten verfügbaren Datensätzen zu überwinden, werfen aber Fragen der Erklärbarkeit von KI-Entscheidungen und des Vertrauens auf.

img-artificial-intelligence-biomedical-engineering.png