Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen:
http://dx.doi.org/10.25673/37453
Titel: | Intelligent assistance for expert-driven subpopulation discovery in high-dimensional timestamped medical data |
Autor(en): | Niemann, Uli |
Gutachter: | Spiliopoulou, Myra Preim, Bernhard |
Körperschaft: | Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |
Erscheinungsdatum: | 2021 |
Umfang: | ix, 185 Seiten |
Typ: | Hochschulschrift |
Art: | Dissertation |
Tag der Verteidigung: | 2021 |
Sprache: | Englisch |
URN: | urn:nbn:de:gbv:ma9:1-1981185920-376960 |
Schlagwörter: | Künstliche Intelligenz Angewandte Informatik |
Zusammenfassung: | Subpopulation discovery is an essential objective of data analysis in medical research
and contributes to the prevention and treatment of adverse medical conditions.
Characteristic subpopulations are detected, for example, by identifying long-term
determinants of diseases or by revealing patient subgroups with differential responses
to treatment.
Traditional medical data analysis has been mostly hypothesis-driven. With the
increasing volume and heterogeneity of medical data, these workflows are becoming
impractical, as important relationships between variables may go undetected.
Besides, medical studies often involve measurements that are collected repeatedly
over time. Investigating hidden temporal information can potentially lead to new
insights. While machine learning has the potential of automatically detecting previously
unknown subpopulations, the results of complex black-box models must
be made understandable. Therefore, the medical expert must be equipped with
tools to understand, explore, and visualize the models, breaking down individual
patterns to extract actionable insights.
This thesis proposes machine learning-based solutions for expert-driven subpopulation
discovery in high-dimensional timestamped medical data.
The first part presents workflows to detect comprehensible and distinct subpopulations
described by classification rules and clusters. We present novel visualizations
and interactive tools to inspect and juxtapose the high-dimensional subpopulations
and compare their change over time.
The second part covers workflows to exploit temporal information. We present a
framework to extract evolution features that characterize the subpopulations’ change
over time. Furthermore, we provide a method to build representations from short
temporal sequences.
The third part addresses the topic of post-hoc interpretation of complex black-box
models. We propose an end-to-end data analysis workflow that includes steps for
data augmentation, modeling, nesting model training with feature elimination,
and post-hoc analysis of the trained models. This workflow returns statistics and
visualizations representing global feature importance, instance-individual feature
importance, and subpopulation-specific feature importance for a machine learning
model of any type. Besides, we provide a solution for visualizing differences
between two a priori defined subpopulations.
The proposed methods are evaluated with datasets from four medical studies:
• a longitudinal population study,
• an observational therapy study with data on self-report questionnaire responses
from tinnitus patients,
• a clinical experiment with timestamped plantar pressure and temperature
recordings from diabetes patients and healthy volunteers, and
• a retrospective clinical study with image data on intracranial aneurysms. Die Entdeckung von Subpopulationen stellt ein wesentliches Ziel der Datenanalyse in der medizinischen Forschung dar und trägt zur Vorbeugung und Behandlung von Erkrankungen bei. Charakteristische Subpopulationen werden beispielsweise durch die Identifizierung von Langzeitdeterminanten von Krankheiten oder durch die Bestimmung von Patientensubgruppen mit differenziellem Ansprechen auf eine Behandlung entdeckt. Die traditionelle medizinische Datenanalyse war bisher überwiegend hypothesengetrieben. Mit der zunehmenden Menge und Heterogenität medizinischer Daten werden diese Workflows zunehmend ungeeignet, da wichtige Beziehungen zwischen Variablen unentdeckt bleiben können. Außerdem beinhalten medizinische Studien oft Messungen, die im Laufe der Zeit wiederholt erhoben werden. Das Extrahieren verborgener zeitlicher Informationen kann potenziell zu neuen Erkenntnissen führen. Während maschinelles Lernen das Potenzial hat, bisher unbekannte Subpopulationen automatisch zu erkennen, müssen die Ergebnisse komplexer Black-Box-Modelle verständlich gemacht werden. Dies erfordert, medizinische Expertinnen und Experten mit Werkzeugen auszustatten, die es ihnen ermöglichen, die Modelle zu interpretieren, zu explorieren und zu visualisieren, um individuelle Muster aufzuschlüsseln und daraus handlungsrelevante Erkenntnisse zu gewinnen. In dieser Arbeit werden auf maschinellem Lernen basierende Lösungen für die expertengesteuerte Entdeckung von Subpopulationen in hochdimensionalen, zeitgestempelten medizinischen Daten vorgeschlagen. Der erste Teil stellt Workflows vor, um verständliche und unterscheidbare Subpopulationen zu erkennen, die durch Klassifikationsregeln und Cluster beschrieben werden. Wir stellen neuartige Visualisierungen und interaktive Werkzeuge vor, um die hochdimensionalen Subpopulationen zu inspizieren und gegenüberzustellen sowie ihre Veränderung über die Zeit zu vergleichen. Der zweite Teil befasst sich mit Workflows zur Modellierung zeitlicher Informationen. Wir stellen ein Framework zur Extrahierung von Evolutionsvariablen vor, die die zeitliche Veränderung der Subpopulationen beschreiben. Außerdem wird ein Verfahren zur Erstellung von Repräsentationen aus kurzen zeitlichen Sequenzen vorgestellt. Der dritte Teil befasst sich mit dem Thema der Post-hoc-Interpretation von komplexen Black-Box-Modellen. Wir stellen einen Ende-zu-Ende-Datenanalyse-Workflow vor, der Schritte zur Datenanreicherung, Modellierung, Verzahnung von Modelltraining mit Variablen-Eliminierung und Post-hoc-Analyse der trainierten Modelle umfasst. Dieser Workflow liefert Kenngrößen und Visualisierungen, die die globale, instanz-individuelle und subpopulationsspezifische Variablenbedeutsamkeit für ein maschinelles Lernmodell jedweden Typs darstellen. Außerdem wird eine Visualisierung von Unterschieden zwischen zwei apriorisch definierten Subpopulationen präsentiert. Die vorgeschlagenen Methoden werden anhand von Datensätzen aus vier medizinischen Studien evaluiert: • eine longitudinale Bevölkerungsstudie, • eine beobachtende Therapiestudie mit Daten zu Selbstbeurteilungsfragebögen von Tinnitus-Patienten, • ein klinisches Experiment mit zeitgestempelten Plantardruck- und Temperaturaufzeichnungen von Diabetes-Patienten und gesunden Probanden, und • eine retrospektive klinische Studie mit Bilddaten zu intrakraniellen Aneurysmen. |
URI: | https://opendata.uni-halle.de//handle/1981185920/37696 http://dx.doi.org/10.25673/37453 |
Open-Access: | Open-Access-Publikation |
Nutzungslizenz: | (CC BY-SA 4.0) Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International |
Enthalten in den Sammlungen: | Fakultät für Informatik |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
Niemann_Uli_Dissertation_2021.pdf | Dissertation | 10.55 MB | Adobe PDF | Öffnen/Anzeigen |