Intelligent assistance for expert-driven subpopulation discovery in high-dimensional timestamped medical data

Niemann, Uli

Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/37453

Full metadata record

DC Field	Value	Language
dc.contributor.referee	Spiliopoulou, Myra	-
dc.contributor.referee	Preim, Bernhard	-
dc.contributor.author	Niemann, Uli	-
dc.date.accessioned	2021-07-26T12:42:03Z	-
dc.date.available	2021-07-26T12:42:03Z	-
dc.date.issued	2021	-
dc.date.submitted	2021	-
dc.identifier.uri	https://opendata.uni-halle.de//handle/1981185920/37696	-
dc.identifier.uri	http://dx.doi.org/10.25673/37453	-
dc.description.abstract	Subpopulation discovery is an essential objective of data analysis in medical research and contributes to the prevention and treatment of adverse medical conditions. Characteristic subpopulations are detected, for example, by identifying long-term determinants of diseases or by revealing patient subgroups with differential responses to treatment. Traditional medical data analysis has been mostly hypothesis-driven. With the increasing volume and heterogeneity of medical data, these workflows are becoming impractical, as important relationships between variables may go undetected. Besides, medical studies often involve measurements that are collected repeatedly over time. Investigating hidden temporal information can potentially lead to new insights. While machine learning has the potential of automatically detecting previously unknown subpopulations, the results of complex black-box models must be made understandable. Therefore, the medical expert must be equipped with tools to understand, explore, and visualize the models, breaking down individual patterns to extract actionable insights. This thesis proposes machine learning-based solutions for expert-driven subpopulation discovery in high-dimensional timestamped medical data. The first part presents workflows to detect comprehensible and distinct subpopulations described by classification rules and clusters. We present novel visualizations and interactive tools to inspect and juxtapose the high-dimensional subpopulations and compare their change over time. The second part covers workflows to exploit temporal information. We present a framework to extract evolution features that characterize the subpopulations’ change over time. Furthermore, we provide a method to build representations from short temporal sequences. The third part addresses the topic of post-hoc interpretation of complex black-box models. We propose an end-to-end data analysis workflow that includes steps for data augmentation, modeling, nesting model training with feature elimination, and post-hoc analysis of the trained models. This workflow returns statistics and visualizations representing global feature importance, instance-individual feature importance, and subpopulation-specific feature importance for a machine learning model of any type. Besides, we provide a solution for visualizing differences between two a priori defined subpopulations. The proposed methods are evaluated with datasets from four medical studies: • a longitudinal population study, • an observational therapy study with data on self-report questionnaire responses from tinnitus patients, • a clinical experiment with timestamped plantar pressure and temperature recordings from diabetes patients and healthy volunteers, and • a retrospective clinical study with image data on intracranial aneurysms.	eng
dc.description.abstract	Die Entdeckung von Subpopulationen stellt ein wesentliches Ziel der Datenanalyse in der medizinischen Forschung dar und trägt zur Vorbeugung und Behandlung von Erkrankungen bei. Charakteristische Subpopulationen werden beispielsweise durch die Identifizierung von Langzeitdeterminanten von Krankheiten oder durch die Bestimmung von Patientensubgruppen mit differenziellem Ansprechen auf eine Behandlung entdeckt. Die traditionelle medizinische Datenanalyse war bisher überwiegend hypothesengetrieben. Mit der zunehmenden Menge und Heterogenität medizinischer Daten werden diese Workflows zunehmend ungeeignet, da wichtige Beziehungen zwischen Variablen unentdeckt bleiben können. Außerdem beinhalten medizinische Studien oft Messungen, die im Laufe der Zeit wiederholt erhoben werden. Das Extrahieren verborgener zeitlicher Informationen kann potenziell zu neuen Erkenntnissen führen. Während maschinelles Lernen das Potenzial hat, bisher unbekannte Subpopulationen automatisch zu erkennen, müssen die Ergebnisse komplexer Black-Box-Modelle verständlich gemacht werden. Dies erfordert, medizinische Expertinnen und Experten mit Werkzeugen auszustatten, die es ihnen ermöglichen, die Modelle zu interpretieren, zu explorieren und zu visualisieren, um individuelle Muster aufzuschlüsseln und daraus handlungsrelevante Erkenntnisse zu gewinnen. In dieser Arbeit werden auf maschinellem Lernen basierende Lösungen für die expertengesteuerte Entdeckung von Subpopulationen in hochdimensionalen, zeitgestempelten medizinischen Daten vorgeschlagen. Der erste Teil stellt Workflows vor, um verständliche und unterscheidbare Subpopulationen zu erkennen, die durch Klassifikationsregeln und Cluster beschrieben werden. Wir stellen neuartige Visualisierungen und interaktive Werkzeuge vor, um die hochdimensionalen Subpopulationen zu inspizieren und gegenüberzustellen sowie ihre Veränderung über die Zeit zu vergleichen. Der zweite Teil befasst sich mit Workflows zur Modellierung zeitlicher Informationen. Wir stellen ein Framework zur Extrahierung von Evolutionsvariablen vor, die die zeitliche Veränderung der Subpopulationen beschreiben. Außerdem wird ein Verfahren zur Erstellung von Repräsentationen aus kurzen zeitlichen Sequenzen vorgestellt. Der dritte Teil befasst sich mit dem Thema der Post-hoc-Interpretation von komplexen Black-Box-Modellen. Wir stellen einen Ende-zu-Ende-Datenanalyse-Workflow vor, der Schritte zur Datenanreicherung, Modellierung, Verzahnung von Modelltraining mit Variablen-Eliminierung und Post-hoc-Analyse der trainierten Modelle umfasst. Dieser Workflow liefert Kenngrößen und Visualisierungen, die die globale, instanz-individuelle und subpopulationsspezifische Variablenbedeutsamkeit für ein maschinelles Lernmodell jedweden Typs darstellen. Außerdem wird eine Visualisierung von Unterschieden zwischen zwei apriorisch definierten Subpopulationen präsentiert. Die vorgeschlagenen Methoden werden anhand von Datensätzen aus vier medizinischen Studien evaluiert: • eine longitudinale Bevölkerungsstudie, • eine beobachtende Therapiestudie mit Daten zu Selbstbeurteilungsfragebögen von Tinnitus-Patienten, • ein klinisches Experiment mit zeitgestempelten Plantardruck- und Temperaturaufzeichnungen von Diabetes-Patienten und gesunden Probanden, und • eine retrospektive klinische Studie mit Bilddaten zu intrakraniellen Aneurysmen.	ger
dc.format.extent	ix, 185 Seiten	-
dc.language.iso	eng	-
dc.rights.uri	https://creativecommons.org/licenses/by-sa/4.0/	-
dc.subject	Künstliche Intelligenz	ger
dc.subject	Angewandte Informatik	ger
dc.subject.ddc	006.31	-
dc.title	Intelligent assistance for expert-driven subpopulation discovery in high-dimensional timestamped medical data	eng
dcterms.dateAccepted	2021	-
dcterms.type	Hochschulschrift	-
dc.type	PhDThesis	-
dc.identifier.urn	urn:nbn:de:gbv:ma9:1-1981185920-376960	-
local.versionType	acceptedVersion	-
local.publisher.universityOrInstitution	Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik	-
local.openaccess	true	-
dc.identifier.ppn	1764455266	-
local.publication.country	XA-DE-ST	-
cbs.sru.importDate	2021-07-26T12:39:04Z	-
local.accessrights.dnb	free	-
Appears in Collections:	Fakultät für Informatik

Files in This Item:

File	Description	Size	Format
Niemann_Uli_Dissertation_2021.pdf	Dissertation	10.55 MB	Adobe PDF	View/Open

Show simple item record BibTeX EndNote