Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/13765
Title: Exploiting background knowledge on evolving objects to identify relevant dimensions for classification
Author(s): Hielscher, Tommy
Referee(s): Spiliopoulou, Myra
Preim, Bernhard
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date: 2019
Type: PhDThesis
Exam Date: 2019
Language: English
Publisher: Otto von Guericke University Library, Magdeburg, Germany
URN: urn:nbn:de:gbv:ma9:1-1981185920-138763
Subjects: Künstliche Intelligenz
Abstract: Classification models are widely used in a plethora of different applications to automatically assign objects into one of several pre-defined categories. Typically, objects are represented by multi-dimensional feature vectors and classification models are induced by learning associations between features and the class variable from a set of objects where the class is known. In reality, objects can be complex, change over time and may come with additional background and metainformation. Standard classification algorithms and work ows often do not fully use certain types of information about objects, or do not use specific kinds of background knowledge at all, to detect the dimensions that are actually relevant w.r.t. the target concept. This can lead to the inclusion of irrelevant feature into models, possibly leading to sub-par performance. Therefore, identifying the dimensions that are relevant w.r.t. the target concept is essential in many domains to produce quality classification models and provide experts the possibility to deepen domain understanding. We argue that different type of background knowledge can be utilized to overcome this challenge. In this thesis, we propose a framework that exploits three kinds of background knowledge to identify relevant implicit and explicit dimensions of evolving objects. The first component exploits ground truth (classlabel data) about the target concept and historical records to extract the dimensionality that is implicitly given by an object's evolution and codify this knowledge into new features. The framework detects clusters of similar concept related patterns in the historical sequence of the objects feature-values and abstracts them into nominal features. It further analyzes and codifies statistics from the evolution of single objects and groups of similar objects. The second framework component presents our constraint-based subspace selection algorithm DRESS, which detects a set of relevant features from the set of explicit object features. For this, DRESS utilizes background knowledge in the form of similarity constraints between objects to rank feature subspaces according to their relevance regarding the target concept. DRESS prefers feature subspaces where objects under similarity constraints exhibit small distances and are members of the same cluster, and where objects under dissimilarity constraints exhibit high distances and are members of different clusters. Additionally, our framework contains a component where the results of DRESS can be validated on independent datasets. First, for the validation, both datasets are made comparable by only retaining the instances with similar distribution in selected covariates. Then, clusters found by DRESS that were used for the decision on relevant features are transferred on the validation dataset. Finally, the validation component accesses whether the transferred clusters exhibit similar class distribution and size compared to the original ones. Our framework is evaluated on real-world epidemiological study data. We show the impact on classifier performance of the several framework components for different base classifiers: It is investigated to what extend the proposed methods enhance base classifier performance when deriving new features from an object's (or groups of objects) evolution. We evaluate the classifier performance when using the feature subspaces derived by DRESS in comparison to the feature sets proposed by traditional feature selection approaches. Further, we investigate whether literature supports findings of our framework w.r.t. the identified associations between features and target concept. Results show that the features derived by the first framework component enhance the majority of investigated base classifiers and are used by all variants that achieved best overall performance on their respective dataset. Regarding the selection of feature subsets, DRESS is the most stable feature selection algorithm in our evaluation as it identifies feature subsets that improve the performance of all base classifiers and that produce consistently competitive performance across all evaluated datasets, classification algorithms and training data subsets.
Klassifikationsmodelle werden in vielen unterschiedlichen Szenarien verwendet, um automatisch Objekte zu einer von mehreren vordefinierten Kategorien zuzuordnen. Typischerweise werden solche Objekte durch multi-dimensionale Feature-Vektoren beschrieben, wobei die Klassifikationsmodelle durch Erlernen der Zusammenhänge zwischen den Features und der Klassenvariable, von Objekten mit bekannter Klassenzugehörigkeit, induziert werden. In der Realität können Objekte komplex, sich verändernd über die Zeit und möglicherweise mit zusätzlichen Hintergrund- und Metainformationen assoziiert sein. Traditionelle Klassifikationsmethoden und -abläufe verwenden häuig bestimmte Arten von verfügbaren Objektinformationen nicht, oder nicht vollständig, um die Dimensionen zu ermitteln die eine Relevanz bzgl. des Zielkonzepts aufweisen. Dies kann zur Inklusion von irrelevanten Features in Klassifikationsmodellen führen, und damit zu unterdurchschnittlicher Klassifikationsperformanz. Zur Erstellung von qualitativen Klassifikationsmodellen und der Vertiefung des Domänenwissens von Experten ist es daher essentiell die Dimensionen zu identifizieren welche relevant für das Zielkonzept sind. Wir argumentieren, dass unterschiedlichen Arten von Hintergrundwissen über evolvierende Objekte genutzt werden können, um dieses Problem zu lösen. In dieser Dissertationsschrift schlagen wir ein Framework vor, welches drei verschiedene Arten von Hintergrundwissen nutzt um relevante implizite und explizite Dimensionen von evolvierenden Objekten zu identifizieren. Die erste Framework-Komponente verwendet Ground Truth (Klassen-Label Daten) uber das Zielkonzept und historische Datensätze der Objekte, um die implizite Dimensionalität, gegeben durch die Objektevolution, zu explizieren und dieses Wissen anschließend in neuen Features zu kodifizieren. Das Framework erkennt Cluster von ähnlichen, konzeptrelevanten Mustern in der Historie der Feature- Werte von Objekten und abstrahiert diese durch nominale Features. Weiterhin werden Evolutionsstatistiken von einzelnen Objekten und Objektgruppen analysiert und kodifiziert. Die zweite Framework-Komponente präsentiert unseren eigens entwickelten Constraint-basierten Subspace Selection Algorithmus DRESS, welcher eine Untermenge von relevanten Features von der Menge aller explizit gegeben Objekt-Features selektiert. Hierfür verwendet DRESS Hintergrundwissen über die Ähnlichkeit zwischen verschiedenen Objekten, um Feature-Räume entsprechend ihrer Zielkonzeptrelevanz zu bewerten. DRESS bevorzugt dabei Feature-Unterräume in denen Objekte unter Ähnlichkeits-Constraints kleine Distanzen aufweisen und identischen Clustern zugeordnet sind, und in denen Objekte unter Unähnlichkeits-Constraints hohe Distanzen zueinander aufweisen und unterschiedlichen Clustern zugeordnet sind. Zusätzlich beinhaltet unser Framework eine Komponente zur Validierung der Ergebnisse von DRESS auf unabhängigen Datensätzen. Hierzu werden der ursprüngliche Datensatz und der Validierungsdatensatz auf die Objekte reduziert, welche eine ähnliche Verteilung bzgl. vordefinierter Kovariaten aufweisen. Danach werden die Cluster, auf deren Grundlage DRESS die Relevanz von Feature-Unterräumen bewertet hat, auf den Validierungsdatensatz übertragen. Schlussendlich evaluiert die Validierungskomponente ob die übertragenden Cluster eine ähnliche Klassenverteilung und Größe, verglichen mit den ursprünglichen Clustern, aufweisen. Unser Framework wird auf epidemiologischen Studiendaten evaluiert. Wir zeigen den Einfluss der verschiedenen Framework-Komponenten auf die Klassifikationsperformanz unterschiedlicher Basisklassifikatoren: Es wird untersucht inwieweit die vorgeschlagenen Methoden die Performanz der Basisklassifikatoren verbessern, wenn neue Features aus der Evolution einzelner Objekte, oder ganzer Objektgruppen, abgeleitet werden. Wir evaluieren die Klassifikatorperformanz bei Nutzung der von DRESS identifizierten Feature-Räume im Vergleich zu den Feature- Mengen die durch traditionelle Feature-Selection Algorithmen gefunden werden. Weiterhin wird untersucht ob die Literatur die durch unser Framework erzielten Ergebnisse, bzgl. der identifizierten Assoziationen zwischen Features und Zielkonzept, unterstützt. Die Ergebnisse zeigen dass Features welche durch die erste Framework- Komponente abgeleitet wurden, eine Verbesserung der Performanz eines Großteils der untersuchten Basisklassifikatoren erzielen, und dass diese Features von allen Varianten verwendet werden welche die insgesamt beste Performanz auf den unterschiedlichen Datensätzen erreichen. Zudem konnte DRESS im Hinblick auf die Selektion relevanter Feature- Unterräume die stabilsten Ergebnisse erzielen: DRESS identifiziert Feature-Räume welche die Performanz der Basisklassifikatoren verbessert und welche konsistent konkurrenzfähige Performanz über alle evaluierten Datensätze, Klassifikationsalgorithmen und Trainingsdaten-Mengen erzielen.
URI: https://opendata.uni-halle.de//handle/1981185920/13876
http://dx.doi.org/10.25673/13765
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Hielscher_Tommy_Dissertation_2019.pdfDissertation4.73 MBAdobe PDFThumbnail
View/Open