Towards efficient and effective entity resolution for high-volume and variable data

Chen, Xiao

Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/35204

Title:	Towards efficient and effective entity resolution for high-volume and variable data
Author(s):	Chen, Xiao
Referee(s):	Saake, Gunter
Granting Institution:	Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date:	2020
Extent:	xviii, 148 Seiten
Type:	Hochschulschrift
Type:	PhDThesis
Exam Date:	2020
Language:	English
URN:	urn:nbn:de:gbv:ma9:1-1981185920-354140
Subjects:	Datenbanken
Abstract:	Entity Resolution (ER), as a process to identify records that refer to the same realworld entity, faces challenges that big data has brought to it. On the one hand, high-volume data forces ER to use blocking and parallel computation to improve ef- ficiency and scalability. In this scenario, we identify three limitations: First, facing abundant research on parallel ER, a thorough survey to overview the current state and expose research gaps is missing. Second, efficiency impacts by choosing di erent implementation options from big data processing frameworks are unknown. Last, an in-depth analysis and comparison of the state-of-the-art block-splitting-based load balancing strategies are not provided. Therefore, correspondingly, we first conducted a systematic literature review on parallel ER and report our findings. Then we explore three Spark implementations of two scenarios of a conventional ER process and expose their respective efficiency and speed-up. Last, we theoretically analyze and compare two state-of-the-art block-splitting-based load balancing strategies, propose two improved strategies, and then empirically evaluate them to conclude the important factors for a block-splitting-based load balancing strategy. On the other hand, facing variable data, we identify two shortcomings. First, confronting variable data with di erent types of attributes, word-embedding-based similarity calculation can provide uniform solutions, but the e ectiveness may be lowered for attributes without semantics. Second, facing variable data from broad domains, training data required for learning-based classification may not be available leading to expensive human labeling costs. Existing committee-based active learning approaches for ER to reduce human labeling costs cannot provide balanced and informative initial training data and compromise the accuracy of their committees to provide di erent classification voting results. Therefore, correspondingly, we first propose a hybrid similarity calculation approach by choosing traditional syntactic-based or word-embedding-based similarity measures based on the properties of attributes to achieve higher e ectiveness. Then we propose HeALER to overcome the aforementioned drawbacks of committee-based active learning ER approaches. We empirically demonstrate the improvements of our proposed approaches on both real and synthetic datasets. Die Entitätsauﬂösung als ein Prozess zur Identiﬁzierung von Datensätzen, die sich auf dieselbe reale Entität beziehen, steht vor Herausforderungen, die Big Data mit sich gebracht hat. Einerseits zwingt die großvolumige Data die Entitätsauﬂösung dazu, blockbasierte und parallele Berechnung zu verwenden, um die Eﬃzienz und Skalierbarkeit zu verbessern. In diesem Szenario werden drei Einschränkungen fest-gestellt: Erstens, angesichts der umfangreichen Forschung zur paralleler Entität-sauﬂösung fehlt eine gründliche Umfrage, um den aktuellen Forschungsstand zu erhalten und Forschungslücken aufzudecken. Zweitens sind Auswirkungen auf die Eﬃzienz den verschiedenen Implementierungsoptionen aus Big-Data-Verarbeitungs-Frameworks nicht bekannt. Schließlich wird der eingehende Vergleich der block-aufteilungsbasierte Lastausgleichsstrategien nicht bereitgestellt. Dementsprechend führten wir zunächst eine systematische Literaturrecherche zur parallelen Entität-sauﬂösung durch. Anschließend untersuchen wir drei Spark Implementierungen von zwei Szenarien eines herkömmlichen Entitätsauﬂösungsprozesses, um deren jeweilige Eﬃzienz zu bewerten. Zuletzt analysieren und vergleichen wir theoretisch zwei typische blockaufteilungbasierte Lastausgleichsstrategien, schlagen zwei verbesserte Strategien vor und bewerten sie umfassend, um die wichtigen Faktoren für eine blockaufteilungbasierte Lastausgleichsstrategie zu ermitteln. Auf der anderen Seite stellen wir angesichts variabler Daten zwei Mängel fest. Erstens kann die worteinbet-tungsbasierte ähnlichkeitsberechnung einheitliche Lösungen liefern, wenn vielfaltige Daten mit unterschiedlichen Attributtypen konfrontiert werden. Die Eﬀektivität kann jedoch für Attribute ohne Semantik verringert sein. Zweitens sind angesichts vielfältiger Daten aus weiten Bereichen möglicherweise keine Trainingsdaten ver-fügbar, die für den lernbasierten Klassiﬁzierungsschritt erforderlich sind, was zu teuren Kennzeichungskosten führt. Bestehende komitee-basierte Aktiveslernensan-sätze für die Entitätsauﬂösung zur Reduzierung der Kennzeichungskosten können keine ausgewogenen und informativen Daten für die erste Trainingsdaten liefern und die Wirksamkeit ihrer Komitee für unterschiedliche Abstimmungsergebnisse der Klassiﬁzierung kompromittieren. Dementsprechend schlagen wir daher zunächst einen hybriden ähnlichkeitsberechnung vor, indem wir traditionelle syntaktische oder worteinbettungsbasierte ähnlichkeitsmaße basierend auf den Eigenschaften von Attributen auswählen, um eine höhere Eﬀektivität zu erzielen. Dann schlagen wir auf heterogenen Komitees basierenden Ansatz für aktives Lernen (HeALER) vor, um die oben genannten Nachteile zu. Wir demonstrieren empirisch die Verbesserungen unserer vorgeschlagenen Ansätze sowohl für reale als auch für synthetische Daten-sätze.
URI:	https://opendata.uni-halle.de//handle/1981185920/35414 http://dx.doi.org/10.25673/35204
Open Access:	Open access publication
License:	(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:	Fakultät für Informatik

Files in This Item:

File	Description	Size	Format
Chen_ Xiao_Dissertation_2020.pdf	Dissertation	4.89 MB	Adobe PDF	View/Open

Show full item record BibTeX EndNote