Subword-based Neural Machine Translation for low-resource fusion languages

Gezmu, Andargachew Mekonnen

Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/103828

Full metadata record

DC Field	Value	Language
dc.contributor.referee	Nürnberger, Andreas	-
dc.contributor.referee	De Luca, Ernesto William	-
dc.contributor.author	Gezmu, Andargachew Mekonnen	-
dc.date.accessioned	2023-06-20T06:17:48Z	-
dc.date.available	2023-06-20T06:17:48Z	-
dc.date.issued	2023	-
dc.date.submitted	2022	-
dc.identifier.uri	https://opendata.uni-halle.de//handle/1981185920/105783	-
dc.identifier.uri	http://dx.doi.org/10.25673/103828	-
dc.description.abstract	Neural approaches, which are currently state-of-the-art in many areas, have contributed significantly to the exciting advancements in machine translation. However, Neural Machine Translation (NMT) requires a substantial quantity and good quality training data or parallel corpus to train the best models. A large amount of training data, in turn, increases the underlying vocabulary exponentially. Therefore, several proposed methods have been devised for relatively limited vocabulary due to constraints of computing resources such as system memory. Encoding words as sequences of subword units for so-called open-vocabulary translation is an effective strategy for solving this problem. However, the conventional methods for splitting words into subwords focus on statistics-based approaches that mainly cater to agglutinative languages. In these languages, the morphemes have relatively clean boundaries. These methods still need to be thoroughly investigated for their applicability to fusion languages, which is the main focus of this dissertation. Phonological and orthographic processes alter the borders of constituent morphemes of a word in fusion languages. Therefore, it makes it difficult to distinguish the actual morphemes that carry syntactic or semantic information from the word’s surface form, the form of the word as it appears in the text. We, thus, resorted to a word segmentation method that segments words by restoring the altered morphemes. Additionally, in order to meet the enormous data demands of NMT, we created a new dataset for a low-resource language. Moreover, we optimized the hyperparameters of an NMT system to train optimally performing models in low-data conditions. We also compared conventional and morpheme-based NMT subword models. We could prove that morpheme-based models outperform conventional subword models on benchmark datasets.	eng
dc.description.abstract	Neuronale Ansätze, die derzeit in vielen Bereichen den Stand der Technik darstellen, haben wesentlich zu den spannenden Fortschritten in der maschinellen Übersetzung beigetragen. Die Neuronale Maschinelle Übersetzung (NMÜ) erfordern jedoch eine große Menge und qualitativ hochwertige Trainingsdaten oder einen parallelen Korpus, um die besten Modelle zu trainieren. Eine große Menge an Trainingsdaten wiederum vergrößert den zugrunde liegenden Wortschatz exponentiell. Daher wurden mehrere Methoden aufgrund begrenzter Computerresourcen — wie z.B. Systemspeicher — für ein relativ begrenztes Vokabular entwickelt. Die Kodierung von Wörtern als Sequenzen von Teilworteinheiten für die so genannte Übersetzung mit offenem Vokabular ist eine effektive Strategie zur Lösung dieses Problems. Die herkömmlichen Methoden zur Aufteilung von Wörtern in Teilwörter konzentrieren sich jedoch auf statistikbasierte Ansätze, die hauptsächlich für agglutinierende Sprachen geeignet sind. In diesen Sprachen haben die Morpheme relativ klare Grenzen. Diese Methoden müssen noch gründlich auf ihre Anwendbarkeit in Fusionssprachen untersucht werden, die im Mittelpunkt dieser Dissertation stehen. Phonologische und orthographische Prozesse verändern die Grenzen der konstituierenden Morpheme eines Wortes in Fusionssprachen. Daher ist es schwierig, die eigentlichen Morpheme, die syntaktische oder semantische Informationen tragen, von der Oberflächenform des Wortes, d. h. der Form des Wortes, wie es im Text vorkommt, zu unterscheiden. Wir haben daher auf eine Wortsegmentierungsmethode zurückgegriffen, die Wörter durch Wiederherstellung der veränderten Morpheme segmentiert. Um den enormen Datenanforderungen der NMÜ gerecht zu werden, haben wir außerdem einen neuen Datensatz für eine Sprache mit geringen Ressourcen erstellt. Darüber hinaus optimierten wir die Hyperparameter eines NMÜ-Systems, um unter datenarmen Bedingungen optimal funktionierende Modelle zu trainieren. Des Weiterem verglichen wir konventionelle und Morphembasierte NMÜ-Unterwortmodelle. Wir konnten nachweisen, dass Morphem basierte Modelle die konventionellen Teilwortmodelle in Benchmark Datensätzen übertreffen.	ger
dc.format.extent	viii, 118 Seiten	-
dc.language.iso	eng	-
dc.rights.uri	https://creativecommons.org/licenses/by-sa/4.0/	-
dc.subject	Sprachverarbeitung	ger
dc.subject	Übersetzungswissenschaft	ger
dc.subject	Künstliche Intelligenz	ger
dc.subject	Neural Machine Translation	eng
dc.subject.ddc	006.35	-
dc.title	Subword-based Neural Machine Translation for low-resource fusion languages	eng
dcterms.dateAccepted	2023	-
dcterms.type	Hochschulschrift	-
dc.type	PhDThesis	-
dc.identifier.urn	urn:nbn:de:gbv:ma9:1-1981185920-1057830	-
local.versionType	acceptedVersion	-
local.publisher.universityOrInstitution	Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik	-
local.openaccess	true	-
dc.identifier.ppn	1850580863	-
local.publication.country	XA-DE-ST	-
cbs.sru.importDate	2023-06-20T06:12:51Z	-
local.accessrights.dnb	free	-
Appears in Collections:	Fakultät für Informatik

Files in This Item:

File	Description	Size	Format
Gezmu_Andargachew_Mekonnen_Dissertation_2023.pdf	Dissertation	1.92 MB	Adobe PDF	View/Open

Show simple item record BibTeX EndNote