Subword-based Neural Machine Translation for low-resource fusion languages

Gezmu, Andargachew Mekonnen

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.25673/103828

Titel:	Subword-based Neural Machine Translation for low-resource fusion languages
Autor(en):	Gezmu, Andargachew Mekonnen
Gutachter:	Nürnberger, Andreas De Luca, Ernesto William
Körperschaft:	Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Erscheinungsdatum:	2023
Umfang:	viii, 118 Seiten
Typ:	Hochschulschrift
Art:	Dissertation
Datum der Verteidigung:	2023
Sprache:	Englisch
URN:	urn:nbn:de:gbv:ma9:1-1981185920-1057830
Schlagwörter:	Sprachverarbeitung Übersetzungswissenschaft Künstliche Intelligenz Neural Machine Translation
Zusammenfassung:	Neural approaches, which are currently state-of-the-art in many areas, have contributed significantly to the exciting advancements in machine translation. However, Neural Machine Translation (NMT) requires a substantial quantity and good quality training data or parallel corpus to train the best models. A large amount of training data, in turn, increases the underlying vocabulary exponentially. Therefore, several proposed methods have been devised for relatively limited vocabulary due to constraints of computing resources such as system memory. Encoding words as sequences of subword units for so-called open-vocabulary translation is an effective strategy for solving this problem. However, the conventional methods for splitting words into subwords focus on statistics-based approaches that mainly cater to agglutinative languages. In these languages, the morphemes have relatively clean boundaries. These methods still need to be thoroughly investigated for their applicability to fusion languages, which is the main focus of this dissertation. Phonological and orthographic processes alter the borders of constituent morphemes of a word in fusion languages. Therefore, it makes it difficult to distinguish the actual morphemes that carry syntactic or semantic information from the word’s surface form, the form of the word as it appears in the text. We, thus, resorted to a word segmentation method that segments words by restoring the altered morphemes. Additionally, in order to meet the enormous data demands of NMT, we created a new dataset for a low-resource language. Moreover, we optimized the hyperparameters of an NMT system to train optimally performing models in low-data conditions. We also compared conventional and morpheme-based NMT subword models. We could prove that morpheme-based models outperform conventional subword models on benchmark datasets. Neuronale Ansätze, die derzeit in vielen Bereichen den Stand der Technik darstellen, haben wesentlich zu den spannenden Fortschritten in der maschinellen Übersetzung beigetragen. Die Neuronale Maschinelle Übersetzung (NMÜ) erfordern jedoch eine große Menge und qualitativ hochwertige Trainingsdaten oder einen parallelen Korpus, um die besten Modelle zu trainieren. Eine große Menge an Trainingsdaten wiederum vergrößert den zugrunde liegenden Wortschatz exponentiell. Daher wurden mehrere Methoden aufgrund begrenzter Computerresourcen — wie z.B. Systemspeicher — für ein relativ begrenztes Vokabular entwickelt. Die Kodierung von Wörtern als Sequenzen von Teilworteinheiten für die so genannte Übersetzung mit offenem Vokabular ist eine effektive Strategie zur Lösung dieses Problems. Die herkömmlichen Methoden zur Aufteilung von Wörtern in Teilwörter konzentrieren sich jedoch auf statistikbasierte Ansätze, die hauptsächlich für agglutinierende Sprachen geeignet sind. In diesen Sprachen haben die Morpheme relativ klare Grenzen. Diese Methoden müssen noch gründlich auf ihre Anwendbarkeit in Fusionssprachen untersucht werden, die im Mittelpunkt dieser Dissertation stehen. Phonologische und orthographische Prozesse verändern die Grenzen der konstituierenden Morpheme eines Wortes in Fusionssprachen. Daher ist es schwierig, die eigentlichen Morpheme, die syntaktische oder semantische Informationen tragen, von der Oberflächenform des Wortes, d. h. der Form des Wortes, wie es im Text vorkommt, zu unterscheiden. Wir haben daher auf eine Wortsegmentierungsmethode zurückgegriffen, die Wörter durch Wiederherstellung der veränderten Morpheme segmentiert. Um den enormen Datenanforderungen der NMÜ gerecht zu werden, haben wir außerdem einen neuen Datensatz für eine Sprache mit geringen Ressourcen erstellt. Darüber hinaus optimierten wir die Hyperparameter eines NMÜ-Systems, um unter datenarmen Bedingungen optimal funktionierende Modelle zu trainieren. Des Weiterem verglichen wir konventionelle und Morphembasierte NMÜ-Unterwortmodelle. Wir konnten nachweisen, dass Morphem basierte Modelle die konventionellen Teilwortmodelle in Benchmark Datensätzen übertreffen.
URI:	https://opendata.uni-halle.de//handle/1981185920/105783 http://dx.doi.org/10.25673/103828
Open-Access:	Open-Access-Publikation
Nutzungslizenz:	(CC BY-SA 4.0) Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 4.0 International
Enthalten in den Sammlungen:	Fakultät für Informatik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Gezmu_Andargachew_Mekonnen_Dissertation_2023.pdf	Dissertation	1.92 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige BibTeX EndNote