Please use this identifier to cite or link to this item: http://dx.doi.org/10.25673/103828
Title: Subword-based Neural Machine Translation for low-resource fusion languages
Author(s): Gezmu, Andargachew Mekonnen
Referee(s): Nürnberger, AndreasLook up in the Integrated Authority File of the German National Library
De Luca, Ernesto WilliamLook up in the Integrated Authority File of the German National Library
Granting Institution: Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik
Issue Date: 2023
Extent: viii, 118 Seiten
Type: HochschulschriftLook up in the Integrated Authority File of the German National Library
Type: PhDThesis
Exam Date: 2023
Language: English
URN: urn:nbn:de:gbv:ma9:1-1981185920-1057830
Subjects: Sprachverarbeitung
Übersetzungswissenschaft
Künstliche Intelligenz
Neural Machine Translation
Abstract: Neural approaches, which are currently state-of-the-art in many areas, have contributed significantly to the exciting advancements in machine translation. However, Neural Machine Translation (NMT) requires a substantial quantity and good quality training data or parallel corpus to train the best models. A large amount of training data, in turn, increases the underlying vocabulary exponentially. Therefore, several proposed methods have been devised for relatively limited vocabulary due to constraints of computing resources such as system memory. Encoding words as sequences of subword units for so-called open-vocabulary translation is an effective strategy for solving this problem. However, the conventional methods for splitting words into subwords focus on statistics-based approaches that mainly cater to agglutinative languages. In these languages, the morphemes have relatively clean boundaries. These methods still need to be thoroughly investigated for their applicability to fusion languages, which is the main focus of this dissertation. Phonological and orthographic processes alter the borders of constituent morphemes of a word in fusion languages. Therefore, it makes it difficult to distinguish the actual morphemes that carry syntactic or semantic information from the word’s surface form, the form of the word as it appears in the text. We, thus, resorted to a word segmentation method that segments words by restoring the altered morphemes. Additionally, in order to meet the enormous data demands of NMT, we created a new dataset for a low-resource language. Moreover, we optimized the hyperparameters of an NMT system to train optimally performing models in low-data conditions. We also compared conventional and morpheme-based NMT subword models. We could prove that morpheme-based models outperform conventional subword models on benchmark datasets.
Neuronale Ansätze, die derzeit in vielen Bereichen den Stand der Technik darstellen, haben wesentlich zu den spannenden Fortschritten in der maschinellen Übersetzung beigetragen. Die Neuronale Maschinelle Übersetzung (NMÜ) erfordern jedoch eine große Menge und qualitativ hochwertige Trainingsdaten oder einen parallelen Korpus, um die besten Modelle zu trainieren. Eine große Menge an Trainingsdaten wiederum vergrößert den zugrunde liegenden Wortschatz exponentiell. Daher wurden mehrere Methoden aufgrund begrenzter Computerresourcen — wie z.B. Systemspeicher — für ein relativ begrenztes Vokabular entwickelt. Die Kodierung von Wörtern als Sequenzen von Teilworteinheiten für die so genannte Übersetzung mit offenem Vokabular ist eine effektive Strategie zur Lösung dieses Problems. Die herkömmlichen Methoden zur Aufteilung von Wörtern in Teilwörter konzentrieren sich jedoch auf statistikbasierte Ansätze, die hauptsächlich für agglutinierende Sprachen geeignet sind. In diesen Sprachen haben die Morpheme relativ klare Grenzen. Diese Methoden müssen noch gründlich auf ihre Anwendbarkeit in Fusionssprachen untersucht werden, die im Mittelpunkt dieser Dissertation stehen. Phonologische und orthographische Prozesse verändern die Grenzen der konstituierenden Morpheme eines Wortes in Fusionssprachen. Daher ist es schwierig, die eigentlichen Morpheme, die syntaktische oder semantische Informationen tragen, von der Oberflächenform des Wortes, d. h. der Form des Wortes, wie es im Text vorkommt, zu unterscheiden. Wir haben daher auf eine Wortsegmentierungsmethode zurückgegriffen, die Wörter durch Wiederherstellung der veränderten Morpheme segmentiert. Um den enormen Datenanforderungen der NMÜ gerecht zu werden, haben wir außerdem einen neuen Datensatz für eine Sprache mit geringen Ressourcen erstellt. Darüber hinaus optimierten wir die Hyperparameter eines NMÜ-Systems, um unter datenarmen Bedingungen optimal funktionierende Modelle zu trainieren. Des Weiterem verglichen wir konventionelle und Morphembasierte NMÜ-Unterwortmodelle. Wir konnten nachweisen, dass Morphem basierte Modelle die konventionellen Teilwortmodelle in Benchmark Datensätzen übertreffen.
URI: https://opendata.uni-halle.de//handle/1981185920/105783
http://dx.doi.org/10.25673/103828
Open Access: Open access publication
License: (CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0(CC BY-SA 4.0) Creative Commons Attribution ShareAlike 4.0
Appears in Collections:Fakultät für Informatik

Files in This Item:
File Description SizeFormat 
Gezmu_Andargachew_Mekonnen_Dissertation_2023.pdfDissertation1.92 MBAdobe PDFThumbnail
View/Open