Learning inhomogeneous parsimonious Markov models with application to DNA sequence analysis

Eggeling, Ralf

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.25673/1359

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.referee	Große, Ivo, Prof. Dr.	-
dc.contributor.referee	Cerquides Bueno, Jesús, Prof. Dr.	-
dc.contributor.author	Eggeling, Ralf	-
dc.date.accessioned	2018-09-24T11:09:52Z	-
dc.date.available	2018-09-24T11:09:52Z	-
dc.date.issued	2014	-
dc.identifier.uri	https://opendata.uni-halle.de//handle/1981185920/8130	-
dc.identifier.uri	http://dx.doi.org/10.25673/1359	-
dc.description.abstract	Statistische Modellierung von funktionalen Oligonukleotiden wie Transkriptionsfaktorbindungsstellen ist eines der klassischen Teilgebiete der Bioinformatik. Viele der bisherige Arbeiten auf diesem Gebiet basieren auf einem vergleichsweise einfachen Modell, welches statistische Unabhängigkeit unter allen Nukleotiden innerhalb der Bindestellen annimmt. Diese Arbeit beschäftigt sich mit einer neuen Klasse von statistischen Modellen, welche die Modellierung statistischer Abhängigkeiten zwischen benachbarten Nukleotiden ermöglicht und dabei eine sparsame Parameterisierung verwendet. Zum Lernen dieser Modelle werden verschiedene Bayessche und nicht-Bayessche Lernansätze sowohl für vollständig beobachtbare Daten als auch in Gegenwart von verborgenen Variablen diskutiert. Die Methodik wird verwendet, um Eigenschaften funktionaler Transkriptionsfaktorbindestellen auf Basis von ChIP-seq Daten zu untersuchen. Die Ergebnisse zeigen, dass statistische Abhängigkeiten innerhalb von Bindestellen in der Natur weit verbreitet sind, und dass deren Modellierung die Vorhersage von Transkriptionsfaktorbindestellen verbessert.	-
dc.description.abstract	Statistical modeling of functional oligonucleotides such as transcription factor binding sites, i.e., inferring a sequence motif with the incentive of predicting new instances, is one of the classic fields within bioinformatics. Most of the previous work in this field is based on a comparatively simple motif model that assumes statistical independence among all nucleotide. Making use of additional features is to date limited by insufficient statistical models that suffer from overfitting. In this work we propose a new class of statistical models that allows modeling complex features in the data while keeping the parameter space small in order to avoid overfitting. For inferring these models from data, we propose different Bayesian and non-Bayesian learning approaches, both for fully observable data and in the presence of latent variables. We apply models and learning algorithms to investigate the phenomenon of statistical dependencies within sequence motifs of DNA-binding proteins. Using de novo motif discovery on ChIP-seq data, we find that intra-motif dependencies are prevalent in nature and that modeling them increases prediction accuracy.	eng
dc.description.statementofresponsibility	von Ralf Eggeling	-
dc.format.extent	Online-Ressource (159 Bl. = 4,83 mb)	-
dc.language.iso	eng	-
dc.publisher	Universitäts- und Landesbibliothek Sachsen-Anhalt	-
dc.rights.uri	http://rightsstatements.org/vocab/InC/1.0/	-
dc.subject	Bioinformatik	-
dc.subject	Maschinelles Lernen	-
dc.subject	Statistisches Modell	-
dc.subject	Online-Publikation	-
dc.subject	Hochschulschrift	-
dc.subject.ddc	[DDC22ger] 000	-
dc.subject.ddc	000	-
dc.subject.ddc	570	-
dc.title	Learning inhomogeneous parsimonious Markov models with application to DNA sequence analysis	-
dcterms.dateAccepted	2014-11-20	-
dcterms.type	Hochschulschrift	-
dc.type	PhDThesis	-
dc.identifier.urn	urn:nbn:de:gbv:3:4-13344	-
local.publisher.universityOrInstitution	Martin-Luther-Universität Halle-Wittenberg	-
local.subject.keywords	Bioinformatik; maschinelles Lernen; probabilistische graphische Modelle; parsimonische Kontextbäume; Modellselektion; verborgene Variablen; Transkriptionsfaktorbindestellen; de-novo Motivsuche; statistische Abhängigkeiten	-
local.subject.keywords	bioinformatics; machine learning; probabilistic graphical models; parsimonious context trees; model selection; latent variables; transcription factor binding sites; de-novo motif discovery; statistical dependencies	eng
local.openaccess	true	-
dc.identifier.ppn	810778343	-
local.accessrights.dnb	free	-
Enthalten in den Sammlungen:	Biowissenschaften; Biologie

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Dissertation_Ralf_Eggeling.pdf		4.94 MB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige BibTeX EndNote