Concepedia

Publication | Closed Access

Computational Gene Structure Prediction

11

Citations

95

References

2013

Year

Gordon Gremme

Unknown Venue

Abstract

Modern molecular biology research is characterized by the availability of an increasing amount of biological data which is often fuzzy due to the nature of the experimental methods used to derive it. Bioinformatics, a branch of computer science, deals with the storage, retrieval, and analysis of this data. DNA, the basic information carrier of life, is now sequenced industrially in large quantities and assembled to complete genomes. The automatic annotation of genes in these genomes, a process called computational gene structure prediction, is the scope of this thesis. This dissertation describes the computational gene structure prediction software GenomeThreader which uses homologous biological sequences (so-called cDNAs/ESTs and/or protein sequences) to predict gene structures by computing spliced alignments. GenomeThreader uses a multi-phase approach, filtering the possibly very large sequence data sets in early phases to obtain promising gene candidates which are then refined by more computationally expensive algorithms in later phases. The results of this gene structure predictions, genome annotations, can become quite large and cumbersome to process. To deal with such annotations easily and efficiently, the GenomeTools genome analysis system has been developed, which is also described in this thesis. The prediction quality of GenomeThreader was evaluated on a variety of datasets and the results show that the software performs very well on common gene structure prediction tasks. The quality of the results is comparable with the results of the best other programs and in some cases it is even better. The software is very easy to use due to its integrated nature, a feature which distinguishes it from its competitors. GenomeThreader has been adopted widely in the scientific community, it has approx. 150 users world-wide and over 30 publications cite the scientific article which describes an earlier version of the software. The open source package GenomeTools was used as a foundation for 10 published sequence and annotation processing tools. Moderne molekularbiologische Forschung ist durch die Verfugbarkeit stetig wachsender Datenmengen charakterisiert. Diese Daten sind auf Grund der experimentellen Methoden, die sie erzeugen, oftmals fehlerbehaftet. Die Bioinformatik, ein Teilbereich der Informatik, beschaftigt sich damit molekularbiologische Daten zu speichern, abzurufen und zu analysieren. DNA, der grundlegende Informationstrager des Lebens, wird heutzutage im industriellen Masstab sequenziert und zu kompletten Genomen zusammengefugt. Diese Disseration befasst sich mit der automatische Annotation von Genen in vollstandig sequenzierten Genomen, ein Prozess der rechnergestutzte Genstrukturvorhersage genannt wird. Diese Dissertation beschreibt die Methoden und Techniken, die die Grundlage der Genstrukturvorhersagesoftware GenomeThreader bilden. GenomeThreader benutzt homologe biologische Sequenzen (sogenannte cDNA/EST und/oder Proteinsequenzen) und berechnet Spliced Alignments, die Genstrukturen beschreiben. Zur Vorhersage der Genstrukturen wird ein mehrphasiger Ansatz benutzt. Dabei werden die unter Umstanden sehr grosen Sequenzdatenmengen in fruhen Phasen auf vielversprechende Genkandidaten reduziert, die dann in spateren Phasen durch rechenaufwendigere Algorithmen verfeinert werden. Die Resultate dieser Genstrukturvorhersagen, die Genomannotationen, konnen sehr umfangreich werden und aufwendige Schritte der Weiterverarbeitung erfordern. Um mit solchen Annotationen einfach und effizient umgehen zu konnen, wurde das GenomeTools Genomanalysesystem entwickelt, das ebenfalls in dieser Arbeit beschrieben wird. Die Vorhersagequalitat von GenomeThreader wurde auf verschiedenen Datensatzen evaluiert. Es zeigt sich, dass GenomeThreader fur die ublichen Genvorhersageaufgaben sehr gute Ergebnisse liefert. Die Qualitat der Ergebnisse ist vergleichbar mit den Ergebnissen der besten anderen Programme und teilweise sogar besser. Durch die gelungene Integration der einzelnen Phasen ist die Software sehr einfach zu benutzen, eine Eigenschaft, die sie von ihren Wettbewerbern unterscheidet. GenomeThreader hat weite Verbreitung in der Wissenschaftsgemeinde gefunden. Es gibt ca. 150 Nutzer weltweit und 30 Publikationen zitieren den wissenschaftlichen Artikel, der eine fruhe Version der Software beschreibt. Das quelloffene Softwarepaket GenomeTools diente als Grundlage fur 10 weitere publizierte Werkzeuge zur Sequenz- und Annotationsverarbeitung.

References

YearCitations

Page 1