Integrating Data extorted from a document corpus in a MicroRNA database (Master thesis)

Gleridis, Christos


Η επιστήμη της Βιοχημείας επικεντρώνεται στη μελέτη των miRNAs που εμπλέκονται σε πολλαπλές φυσιολογικές και παθολογικές διεργασίες, του καρκίνου και των καρδιαγγειακών παθήσεων. Σε πρόσφατες μελέτες, έχει αποδειχθεί ότι οι περιβαλλοντικοί παράγοντες, όπως τα μικρά μόρια είναι τα στοιχεία που μπορούν να ρυθμίζουν την έκφραση των miRNA, ως εκ τούτου, είναι ζωτικής σημασίας για τους επιστήμονες να έχουν τη γνώση των σχέσεων μεταξύ miRNAs και Compounds με έναν εύκολο και γρήγορο τρόπο. Υπάρχουν πολλές βάσεις δεδομένων που έχουν κατασκευαστεί για να αποθηκεύσουν γενικές πληροφορίες σχετικά με τα miRNAs, miRNA στόχους που έχουν βρεθεί με miRNA-mRNA και miRNAs που σχετίζονται με ασθένειες καρκίνου. Επιπλέον, υπάρχουν βάσεις δεδομένων που περιλαμβάνουν πληροφορίες σχετικά με τις σχέσεις Compounds και miRNAs, αλλά οι σχέσεις αυτές δεν έχουν καθοριστεί με αυτοματοποιημένο τρόπο. Σύμφωνα με αυτό, είναι απαραίτητο να αναπτυχθούν νέες προσεγγίσεις που βασίζονται στην εξόρυξη κειμένου να ανιχνεύουν αυτόματα τις compounds-miRNAs σχέσεις ώστε να χρησιμοποιηθούν από τους χρήστες που έχουν ένα βιολογικό υπόβαθρο. Σε αυτή την εργασία αναπτύξαμε ένα rule based σύστημα εξόρυξης κειμένου για να εξάγουμε τις σχέσεις miRNA και compounds από έγγραφα της PubMed προκειμένου να αποθηκευτούν σε μια βάση δεδομένων.
Institution and School/Department of submitter: Σχολή Τεχνολογικών Εφαρμογών/ Τμήμα Μηχανικών Πληροφορικής
Subject classification: MicroRNA.
MicroRNA--Databases
Μικρό RNA--Βάσεις δεδομένων
Μικρό RNA
Keywords: micro-rna;compound;relationship;PubMed;σχέση;χημική ένωση
Description: Μεταπτυχιακή εργασία--Σχολή Τεχνολογικών Εφαρμογών--Τμήμα Μηχανικών Πληροφορικής,2015--7009
URI: http://195.251.240.227/jspui/handle/123456789/12856
Item type: masterThesis
General Description / Additional Comments: Μεταπτυχιακή
Subject classification: MicroRNA.
MicroRNA--Databases
Μικρό RNA--Βάσεις δεδομένων
Μικρό RNA
Item language: en
Item access scheme: account
Institution and School/Department of submitter: Σχολή Τεχνολογικών Εφαρμογών/ Τμήμα Μηχανικών Πληροφορικής
Publication date: 2015-07-10
Bibliographic citation: <<CHRISTOS GLERIDIS>>, <<Integrating Data extorted from a document corpus in a MicroRNA database>>, <<Σχολή Τεχνολογικών Εφαρμογών/ Τμήμα Μηχανικών Πληροφορικής>>, <<Τ.Ε.Ι. Θεσσαλονίκης>>, <<2015>>
Abstract: Biochemistry is focused in the study of miRNAs that are involved in multiple physiological and pathological processes, cancer and cardiovascular diseases. In recent studies, it has been demonstrated that the environmental factors like small molecules are elements that can regulate miRNA expression, therefore it is crucial for scientists to have the knowledge of the relations between miRNAs and compounds in an easy and fast way. There are many databases that have been constructed to store general information about miRNAs, miRNA's targets found with miRNA-mRNA and miRNAs related to cancer diseases. Furthermore, there are databases that include information about small-molecule and miRNAs relationships but these relations have been manually established. According to this, it is necessary to develop new approaches based on text mining to automatically detect smallmolecules-miRNAs relationships to be lately curated by users with a biological background. In this thesis we developed a rule based text mining system to extract miRNA and Compound relationships from PubMed documents and store them in a database.
Η επιστήμη της Βιοχημείας επικεντρώνεται στη μελέτη των miRNAs που εμπλέκονται σε πολλαπλές φυσιολογικές και παθολογικές διεργασίες, του καρκίνου και των καρδιαγγειακών παθήσεων. Σε πρόσφατες μελέτες, έχει αποδειχθεί ότι οι περιβαλλοντικοί παράγοντες, όπως τα μικρά μόρια είναι τα στοιχεία που μπορούν να ρυθμίζουν την έκφραση των miRNA, ως εκ τούτου, είναι ζωτικής σημασίας για τους επιστήμονες να έχουν τη γνώση των σχέσεων μεταξύ miRNAs και Compounds με έναν εύκολο και γρήγορο τρόπο. Υπάρχουν πολλές βάσεις δεδομένων που έχουν κατασκευαστεί για να αποθηκεύσουν γενικές πληροφορίες σχετικά με τα miRNAs, miRNA στόχους που έχουν βρεθεί με miRNA-mRNA και miRNAs που σχετίζονται με ασθένειες καρκίνου. Επιπλέον, υπάρχουν βάσεις δεδομένων που περιλαμβάνουν πληροφορίες σχετικά με τις σχέσεις Compounds και miRNAs, αλλά οι σχέσεις αυτές δεν έχουν καθοριστεί με αυτοματοποιημένο τρόπο. Σύμφωνα με αυτό, είναι απαραίτητο να αναπτυχθούν νέες προσεγγίσεις που βασίζονται στην εξόρυξη κειμένου να ανιχνεύουν αυτόματα τις compounds-miRNAs σχέσεις ώστε να χρησιμοποιηθούν από τους χρήστες που έχουν ένα βιολογικό υπόβαθρο. Σε αυτή την εργασία αναπτύξαμε ένα rule based σύστημα εξόρυξης κειμένου για να εξάγουμε τις σχέσεις miRNA και compounds από έγγραφα της PubMed προκειμένου να αποθηκευτούν σε μια βάση δεδομένων.
Table of contents: Table of Contents Abstract ..................................................................................................................................... 1 Περίληψη................................................................................................................................... 3 Acknowledgments..................................................................................................................... 5 Table of Contents...................................................................................................................... 6 Table of Figures......................................................................................................................... 8 1 Introduction............................................................................................................................ 9 1.1 Natural Language Processing .......................................................................................... 9 1.1.1 Levels of Linguistic Analysis.................................................................................... 10 1.1.2 Symbolic and Statistical Approaches to languages ................................................ 11 1.2 Information Extraction .................................................................................................. 13 1.2.1 The History ............................................................................................................. 13 1.2.2 Information Extraction task.................................................................................... 14 1.2.3 IE Task Types........................................................................................................... 15 1.2.4 Architecture: Components of IE Systems............................................................... 16 1.3 Semantic Web................................................................................................................ 17 1.3.1 Ontology ................................................................................................................. 19 1.3.2 Ontology Representation ....................................................................................... 20 1.3 Extraction of miRNA-Compounds relations................................................................... 20 1.3.1 Contribution ........................................................................................................... 21 1.4 Thesis Layout................................................................................................................. 21 2 GATE Framework.................................................................................................................. 22 2.1 GATE Plugins and components...................................................................................... 26 2.1.1 Document Reset..................................................................................................... 26 2.1.2 Tokeniser................................................................................................................ 26 2.1.3 Snowball Based Stemmers..................................................................................... 26 2.1.4 Gazetteers .............................................................................................................. 27 2.1.5 RegEx Sentence Splitter.......................................................................................... 29 2.1.6 Part of Speech Tagger............................................................................................. 30 2.1.7 JAPE ........................................................................................................................ 31 3 Methodology of MCR Project............................................................................................... 34 3.1 Corpus............................................................................................................................ 34 3.2 Named Entity Recognition............................................................................................. 35 7 3.2.1 MiRNA Expression Recognition .............................................................................. 35 3.2.2 Compound Name Recognition ............................................................................... 37 3.2.3 Regulation Name Recognition................................................................................ 37 3.3 Rule construction........................................................................................................... 38 3.4 Vote ............................................................................................................................... 38 4 Implementation of MCR Project........................................................................................... 39 4.1 GATE Pipeline ................................................................................................................ 39 4.2 MiRNA Expression Recognition ..................................................................................... 40 4.3 Compound Name Recognition ...................................................................................... 47 4.3.1 Abbreviations ......................................................................................................... 52 4.4 Regulation Name Recognition....................................................................................... 56 4.5 3-occurance and Rule Matching.................................................................................... 57 4.6 Vote ............................................................................................................................... 59 5 Evaluation............................................................................................................................. 61 6 Conclusions........................................................................................................................... 63 References............................................................................................................................... 64 Appendix A .............................................................................................................................. 67 A1 Requirements................................................................................................................. 67 A2 Installation...................................................................................................................... 67 A3 Configuration and Execution.......................................................................................... 67
Advisor name: Keramopoulos, Euclid
Examining committee: Keramopoulos, Euclid
Publishing department/division: Σχολή Τεχνολογικών Εφαρμογών/ Τμήμα Μηχανικών Πληροφορικής
Publishing institution: teithe
Number of pages: 72
Appears in Collections:Μεταπτυχιακές Διατριβές

Files in This Item:
There are no files associated with this item.



 Please use this identifier to cite or link to this item:
http://195.251.240.227/jspui/handle/123456789/12856
  This item is a favorite for 0 people.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.