Science and Technology Production
UNA PROPUESTA CONEXIONISTA PARA EL RECONOCIMIENTO Y PREDICCION DE PROMOTORES EN SECUENCIAS DE ADN DE PROCARIOTAS

Thesis

Date
08/04/2004
Summary Information provided by the agent in SIGEVA
Uno de los grandes desaf´ıos de la era postgen´omica es la identificaci´on de factores relacionados con la regulaci´on de la expresi´on gen´etica. La iniciaci´on de la transcripci´on es el primer paso en la expresi´on gen´etica y su regulaci´on constituye un significativo punto de control de este fen´omeno. El promotor, la secuencia reconocida por la ARN polimerasa para iniciar la transcripci´on, deter... Uno de los grandes desaf´ıos de la era postgen´omica es la identificaci´on de factores relacionados con la regulaci´on de la expresi´on gen´etica. La iniciaci´on de la transcripci´on es el primer paso en la expresi´on gen´etica y su regulaci´on constituye un significativo punto de control de este fen´omeno. El promotor, la secuencia reconocida por la ARN polimerasa para iniciar la transcripci´on, determina la ubicaci´on del sitio de inicio de la transcripci´on y es un elemento importante para establecer su frecuencia de iniciaci´on. Por lo tanto, la identificaci´on de los promotores es crucial para detectar comportamientos regulatorios o pathways gen´eticos. Los promotores de organismos procariotas presentan subsecuencias conservadas, pero la definici´on de los nucle´otidos que las componen es vaga y la distancia entre las mismas es variable, lo que hace que su reconocimiento mediante t´ecnicas computacionales en cadenas de ADN no sea sencillo. En este trabajo proponemos un m´etodo para resolver el problema de reconocimiento de promotores de organismos procariotas mediante el uso de una red neuronal feedforward con retardo temporal o Time Delay Neural Network (TDNN). La ventaja de esta red es que, mediante la t´ecnica de weight sharing y la utilizaci´on de un algoritmo de back-propagation modificado, logra realizar el reconocimiento de las subsecuencias conservadas de los promotores separadas por distancias variables. Utilizamos los datos de la compilaci´on m´as reciente de promotores de E. coli, almacenados en la base de datos RegulonDB1 y fundamentados a partir de art´ıculos referenciados en PubMed2. Para la implementaci´on del m´etodo propuesto, al que denominamos Conexionist Promoter Recognition (CPR), se realiz´o un an´alisis de los par´ametros que influyen en la performance de la red, entre otros el armado de los conjuntos de entrenamiento y test, con el objetivo de optimizarlos. Estudiamos distintas medidas de calidad de las predicciones y proponemos una alternativa. Analizamos y evaluamos otros m´etodos existentes para la predicci´on de promotores y nuestro m´etodo obtuvo los mejores resultados. Por u´ltimo, proponemos un modelo jer´arquico de dos niveles, CPR-MOSS, compuesto por el m´etodo CPR y por un algoritmo evolutivo multiobjetivo, denominado Multiobjective Scatter Search (MOSS), para permitir identificar las regiones conservadas en los promotores predichos por la red. La modularidad de la red y el ajuste de los par´ametros realizado permiten extender la soluci´on encontrada a otros problemas similares, como el reconocimiento de promotores en eucariotas. La implementaci´on del modelo CPR-MOSS est´a accesible en http://soar-tools.wustl.edu.
Show more Show less
Key Words
reconocimiento de promotores