Capacidad de análisis de la variabilidad genómica a muy alta resolución

Spread the love

Doctor Carlos Córdova Fletes

Doctora Rocío Ortiz López

Departamento de Bioquímica y Medicina Molecular Facultad de Medicina Unidad de Biología Molecular, Genómica y Secuenciación (UBMGyS) del Centro de Investigación y Desarrollo en Ciencias de la Salud (CIDCS) / UANL

anidemsolrac@yahoo.com

ANTECEDENTES

En términos generales, el DNA es una estructura biomolecular estrictamente organizada, pero al mismo tiempo flexible, que contiene en su estructura un grupo de cuatro compuestos llamados nucleótidos o bases A, G, C y T (Adenina, Guanina, Citosina y Timina). Grandes secuencias de diferentes tamaños de estos nucleótidos, con la información necesaria para construir un organismo dado (unicelular o pluricelular), constituyen un genoma.

De manera un tanto reduccionista, las regiones funcionales de un genoma se denominan genes; específicamente, en ellos se encuentra el código genético, el cual, a partir de un conjunto de tripletes de bases (codones) con cientos de combinaciones, puede generar la maquinaria necesaria para cumplir con las funciones básicas de una célula u organismo en cuestión.

Una vez que, a principios de los años 50, Watson y Crick descifraron la fuente de la información genética en las células, el DNA, y se definió la estructura de la doble hélice, surgió un reto más complejo: conocer el número de genes en el ser humano y el orden de cada una de las bases que los componen. La carrera por conocer la secuencia del genoma humano comenzó a principios de los 90, lo que dio origen al Proyecto Genoma Humano (HGP por sus siglas en inglés), inicialmente liderado por James D. Watson.

Debido a la complejidad esperada, se estimó terminar con la secuencia completa del genoma en aproximadamente 15 años. Evidentemente, en el camino se lograron secuenciar otros genomas menos complejos, como, por ejemplo, el Haemophilus influenzae (1995), Saccharomyces cerevisiae (1996), Escherichia coli (1997), Helicobacter pylori (1999), entre otros.

El primer borrador del genoma humano se estableció en 2001, y posteriormente, el 14 de abril de 2003, 50 años después de la descripción de la estructura de la doble hélice, los lideres de seis países proclamaron que el proyecto del genoma humano se había completado (ver The Nature Human Genom. Nature Genome Collection (Nature S1, 4; 2006), y esto ocurría dos años antes de lo planeado.

DIFERENCIAS FENOTÍPICAS

Con esa información, se estableció que el genoma humano contiene entre 20 mil y 25 mil genes, distribuidos a lo largo de tres mil millones de pares de bases, y que los genomas de los individuos sanos son el 99.9 por ciento idénticos. Los análisis en las secuencias identificaron que la mayor diferencia que existe entre dos individuos (0,1 por ciento del genoma), reside en cambios de un solo nucleótido, conocidos como SNPs (Single Nucleotide Polimorphisms) que se distribuyen en forma aleatoria a lo largo del genoma, lo que dio pie a que una gran cantidad de estudios se centraran en estas variaciones en busca de explicaciones que justificaran las diferencias fenotípicas y la asociación con las enfermedades.

Dada su importancia, incluso se desarrollaron catálogos a gran escala, que incluyen alrededor de 12 millones de SNPs del genoma humano, como la base de datos del HapMap (Mapa de haplotipos de SNPs). En este contexto, la denominación de SNP frecuentemente se restringe a aquellos polimorfismos de un solo nucleótido, en los que el alelo menos frecuente aparece en al menos el uno por ciento de la población.

Este dogma científico sobre la variabilidad individual fue cuestionado recientemente, cuando dos estudios independientes analizaron los genomas de individuos sanos, no emparentados, utilizando plataformas de Hibridación Genómica Comparativa con microarreglos (aCGH), donde encontraron una inesperada variabilidad en el genoma humano sobre el número de copias que tiene cada individuo de un mismo gen. Esto es, que al comparar genomas entre individuos, había regiones que variaban-no de forma significativa con respecto a la secuencia del DNA, pero sí de forma significativa con respecto al número de copias entre un individuo y otro (Iafrate, A.J. y cols.2004. y Sebat, J. y cols. 2004), lo que implicaba que en la variabilidad humana influía también el número de veces en que esos fragmentos de DNA se presentaban y las secuencias de DNA que se perdían. Esas variaciones afectaban aproximadamente el 12 por ciento de nuestro genoma, en al menos mil 400 regiones.

Estos hallazgos replantearon la definición de lo que constituye un “genoma normal”. Además, este descubrimiento extendió el concepto de la variabilidad genética y cambió el modo de ver las enfermedades genéticas y la evolución humana. Estas más de mil 400 regiones, que se denominaron «Variantes de Número de Copia» o CNVs (del inglés Copy Number Variant), suponen en total más de 360 millones de nucleótidos de diferencias respecto a la secuencia original descrita por el proyecto genoma humano, que se publicó en 2003, lo que marca la nueva era de los estudios de CNV para identificar las variaciones normales entre las poblaciones y su posible asociación con las enfermedades.

BASES DE LA VARIABILIDAD GENÓMICA HUMANA

La variabilidad genómica incluye múltiples cambios en el DNA y, por lo general, se distinguen unos cambios de otros por su tamaño, origen y región dentro del genoma. Los cambios más frecuentes en el genoma humano son los SNPs. Otros tipos de variaciones incluyen duplicaciones de segmentos (que son regiones que presentan una versión dentro del genoma con más del 90 por ciento de similitud); secuencias repetidas una después de la otra (en tándem), inserciones, deleciones, inversiones/traslocaciones y elementos repetidos intercalados. Asimismo, las variantes CNV, representadas por regiones perdidas o duplicadas que pueden ir de alrededor de mil bases (1kb) hasta un millón de bases (1Mb) o más, y cuyo número de copias varía con respecto a un genoma de referencia, son, como se mencionó, una importante fuente de variabilidad genómica humana.

Se ha observado que las diferencias en CNV entre individuos explica parcialmente la individualidad humana, en tanto que la similitud en CNV puede indicar una relación sub-poblacional. Al igual que los SNP, cuando las CNV ocurren en más del uno por ciento de la población, se denominan polimorfismos del número de copias (CNP). Se cree que CNV particulares pueden modificar la expresión génica (incluso de aquellos genes contiguos a la CNV) y por tanto generar la variación fenotípica debido a la interrupción de genes o a la descompensación de dosis génica, incrementando la susceptibilidad a desarrollar enfermedades.

Notablemente, los genes encontrados en regiones ricas en CNV se han implicado en la percepción sensorial, metabolismo, adhesión celular, procesos neurofisiológicos y en distintas enfermedades. De esta manera, las CNV se pueden clasificar en benignas, patogénicas y desconocidas. Las CNV benignas a menudo no se relacionan con efectos fenotípicos observables, ya que generalmente se asocian a regiones no funcionales del genoma, son heredadas y se presentan en individuos sanos.

Sin embargo, se ha demostrado que tales CNV modifican los procesos inflamatorios, la respuesta inmune, la respuesta a drogas y la señalización celular. Por otra parte, CNV que afectan DNA funcional pueden ser patogénicas, incrementando la susceptibilidad a enfermedades. Se cree que la mayoría de las CNV patogénicas son de novo, aunque algunas son heredadas.

FACTORES PATOGÉNICOS

Recientemente, las CNV se han relacionado como factores patogénicos importantes y muy comunes en cáncer; en particular, algunas CNV se asocian a genes supresores de tumor y/o a oncogenes, suponiendo un papel potencial de tales CNV en la susceptibilidad al cáncer y a su vez en un blanco potencial de terapia. Además, se ha observado que algunas CNV que afectan el metabolismo de drogas, afectan la respuesta del paciente a la quimioterapia.

La importancia que las CNV han adquirido en el entendimiento de varios procesos fisiológicos y/o patológicos, ha resultado en el diseño de estrategias tecnológicas para facilitar su análisis. Adicionalmente, la cantidad de estudios que se han realizado en diferentes grupos poblacionales permitió generar mapas de CNV que pueden ser utilizados como referencias.

Figura 1. Variabilidad genética humana=variabilidad fenotípica. El impacto de conocer el genoma humano, con sus distintas variaciones (e.g. SNP, CNV), ha permitido explicar el origen de una serie de enfermedades que han aquejado a la humanidad durante décadas y posiblemente siglos. Además, se ha logrado trazar rutas de migración humana, estratificaciones poblacionales, antecedentes evolutivos y la identificación de individuos particulares.

DIFERENTES PLATAFORMAS PARA ESTUDIOS GENÓMICOS

El genoma humano ha sido estudiado desde múltiples puntos de vista y diferentes niveles de resolución (ver Figura 2). Quizás uno de los estudios más eficaces, con una resolución bastante gruesa, pero completa, del genoma, son los cariotipos. Desde el descubrimiento de la primera anormalidad cromosómica, la trisomía 21, en 1959 (principalmente por parte de Jerome Lejeune y Patricia Jacobs) se han detectado, por citogenética convencional o molecular, decenas de cambios genómicos cromosómicos relacionados con múltiples enfermedades humanas.

Figura 2. Comparación de tecnologías para análisis citológico/cromosómico. Los análisis cromosómicos son unos de los diagnósticos más solicitados por los clínicos. Los desbalances cromosómicos grandes pueden definir un patrón de malformación reconocible, pero los desbalances pequeños, muchas veces asociados a trastornos importantes, como retraso mental o infertilidad, pueden pasar desapercibidos en un cariotipo. El FISH ha demostrado ser una herramienta económica para corroborar desbalances cromosómicos, pero limitada en el número de blancos analizables (loci). La Hibridación Genómica Comparativa basada en microarreglos (aCGH), permite el análisis de genomas a una resolución significativamente mayor y facilita definir los límites de alteraciones cromosómicas responsables de un fenotipo clínico reconocible, como los mencionados, permitiendo algunas veces definir los genes involucrados en síndromes genéticos.

Posteriormente, se llevó a cabo la incorporación de sondas fluorescentes, dirigidas a regiones cromosómicas, y surgió la técnica de Hibridación in situ Fluorescente (FISH por sus siglas en inglés). Ésta es una tecnología que utiliza sondas de DNA marcadas con un fluorocromos, para detectar o confirmar anomalías génicas/cromosómicas, que generalmente están más allá de la capacidad de resolución de la citogenética de rutina.

HIBRIDACIÓN GENÓMICA COMPARATIVA

A principios de los 90 surgió, con algunas bases metodológicas similares, una nueva tecnología para el estudio genómico humano: la Hibridación Genómica Comparativa en microarreglos (Figura 3). Esta tecnología sentó las bases para el desarrollo de las plataformas actuales, que permiten el análisis de genomas completos y de sus variaciones con un poder de resolución de hasta una sola base.

En términos generales, los microarreglos son micromatrices que contienen genomas de referencia para ser comparados con un genoma blanco, pero con la enorme ventaja de que permiten analizar grandes cantidades de blancos moleculares en un solo ensayo y con la posibilidad de automatización de los procedimientos. Existen diferentes tipos de microarreglos, que varían principalmente en su diseño y nivel de resolución (que tiene que ver con el número de marcadores utilizados y dispersión por todo el genoma).

HIBIREDACIÓN GENÓMICA COMPARATIVA SOBRE CROMOSOMAS

A principios de los años 90, y con especial aplicación en tumores sólidos, en donde obtener metafases de calidad es a menudo complicado, se describió una nueva técnica de citogenética molecular. Esta técnica se basa en la hibridación competitiva sobre cromosomas normales, de dos DNAs, (tumoral y control normal) marcados con fluorocromos distintos. A grandes rasgos, se marca el DNA del tumor con un fluorocromo verde y un DNA normal (control) con un fluorocromo rojo.

Ambos DNAs se mezclan en cantidades equimolares y se realiza una hibridación in situ sobre cromosomas metafásicos normales. Ambos DNAs compiten por hibridar en los mismos lugares cromosómicos. Esta metodología permite la detección de ganancias y pérdidas de regiones cromosómicas en todo el genoma del tumor, por la comparación de las intensidades de las señales de hibridación. Esta metodología ha quedado en desuso, debido a su complejidad técnica y falta de reproducibilidad, al utilizar cromosomas como base para la hibridación competitiva.

Microarreglos de Cromosomas Artificiales Bacterianos (BACs) o Hibridación Geómica Competitiva sobre clonas de BACs. Ésta es una variante del método anterior, con la diferencia de que, en lugar de utilizar cromosomas como base para la hibridación competitiva de los dos DNAs (problema y control), en este caso se utilizan fragmentos de DNAs fijados, en forma de puntos, a soportes sólidos. Estas secuencias de DNA humano están clonadas en cromosomas bacterianos artificiales (BACs) para facilitar su manejo (Ver figura 3).

Figura 3. Microarreglo de BACs o BAC Array. A). Representacion de un miroarreglos de BACs. Cada punto (azúl) en el microarreglo, representa una secuencia muy específica de DNA humano, contenida en un BAC (líneas rojas). Se requieren muchas clonas de BACs para representar todo el genoma humano en un microarreglo (~ 20,000 a 32,400 clonas). B). Interpretación de resultados después de la hibridación. El DNA problema y el control se hacen hibridar en forma competitiva sobre el arreglo. Las diferencias en las intensidades de los fluorocromos permite determinar lugares de pérdidas o ganancias en el genoma problema (En verde se representa el DNA del tumor y en rojo el DNA control).

Microarreglos de SNPs: En este tipo de microarreglos, cada SNP está representado en forma de un oligonucleótido de 25 mers, sintetizado y fotolitografiado in situ. Se generan todas las posibilidades (C, A, T, G) para una posición especifica del SNP dentro del oligonucleótido. Para generar redundancia, cada SNP es interrogado con cinco sondas diferentes en ambas cadenas (sentido y antisentido). Figura 4.

Figura 4. Esquema que interpreta el diseño de microarreglos de SNPs, utlizando oligonucleótidos sintetizados y fotolitografiados in situ.

El número de oligonucleótidos en el microarreglo (correspondiente a la cobertura del genoma) es directamente proporcional a la resolución de éste. Entre menos sondas se incluyen, más regiones del genoma quedan sin cubrirse y viceversa. Las casas comerciales ofrecen una gama de posibilidades de estos microarreglos. La cobertura también es directamente proporcional al costo de los arreglos (Figura 5). Los actuales microarreglos o chips de DNA se han aplicado al estudio de casi cualquier tipo de problema biológico.

Algunas de sus aplicaciones son:

a) Asociación de SNPs con enfermedades complejas.

b) Identificación de genes característicos de una patología.

c) Estudio de genes que se expresan diferencialmente entre varias condiciones (sanos/enfermos, mutantes/salvajes, tratados/no tratados). (firma o “signature”).

d) Análisis de SNPs para predicción de respuesta a un tratamiento.

e) Detección de mutaciones y polimorfismos en algún gen ó SNP específico.

f) Análisis de CNVs para asociarlas a variación fisiológica normal o con mayor aplicación directa al diagnóstico clínico.

La figura 6 muestra un ejemplo de aplicación de microarreglos para identificar CNV en una patología.

Figura 5. Evolución de la tecnología de microarreglos a través de los años, su aplicación y máxima resolución. Aunado a estas plataformas de estudio genómico masivo, el perfeccionamiento de las técnicas utilizadas para secuenciar el genoma ha permitido incorporar la secuenciación masiva para responder cuestiones relacionadas con la variabilidad genómica y enfermedad humana.

En la actualidad, hay una inmensa variedad de productos ofrecidos por las diferentes compañías que distribuyen microarreglos. Las plataformas más ampliamente utilizadas son las de Affymetrix, Illumina y Nimblegen, y cada una de ellas ofrece una gran variabilidad de opciones y aplicaciones.

Figura 6. Análisis de una región de CNV en el cromosoma 17 en una muestra de un paciente con Linfoma de Burkit. Panel A) Muestra del paciente. Se observa una región perdida de ~382kb y una región amplificada de ~35kbs utilizando un microarreglo de alta densidad/mayor resolución Human CGH 2.1M. Panel B) Muestra del mismo paciente utilizando un microarreglo de menor resolución (Human CGH 3x720K Whole-Genome Tiling v3.0 array) donde no se aprecia con claridad la pérdida de ~383 kb y mucho menos la región de amplificación de ~35 kb:. Panel C) Genoma de referencia. Muestra segmentos de CNV normales (duplicaciones) y genes conocidos anotados en esas regiones. Los análisis de CNV fueron realizados utilizando el mismo software NimbleScan (proporcionados por Roche NimbleGen CGH arrays) en todos los casos.

UANL, A LA VANGUARDIA

En la actualidad, la Universidad Autónoma de Nuevo León, a través del Centro de Investigación y Desarrollo en Ciencias de la Salud (CIDCS), ha incorporado con éxito las principales plataformas de estudio genómico masivo. Específicamente, la Unidad de Biología Molecular, Genómica y Secuenciación (UBMGyS), cuenta con diferentes plataformas de microarreglos (Affymetrix y Nimblegen) para el estudio de genomas completos, patrones de metilación y la expresión diferencial de miles de genes.

Estas plataformas pueden ser utilizadas principalmente para realizar investigación; sin embargo, las versiones con las que cuenta nuestra unidad han sido también validadas para uso diagnóstico. Las plataformas tienen formatos abiertos muy flexibles (cubren todo el genoma) o se enfocan a diferentes aplicaciones especificas. Por ejemplo, se pueden observar cambios genéticos/genómicos que se pueden relacionar con diferentes enfermedades, como malformaciones múltiples, retraso mental, cáncer, etcétera, o analizar SNPs específicos asociados a respuesta a diferentes medicamentos (Farmacogenómica).

Genómicamente, la mayor cobertura de nuestras plataformas de microarreglos es de aproximadamente 4.2 millones de marcadores de variación genética (SNP y CNV); con dicha cobertura se tiene una resolución menor a 700 pares de bases. En el rubro de expresión, se puede hacer un análisis global de la expresión de genes a través de un solo ensayo con sondas para 47 mil transcritos; mientras que en el rubro de metilación, se pueden observar aquellas regiones metiladas (islas CpG y regiones promotoras) en el genoma.

Por otra parte, como complemento de estas tecnologías, la UBMGyS, también cuenta con plataformas de secuenciación de nueva generación (NGS) 454 GS FLX Titanium, que nos permiten realizar análisis genómicos y secuenciar prácticamente cualquier genoma (e.g. proveniente de bacterias, levaduras, células humanas o de cualquier especie).

CAMBIOS GENÉTICOS EN PACIENTES CON MALFORMACIONES

Actualmente, nuestras líneas de investigación que utilizan las plataformas de microarreglos y secuenciación masiva van enfocadas a encontrar pérdidas o ganancias de material genético en pacientes con malformaciones múltiples/retraso mental y portadores de alteraciones cromosómicas aparentemente balanceadas, además de delinear genéticamente las pérdidas o ganancias de material genético en estos pacientes, y definir los puntos de ruptura en caso de existir traslocaciones. También, una de las líneas va dirigida específicamente a estudiar todos los cambios genéticos en pacientes leucémicos con la finalidad de conocer los genes alterados relacionados con el origen y/o progresión de esta enfermedad.

En resumen, la principal meta del CIDCS, a través de la implementación de las plataformas de estudios genómicos de alta resolución, como microarreglos de alta densidad y secuenciación masiva, es establecer correlaciones genotipo-fenotipo más precisas, a través de la identificación de marcadores genéticos, genes candidatos y la elucidación de mecanismos patogénicos, lo que eventualmente permitirá diagnósticos oportunos y el diseño de nuevas estrategias de tratamiento para pacientes con necesidades diferentes.

Referencias

Iafrate, A.J. y cols. 2004. Detection of large-scale variation in the human genome. Nat. Genet. 36, 949–951

Sebat, J. y cols. 2004. Large-scale copy number polymorphism in the human genome. Science, 305, 525–528 (2004).

Shlien A and Malkin D.2010 Copy number variations and cancer susceptibility. Current opinion in oncology, 22:55–63.

Vucic EA, y cols. 2010. Copy number variations in the human genome and strategies for analysis. Genetic variation: Methods and Protocols, Methods in molecular biology, vol. 628.

Watson SK, y cols. 2009. Minimum altered regions in early prostate cancer progression identified by high resolution whole genome tiling path BAC array comparative hybridization. Prostate.15;69(9):961-75.

Wu H, y cols 2008. Copy number variant analysis of human embryonic stem cells. Stem Cells 26:1484 –1489.

Capacidad de análisis de la variabilidad genómica a muy alta resolución