La secuencia del genoma humano no hubiera sido posible sin Internet

Entrevista al investigador y biólogo molecular
Roderic Guigó**
La secuencia del genoma humano no hubiera
sido posible sin Internet
por Luis Angel Fernández Hermana

- ¿Qué le ha pasado a la estadística y a la informática para haya que añadirles los sufijos de ‘bio’? ¿Cómo´y dónde empezó este cambio?

- La bioestadística y la bioinformática pertenecen a dos campos muy separados. La primera tiene una historia muy antigua, se remonta a comienzos del siglo XX. Sobre todo cuando empiezan a aceptarselas teorías mendelianas de la genética y se observa que muchos caracteres de los seres vivos tienen un componente genético bastante claro. Allí vieron la luz trabajos clásicos de estadística, como los de Fisher, aplicados a cuestiones de población, salud, etc. Cuando hablamos de bioinformática nos referimos a una disciplina que tiene sus orígenes en la capacidad para secuenciar el genoma humano, los ácidos nucleicos y las proteínas y la utilización de los ordenadores para el tratamiento de estos datos. La bioestadística trata más bien de problemas matemáticos estadísticos relacionados, inicialmente, con problemas genéticos básicos; mientras que la bioinformática se dedica más bien a los problemas de almacenamiento y análisis de la información que se produce a partir de un desarrollo de las tecnologías genómicas. Esta última palabra no surge hasta principios de los años 80.

- Desde el punto de vista de la bioinformática ¿se podrían hablar de unos hitos que marcan su despegue?
- No sólo eso, sino que se podría trazar una historia paralela entre la historia de la biología molecular y la de la informática. Hasta el punto de que, en algunos aspectos, prácticamente se confunden. Sobre todo en el momento en que se descubre la estructura del DNA [ácido desoxirribonucleico]. La aparición de los ordenadores y el DNA son, en principio, dos hechos totalmente separados, pero que se producen después de la 2ª Guerra Mundial. Cuando aquellos comienzan, estaban totalmente ausentes de la biología. James D. Watson y Francis Crick descubren la estructura en doble hélice del DNA en 1953. En realidad, confirman la especulación del físico Rollinger, que mucho antes de que se supiera cómo era la materia cromosómica, él suponía que debía ser un cristal aperiódico constituido por la sucesión de un número pequeño de elementos isoméricos, en la secuencia concreta de los cuales recibía sus funcionalidades. Es decir, que mucho antes de que se supiera que los cromosomas están hechos de DNA, él llegó a la conclusión de que debía ser de esta forma para generar la variabilidad y la continuidad que observábamos en los seres vivos. También en 1953 es cuando por primera vez se obtiene la secuencia de aminoácidos de una proteína. Lo consigue Frederick Sanger y es la de la insulina bovina y le dieron el Premio Nobel por ello. Son hechos importantes que ocurren simultáneamente, pero separadamente. Y, a finales de los 50, se consigue la primera estructura tridimensional de una proteína.

- ¿Quién la obtiene?
- Max Perutz y Kendrew. Prácticamente al mismo tiempo en que se inventan los primeros lenguajes informáticos de alto nivel, que son los predecesores de los programas que usamos ahora: Java, Excel, etc. En aquella época, la utilización de los ordenadores estaba limitada a la gente que sabía cómo funcionaban. Esto permitía la separación entre usuarios de los ordenadores y los ingenieros que los diseñaban. Tú podías hacer un programa sin saber realmente cómo funcionaba el ordenador. Y es interesante que a inicios de los 60 se produce lo que se conoce como el desciframiento del código genético: las instrucciones mediante las cuales a partir de la secuencia del DNA se descubre cómo codificaba las proteínas. En este momento se produce toda una transferencia de vocabulario desde el campo de la informática al de la biología molecular, porque todos estos términos como código, ‘transcripción’, ‘traducción’, ‘programa’, ‘información’, se generan en torno a la explosión de la computación. Y tenemos un vocabulario básico en biología molecular que es idéntico al que existe en informática...

- A pesar de desarrollarse separadamente...

- Efectivamente. Pero ya se empieza a pensar en los seres vivos como ordenadores. Eso ha ocurrido siempre... no es casual, que se utilicen estos términos. El lenguaje básico de la biología molecular probablemente responde al hecho histórico de que en aquellos momentos se producía la explosión de una tecnología nueva que era la computación. Hasta esos momentos, en realidad, no hay ninguna relación entre ambas disciplinas. A principios de los 60, los transistores reemplazan a los tubos de vacío y los ordenadores se hacen más ágiles, más rápidos y pequeños. Y a mediados de la década, a mayor parte de las grandes empresas empezaron a cotejar información financiera con ordenadores digitales. En esos momentos, los ordenadores todavía no habían llegado a las universidades, ni a los centros de investigación. Probablemente sí a la NASA y a otras instituciones gubernamentales de los EEUU, pero están muy alejados de nosotros todavía. La primera secuencia de aminoácidos se obtuvo en 1953 y, a mediados de los 60, crece el número de proteínas cuya secuencia de aminoácidos es conocida. Margaret Dayhoff tiene la idea de recopilarlas a mano —porque no existen todavía los ordenadores— y observa algo que ahora parece obvio: cuando compara la misma proteína de especies distintas (vaca, mosca, rata o bacteria), ve que las secuencias se parecen mucho. Esto permite observar que hay unos aminoácidos que son más fáciles de cambiar por otros y la función se mantiene.

- ¿ Y esto lo hace en papel, es la única forma de ver toda la secuencia?

- Esto es todo a mano.

El diseño de redes en papel
- No es exactamente lo mismo, pero se parece a lo que ocurre con la Red en el año 1969, cuando aparece. A la Red le van añadiendo máquinas, el número de cada máquina en la red lo escribía Jon Postel en un papel. Y así llevó la contabilidad de las direcciones en la red durante un par de décadas.

- Pues es muy parecido. A finales de los 60 había unas 300 secuencias cortas. Aparecen entonces los circuitos integrados y los ordenadores empiezan a entrar en las universidades y centros de investigación. Y se los comienza a utilizar en la investigación científica y, en particular, en la biología. En la Universidad de Barcelona el primer ordenador no llegó hasta 1970. Una de las aplicaciones obvias era la compilación de secuencias, hacer programas que permitieran extraer más información de estas secuencias. Y una de estas aplicaciones fue la construcción de árboles filogenéticos, aquellas especies que están más cercanas en la evolución tienen secuencias de genes más parecidas. Es la primera aplicación de la utilización de los ordenadores para el análisis de las secuencias genómicas. Para nosotros también tiene mucha importancia que a finales de los 60 se desarrollara el sistema operativo Unix, que ha sido muy importante en el campo de la bioinformática. En los últimos cuatro o cinco años, Linux ha pasado a ser el sistema operativo y la plataforma de preferencia utilizada por todos los investigadores que estamos trabajando en el campo de la bioinformática.

- A finales de los años sesenta empieza lo que 30 años después cuajaría como Internet.

- Sí, en 1969 se dibuja a mano la primera red de cuatro ordenadores. Pero, en realidad, podría ser la red de interacciones de las proteínas en la célula, que tiene la misma forma. Y lo curioso es que ambas cosas se “descubren” prácticamente al mismo tiempo. En 1975 aparecen los primeros métodos para secuenciar ácidos nucleicos. Hasta mediados de los 70, todo lo que se conocían eran secuencias de aminoácidos, de proteínas, y había quién había dicho que secuenciar ácidos nucleicos era imposible. Dos años más tarde, se logra secuenciar el primer genoma de un organismo vivo, un virus, aunque mucha discute si un virus es un organismo vivo.

- ¿Este trabajo se hace ya con ordenadores?

- No, éste no todavía. La explosión de los métodos computacionales en biología se produce a finales de los años 70.

- Cuando Cohen empieza a investigar en ingeniería genética a finales de los años 70 ¿ya utiliza ordenadores?

- Yo diría que no, que todo era a mano. Se hacía a mano hasta finales de los 80. Incluso a principios de los 90, en muchos laboratorios todavía se secuenciaba a mano. En 1970, aparecen las primeras aplicaciones, pero no son muy funcionales. El problema esencial, que es donde ha residido hasta ahora la importancia de la bioinformática, es el de comparar las secuencias. Margaret Dayholff lo hacía a mano: ponía las secuencias registradas en una película de gel una debajo de la otra y ponía los aminoácidos unos debajo de otros, pero era todo a mano. Sin embargo, a medida que crecía el número de secuencias y de aminoácidos era imposible continuar así. Entonces aparecieron los primeros programas informáticos que automáticamente permitían alinear las secuencias, de acuerdo con aquella matriz que Dayhoff ya había empezado a mano, de forma que los aminoácidos más parecidos se correspondieran. Yo diría que, de alguna forma, es por donde realmente empieza la bioinformática, cuando los ordenadores se utilizan para analizar la información que contienen las secuencias biológicas, que se convierte en un elemento clave en la evolución de la biología molecular.

- ¿Quiénes desarrollan esos programas? ¿Ingenieros, biólogos?

- Biólogos; Smith-Waterman es uno de ellos. Estamos en la década de los 70, principios de los 80. A finales de los 70, la información de ácidos nucleicos ha crecido tanto que ya es imposible hacerla en papel o de forma electrónica pero descentralizada. Se reconoce que se ha de centralizar toda la información de la que se dispone e introducirla en una base de datos. Y eso ocurre en EEUU en el año 82. Es curioso: el gobierno de Estados Unidos decide crear esta base de datos sobre ácidos nucleicos en el Laboratorio de Los Alamos, donde se desarrolló la primera bomba atómica. Una vez acabada la 2ª Guerra Mundial, allí continuó la investigación en armamento nuclear. Una de las líneas era averiguar los efectos de la energía nuclear en los seres vivos después de los resultados de las bombas de Hiroshima y Nagasaki. Ya se sabía que estos efectos eran mediados por mutaciones en los ácidos nucleicos. Entonces el Departamento de Energía de los EEUU creó una división de biología en Los Alamos que tenía como objetivo inicial el estudio de la radiación sobre los ácidos nucleicos. Durante más de diez años, este grupo estuvo investigando este asunto. Cuando se creó la base de datos en Los Alamos, el Gene Bank, prácticamente al mismo tiempo se creó la base de datos electrónica europea del genoma en el Laboratorio Europeo de Biología Molecular (EMBL) .

- ¿Están conectadas entre ellas?

- Sí. Y con la japonesa. En estos momentos hay estas tres bases de datos de ácidos nucleicos que contienen la misma información, porque diariamente cualquier secuencia que un investigador deposite en una de estas base de datos se propaga automáticamente a las otras dos. Supongo que por razones políticas interesa que haya tres bases de datos, con tres entornos nacionales diferentes. Al principio esta base de datos sólo tenía 600.000 ácidos nucleicos.

- ¿Hay una idea de cuántos hay ahora?

- Se puede comprobar, pero estamos hablando de muchos cientos de miles de millones de datos. Esta información centralizada hace posible una investigación sistemática, sobre todo de una de las técnicas que es la comparación sistemática de las nuevas secuencias con las que ya existen. En el año que se crean las bases de datos, esta información se distribuye a través de disquetes o de cintas porque la aparición de Internet como la conocemos ahora no sucede hasta diez años más tarde. A finales de los 80, aparece un artículo en una revista científica que describe el programa informático BLAST (Basic Local Alignment Search Tool) para hacer comparaciones en las bases de datos de secuencias. Este es el artículo científico más citado en biología durante la década de los 90. La técnica de investigación más utilizada desde entonces es la de comparar secuencias con las almacenadas en la base de datos.

- O sea, este artículo casi coincide con la aparición del ordenador personal.

- Efectivamente, junto a la creación de bases de datos de secuencias electrónicas se popularizan los ordenadores, que empiezan a formar parte del mobiliario de las personas. Y esto ocurrió sólo hace 20 años.

- ¿Cuál es el siguiente salto?

- Dolittle protagoniza otro paso adelante en la bioinformática. Armado con su ordenador personal y utilizando las bases de datos de secuencias descubrió una relación importante: que un oncogen, un gen implicado en la aparición del cáncer, se parecía mucho a una proteína que se llamaba ‘Factor de crecimiento’. Y ésta relación, muy importante para entender los mecanismos del cáncer como crecimiento anormal de las células, había pasado desapercibida a los investigadores que estudiaban este gen. Por primera vez se puso de manifiesto que la informática era esencial en biología para entender, no ya para generar nuevo conocimiento. Durante los años 80, se produce este crecimiento exponencial en la cantidad de secuencias almacenadas en una base de datos y llega un momento, a finales de los 90, que hay que cambiar el paradigma por el cual se publican.

- ¿Por qué?

- La manera como la información fluye desde los investigadores a la base de datos es todavía muy arcaica. Yo estuve en Los Alamos en el 91, y aún entonces consultabas las revistas científicas y los ‘anotadores’ veían dónde estaban publicadas las secuencias, y las volvían a copiar. Es decir, la base de datos era electrónica, pero la forma de introducir los datos era manual, porque incluso se arrancaban las hojas de las revistas y la secuencia se copiaba de nuevo. Y eso funcionaba, porque había muy pocas. Pero claro, en cuanto empezó a crecer nos dimos cuenta de que entre que se hacía pública una secuencia, aparecía en una revista especializada, llegaba a todos los laboratorios y se introducía en una base de datos, habían pasado dos años. Y no había forma manual de hacerlo de otra forma. Incrementar el número de personas que se dedicaran únicamente a esto no variaba el tiempo de espera. Se establece entonces, a finales de los 90, lo que se llama el Electronic Data Publishing, que es cuando Internet ya permite que los investigadores envíen las secuencias por correo electrónico a una base de datos.

Vaciado de datos manual

- ¿Y desde el correo electrónico se volcaba directamente a la base de datos?

- No. El vaciado se hacía a mano desde el correo electrónico a la base de datos. Estamos hablando de un poco antes de que aparezca el World Wide Web, que es cuando aparecen los primeros programas de Internet que permiten la entrada automática de datos.

- Yo estuve en Universidad Carnegie Mellon en 1987 y, en aquellos momentos, se estaba introduciendo por primera vez la hojas de cálculo en Arpa-Net, con la posibilidad de que los científicos pudieran introducir o modificar datos de manera remota de acuerdo a la investigación que estaban haciendo.

- En biología molecular el cambio se produce a principios de los 90. Aparece el programa Sequin, que lo que hace es que tú tienes tu cliente en el ordenador y te conectabas directamente con la base de datos. Es el momento en que se inicia el proyecto del Genoma Humano, a principios de los 90. La importancia de la computación se hace tan evidente en la biología que, en un documento de 1989 del Departamento de Energía de los EEUU se puede leer esto: “La secuenciación del genoma humano puede resultar en grandes cantidades de datos complejos. El desarrollo de proyectos informáticos con algoritmos, software y bases de datos es crucial para la interpretación de estos datos de manera robusta y automatizada en los centros de secuenciación genómica. Los sistemas computacionales tienen un poder esencial en todos los aspectos de la investigación genómica: desde la adquisición de los datos, hasta su análisis y manipulación. Sin ordenadores potentes y sistemas apropiados para el tratamiento de los datos la investigación genómica es imposible”. Creo que éste es el momento en que somos más conscientes que el avance en la biología sin el soporte de la informática no es posible.

El encuentro del genoma humano y la Red

- O sea, el lanzamiento del proyecto del Genoma Humano y la aparición de la WWW son acontecimientos casi simultáneos.

- Sí, vuelve a producirse esta curiosa convergencia entre el desarrollo científico y el informático. La web ha sido esencial para llevar a cabo un proyecto cooperativo como el del genoma humano. De hecho, las secuencias genómicas residen en Internet y los investigadores acceden a ella a través de la Red. Y no sólo eso: además hacen experimentos en Internet, porque la mayor parte de los investigadores utilizan ordenadores para hacer sus experimentos que no están en sus laboratorios sino en algún lugar de EEUU o de Inglaterra.

- En este caso, están utilizando la capacidad de procesamiento de un ordenador. No se está refiriendo a entornos virtuales....

- No, no. Hoy lo que hacen los investigadores es ir al National Center for Biotechnology Information (NCBI) de EEUU... Por ejemplo, tengo una secuencia de aminoácidos que acabo de obtener en mi laboratorio, no sé lo que es, es pequeña, y quiero saber si se parece a algo conocido. Accedo a la base de datos del NCBI con un programa y por defecto compara mi secuencia con los datos almacenados de 200.000 o 300.000 secuencias de aminoácidos.

- ¿En cuatro minutos se puede saber todo esto?

R: Normalmente, en segundos. Y a medida que vamos repasando los resultados vas encontrando más diferencias. En realidad, estamos haciendo comparaciones con casi un millón de secuencias que tienen más de 80 millones de letras.

- ¿Quiere esto decir que hemos llegado a un punto donde no hay forma de investigar sin la red?

- A principios de los 90, cuando la WWW empezó a hacerse popular con el programa Mosaic, Internet ya era una gran herramienta para interactuar intercambiando información. No sólo nos dedicábamos a visualizar lo que había, sino que ya podíamos enviar nuestras secuencias a través de un navegador a otro lugar del cual obteníamos unos resultados. Es decir, que Internet era ese espacio virtual donde realizabas cálculos, mantenía los enlaces con los demás y hacías tus experimentos computacionales. Esto era así alrededor de 1994-95. A mediados de 1995, esta relación entre la biología y la informática todavía se hace más íntima. Hasta ahora hemos hablado de los ordenadores como herramienta de análisis de información, pero en 1994, Leonard M. Adleman publica un artículo titulado: Molecular Computations of Solutions to Combinatorial Problems, y es cuando se empieza a hablar de los ordenadores moleculares basados en el DNA. Teóricamente, este tipo de ordenadores son muy eficientes y resuelven de manera mucho más económica cálculos que requieren mucha más potencia.

- Me imagino que su trabajo ha estado en el centro de toda esta rápida evolución.

- Sí, claro. Mi trabajo consiste en hacer programas para saber dónde están los genes en una determinada secuencia. A nosotros los que nos interesa son los genes que hay en el genoma humano. Los genes codifican las proteínas y ésta son las responsables de los procesos de la vida: el color de nuestros ojos, del pelo, de las enfermedades que vamos a padecer, incluso de ciertos rasgos de nuestra personalidad. Sólo el 2% del genoma humano se codifica para producir proteínas. Lo que hacemos es desarrollar programas para que nos indiquen qué regiones del genoma son las que fabrican proteínas.

- Pero ¿cómo determinan sus objetivos?

- Nosotros intentamos buscar en todo los genes del genoma humano. El punto de arranque es la secuenciación del genoma humano, o del ratón, o del organismo que sea. Los genes están fragmentados, y un gen y otro están separados por miles de bases de nucleicos que no codifican nada. En estos momentos, lo que estamos investigando es cómo a partir de la comparación de genomas, comparando el humano con el de ratón, podemos obtener un catálogo mejor de los genes humanos porque hasta ahora la proyección de genes es poco fiable. Nosotros no sabemos cuántos genes hay en el genoma humano. De hecho, tenemos una visión algo borrosa de cuántos y cuáles son estos genes. Sólo estamos bastante seguros de cómo son unos 12 mil genes, es decir, a qué proteína van a dar lugar. Pero, para el resto, n sabemos mucho todavía. La idea es que cuando comparamos el genoma humano y el de ratón, nos damos cuenta de una cosa bien curiosa: y es que hay regiones que son parecidas, que son las que ejercen alguna función, las que han permanecido activas a lo largo de la evolución. Y esa es un poco la idea que estamos explorando en estos momentos: hacer estas comparaciones para detectar las regiones activas donde se encuentran los genes.

- Esto implicaría también que si vas comparando genomas y vas encontrando partes repetidas en otros genomas, es como si hicieras una limpieza del genoma tuyo porque las no repetidas supuestamente pueden ser basura o...

- Exactamente. Esa es un poco la idea.

- ¿Y la línea de trabajo es propia o la puede encargar cualquier instituto de investigación?

- Ambas cosas. Lo que hacemos son programas para distribuir genes, que llamamos DAS. La idea es que a partir del genoma, en distintos laboratorios, unas personas van a dedicarse a analizar aspectos determinados del genoma. Es decir, que van a generar mucho conocimiento sobre éste. ¿Cuál es la mejor forma de que esta información se distribuya? Una solución es que cada investigador, la información que genera localmente, la envíe a una base de datos centralizada. Pero este sistema no parece que sea muy eficiente por las dimensiones que está alcanzando la obtención de datos genómicos. Lo que se está proponiendo es un esquema en el cual tú seas propietario de esta información, pero que cualquiera pueda acceder a ella a través de un interface común.

El Napster ‘genómico’

- Es la idea de Napster.

- Es la misma idea. Tu ordenador sería un terminal y quien quiera accede a esta información. Esto ya está funcionando, pero nosotros somos los primeros que estamos poniendo un servidor con estos programas de distribución de genes, DAS, para que se acceda a él.

- Vosotros funcionáis como parte del movimiento de Código Abierto.

- Sí, en la práctica sí. Es que las otras opciones son difíciles. No es que yo esté en contra de comercializar el software, pero nosotros somos un instituto público que recibimos financiación de fondos públicos. Por otro lado, en nuestro país los mecanismos para comercializar los resultados de una investigación no son muy ágiles. Si quisiera vender programas no sabría cómo hacerlo. No hay posibilidades por ahora de que el instituto genere empresas para estas actividades. Es más fácil tener mi programa en el dominio público y que la gente acceda a él a través de un servidor, o pueden bajarse el software e instalárselo en su máquina.

- En el caso del DAS, ¿dónde está el buscador?

- Está centralizado en el ENSEMBL (un proyecto el EMBL y el Instituto de Biotecnología Europeo). A través del ENSEMBL entro en el servidor DAS o puedo ser un DAS Client e ir a cualquier servidor. Cualquiera que tenga uno de estos últimos, se podrá conectar a nuestro servidor y buscar la información que le interesa.

- La clave de Napster está en el buscador que permite saber a qué ordenador tienes que ir para encontrar la música que te interesa. ¿Aquí ocurre lo mismo?

- Aquí es un poco distinto. Cuando entras una secuencia del genoma te saldrán los terminales DAS que tienen información sobre esta secuencia. Eso es el buscador. Lo que pasa que ésta es una tecnología muy poco explotada.

Limitaciones a la información

- Todo esto se corresponde con bases de datos públicas. ¿Qué pasa en el sector privado con la información del genoma?

R: El sector privado hace unas inversiones que quiere capitalizar. Me parece normal, ellos generan una información, son los propietarios y creo que pueden hacer lo que quieran.

- Pero ha habido mucha polémica con lo que planteaba Craig Venter, de Celera, porque puso condiciones a la utilización de la información sobre el genoma humano.

- El quiso publicar la secuencia en una revista científica, y las condiciones para ello son bastante claras. Nature, Science y muchas otras exigen que cuando publicas datos de una secuencia genómica estén disponibles para todos los investigadores. En los sistemas políticos en los que vivimos, si alguien quiere invertir dinero en obtener información sobre algún aspecto de la realidad, es hasta cierto punto propietario de ésta. Si yo me gasto dinero para hacer una cartografía de las especies vegetales que hay en el Vall D’Arán, por ejemplo, pues con esa información puedo hacer lo que quiera. Lo único que si quieres publicar esos resultados en una publicación científica hay unas reglas, y una de ellas es que los resultados tienen que ser reproducibles.

- Con este grado de integración tan íntima entre los datos genómicos y las redes, ¿hasta qué punto puedes desarrollar investigación privada sin apoyarte en la pública? Antes sí se podía hacer. Antes una farmacéutica podía desarrollar una molécula desde cero hasta la pastilla...

- Sí, pero ahora no puede.

- ¿Y cómo se produce el corte del pastel para decidir la frontera entre lo público y lo privado?

- Bueno, pero, hasta cierto punto es lógico. Las farmacéuticas también pagan impuestos. No veo por qué se debe restringir el acceso...

- No, no es tanto restringir el acceso, el problema aparece por el lado de la explotación del producto que se obtenga. Que era lo que Craig Venter también discutía. El decía: tú también puedes acceder a mi información, pero me firmas un protocolo por el cual el día de mañana me pagas si desarrollas algún fármaco basado en la información que yo te he proporcionado... del genoma humano.

- Sí, ya, eso está más justificado.

- Pero este tipo de políticas sí que pueden limitar el acceso a la información genómica.

- Este tipo de políticas pueden hacerlo. Lo grave sería que, por ejemplo, lo que ha hecho Venter impidiera que otros investigadores utilizaran la secuencia pública para sus investigaciones, con la excusa de que él haya patentado antes la secuencia. Eso sería grave. Ahora bien, si un investigador cree que la secuencia le va a proporcionar ciertas ventajas competitivas y está de acuerdo con los términos de su utilización, yo también estoy de acuerdo. Y yo, particularmente, creo que la secuencia privada del genoma no añade mucho a la del genoma público. Por lo cual, no veo una razón para jugar con términos tan estrictos cuando aquí no hay ninguna restricción. Las compañías farmacéuticas pueden acceder a esta información sin ninguna remuneración, aunque a través de esto ellas obtengan también un beneficio. Pero me parece lógico porque pagan unos impuestos, y eso es público. Es público para todos.

- ¿Y qué le parece esta limitación que trata de imponer EEUU a la información sobre biología?

- Eso sería muy grave. El progreso ha sido espectacular en biología molecular durante la última década porque la información ha sido accesible, y porque Internet ha hecho posible que ese acceso fuera mucho más fácil. Ahora tenemos acceso a todas las revistas científicas online.

- ¿Hay debate sobre esta nueva política de EEUU en la comunidad científica?

- Sí, por supuesto. Una de las propuestas es que todas las revistas científicas estén accesibles a través de Internet de forma gratuita. Hay todo un movimiento para que esto se haga posible a finales de este año. Creo que la idea es que, a partir de seis meses de su publicación, todos los archivos sean de libre acceso. Con lo cual sería realmente extraordinario. Hay muchas revistas que ya dejan acceder a su información sin problemas.

- Usted cree que es factible que se concrete algo así

- Creo que es factible. Piense que los más interesados en la libre circulación de la información científica somos los científicos, pero también las grandes compañías farmacéuticas. El hecho de que puedan acceder sin ninguna restricción a la información científica para ellos es de gran interés. Lo cierto es que estamos en una situación muy asimétrica, muy injusta. EEUU es el primer y principal productor de información genética en el mundo, es el que exporta esa información. Nosotros nos hemos subido a ese tren sin aportar mucho. EEUU lleva un peso muy importante en investigación en biomedicina y le interesa también tener acceso a bases de datos de otros sitios, como Japón. Hay que decir, en ese sentido, que EEUU es muy generoso. Todo el mundo está utilizando los ordenadores públicos de ese país, sin pagar nada. Las bases de datos y los programas son americanos. Nosotros estamos.... da un poco de vergüenza, ¿no? Porque realmente nosotros no contribuimos a nada que sea relevante. Nosotros no cambiamos el mundo. Son ellos. Si se avanza en la investigación del cáncer y obtienen un tratamiento también se benefician los ciudadanos de España, y la investigación la están pagando los estadounidenses. La investigación que se hace en EEUU tiene mucho más impacto que la que se hace aquí. Por eso sería muy grave si cierran los canales de información. No creo que pase. El lobby científico cada vez tiene más peso en EEUU, y yo creo que no estaría de acuerdo.

- ¿En el debate que hay ahora esa es la postura de la mayoría?

- Es que se ha oído muy poco al respecto. O bien hay algunas directrices para que no se discuta sobre esto (lo cual sería grave); o bien es algo que no se ve como problema a corto plazo. Yo confío que sea lo segundo.

- En bioinformática, en general, ¿el mapa es también ese que usted ha descrito? ¿Los centros de producción más potentes están en EEUU? ¿Hay una correspondencia entre ser una potencia en biología molecular y serlo en bioinformática?

- En bioinformática no lo sé. En genómica, no hay dudas. En EEUU hay dos campos claros, el privado, encabezado por Celera, y el público, integrado por 55 centros de investigación genética. El otro polo está en Inglaterra. El resto del mundo ha participado en el 10% del proyecto del genoma (China, Japón, etc.). En la investigación genómica, creo que las distancias entre EEUU y Europa se están acrecentando. Sobre todo porque el sistema europeo de investigación es muy burocrático, muy poco flexible y no responde con la rapidez que responde el sistema estadounidense. En bioinformática tenemos buenos centros, como el Instituto Europeo de Bioinformática, en Alemania hay algunos grupos importantes de bioinformática y en España también...

El país del fútbol y los toros

- ¿Qué está pasando en España?

- Pues pasa poco, como en todo. El Plan Nacional de Investigación sobre la Genómica salió tarde y mal dotado. Creo que hay oportunidades muy buenas, pero en nuestro país todavía se considera la investigación científica como un lujo, como algo que no nos pertenece, que no nos corresponde hacer. Es un mal país para ser científico. Es un país para ser torero o jugar al fútbol. Aquí en Cataluña se están haciendo esfuerzos, aunque escasean los recursos. Se está construyendo el Parque de Biomedicina que puede cambiar algo la dinámica local al plantearse el traer gente de otros países. Pero, por otro lado, la estructura del consejo de las universidades es muy burocratizada y eso hace muy difícil cambiar las cosas. Cuando vine de EEUU, en 1994, yo era una persona que tenía capacidad para explicar bien informática y estuve cuatro o cinco años de profesor asociado en la Universidad de Barcelona (UB), en una asignatura que se llamaba Operaciones Informáticas. Tenía que enseñar Excel y Word. Desesperante. Me peleaba con todos porque sostenía que yo podía enseñar algo más, pero era imposible crear una asignatura que se llamara Bioinformática. Ahora, en la Universidad Pompeu Fabra (UPF) hay una asignatura sobre esta materia.

- Pero en la UB todavía no la hay.

- Todavía no la hay, aunque la asignatura de Operaciones Informáticas está derivando en parte hacia la bioinformática. Yo sólo pretendía que aprovecharan el hecho de haber sido formado en EEUU.

- De todas maneras, la estructura de la información genómica a escala global abre por primera vez la posibilidad de que, países que no han tenido experiencia o una historia en este tipo de investigación, no sólo se conecten a estas redes para aprovechar los datos, sino incluso para abrir líneas de investigación mediante la comparación de secuencias.

- Claro, claro. Es totalmente un avance en ese sentido.

- ¿Está sucediendo?

- Por supuesto. Hay algunos países donde la inversión en bioinformática es extraordinaria, como en la India. Yo estuve allí quince días, y en las demandas de trabajo de los periódicos generalistas salían anuncios de empresas de bioinformática que reclutaban gente. Es algo que se reconoce como una de las tecnologías cruciales del siglo XXI.

- ¿Cómo es la cadena de actividad de estas empresas de bioinformática?

- No lo sé muy bien. EEUU desde luego se beneficia mucho de esta mano de obra barata. Las empresas de la India subcontratan a otras empresas que hacen de suministradoras de mano de obra barata. No es la Nike que se dedica a hacer zapatillas de deporte. En este caso, el nivel es más alto, es hacer programas informáticos, pero viene a ser la misma idea. Las inversiones necesarias no son de tal magnitud como las que exige el poner en funcionamiento un laboratorio experimental, lo cual le abre las puertas a muchos países para realizar sus propios desarrollos. Esto está pasando, por ejemplo, en Singapur.

- Esta podría ser una actividad de segundo o tercer nivel, en la cual sin necesidad de tener un laboratorio, pero disponiendo de una capacidad de comparar, sintetizar, analizar secuencias genómicas en red, se puede extraer información significativa para elaborar terapias, productos propios, etc.

- Sí, en principio, esto puede funcionar así. Pero no es tan fácil. En estos momentos hay una escasez notable de gente formada en campos como las matemáticas, la informática y la estadística que estén orientados hacia la biología, donde hay que lidiar con un volumen creciente de datos y de complejidad. Pero sí, se puede hacer investigación a partir de la información depositada en las bases de datos. Esto es algo que nunca antes se había planteado en la ciencia. Ahora investigamos a partir del contenido informativo almacenado en las redes.

* Publicado inicialmente en la revista digital en.red.ando 26/03/2002

** Roderic Guigó es investigador de biología molecular. Se doctoró por la Universidad de Barcelona en 1988. Ha centrado una parte esencial de sus trabajos en el desarrollo de modelos computacionales y matemáticos en Genética de Población y Ecología Evolucionaria. Tras doctorarse, pasó un tiempo en el Instituto Oncológico Farber Dana en el Departamento de Investigación de Computación Biológica Molecular, de la Universidad de Harvard. En 1991, se trasladó al Centro de Investigación de Ingeniería Biomolecular de la Universidad de Boston. Durante años estuvo implicado en varios proyectos en el campo del análisis de secuencias: identificación genética, extracción de conocimiento automático de bases de datos de biosecuencia; análisis de secuencias de proteínas; y en la evolución molecular. En 1992, estudió en el Laboratorio de Los Alamos, donde participó en un grupo de investigación sobre Biofísica y Biología Teórica. En Los Alamos trabajó sobre problemas relacionados con el análisis del genoma: estimación de la densidad de códigos de proteínas y diseño de la estructura del genoma a gran escala. De 1994 a 1999 fue profesor asociado en el Departamento de Estadísticas de la Universidad de Barcelona (UB). Actualmente, es investigador en el Instituto Municipal de Investigación Médica (IMIM) de Barcelona y profesor asociado en la Universitat Politècnica de Catalunya (UPC).

LA ONDA® DIGITAL

Contáctenos

Archivo

Números anteriores

Reportajes

Documentos

Recetas de Cocina

Marquesinas