As ilhas do Espírito Santo [na pesquisa científica]

Há alguns dias recebemos um contato da Professora Marta Freire, do Instituto Federal do Espírito Santo (IFES), mestre em inteligência computacional, com interesse em colaborar com o NGHM na aplicação de ferramentas computacionais na pesquisa genômica.

“Recentemente, iniciei uma iniciação científica com um aluno do IFES usando algoritmos para processamento de fitas de DNA. Essa iniciação me fez perceber como estamos trabalhando em ilhas”, diz a Professora.

A integração com a computação já é realidade no cenário mundial da pesquisa em ciências biológicas, sendo comum laboratórios divididos entre cientistas das áreas biológicas e cientistas da computação. Na verdade, não se percebe divisão nenhuma, as duas áreas estão cada vez mais se fundindo.

Infelizmente, não é assim no Espírito Santo. Os grupos de pesquisa funcionam muitas vezes como ilhas, até dentro de um mesmo departamento. É urgente pensar a integração da biologia com a estatística e com a computação. A biologia está cada vez mais complexa, e a capacidade de gerar dados cada vez mais rápida. É preciso que se crie uma estrutura no Estado para trabalhar dentro dessa nova realidade.

Os projetos desenvolvidos no lab poderiam se beneficiar com ajuda da computação na análise e interpretação de dados. Sem falar nas importantes fontes de dados disponíveis publicamente que poderiam ser mais exploradas em projetos do NGHM, como o HapMap e o 1000 Genomes Project, o que não ocorre pela falta de habilidades em análise de dados.

O potencial de responder questões importantes na ciência aumenta muito quando esta une suas forças com a computação. Por isso, vamos trabalhar para implantar essas parcerias no NGHM em breve.

Não existe futuro da genética sem informática. E nós estamos prontos?

60 anos da dupla hélice

A molécula mais famosa do mundo “completa hoje” 60 anos. No dia 25 de abril de 1953, era publicada na Nature uma pequena carta de Watson e Crick, em que eles sugeriam “uma nova estrutura para o sal do ácido desoxirribonucleico”. A tal estrutura era de uma molécula composta por 2 fitas que se espiralavam entre si, e que iriam girar o mundo da biologia para sempre.

O DNA é um código que contém toda a informação (em forma de genes) para criar e gerenciar uma vida. Um código de 3 bilhões de unidades de comprimento (em humanos) que começou a ser quebrado em 1990 com o Projeto Genoma, o primeiro grande projeto científico de colaboração multinacional que custaria o equivalente a 6 missões espaciais, e que na época (só 23 anos atrás) era considerado surreal, como “sugerir a um balonista da era vitoriana que tentássemos colocar um homem na lua”, segundo palavras de Watson.

O Genoma mudou a forma como a pesquisa em ciências biológicas é feita. Mas embora a genômica tenha melhorado o diagnóstico e tratamento em alguns casos, ainda hoje o DNA guarda muitos segredos. Ainda buscamos entender os mecanismos causadores de doenças, como a evolução ocorre no nível molecular e como nossos genes governam nosso desenvolvimento e envelhecimento.

O futurista Ray Kurzweil coloca a genética como um dos 3 conhecimentos que dominarão o mundo no futuro, junto com a nanotecnologia e a informática. As possibilidades são enormes e vão desde o diagnóstico e cura instantâneos de doenças, temas polêmicos como o melhoramento genético de nossa espécie até a fusão da genética com a eletrônica, criando-se chips que usam o DNA como memória. E o que mais? Ao que você acha que o conhecimento em genética vai nos levar no futuro?

Programação em R para análise de dados genômicos

Digite R no google e clique no primeiro link. Pronto, você nunca mais será o mesmo biólogo de antes. R é uma linguagem de programação, a princípio estruturada para manipulação de dados, modelagem e visualização. Não é exatamente uma coisa nova, o projeto R foi criado em torno de 1990 por Ross Ihaka e Robert Gentleman como uma implementação de S, e vem se tornando o padrão da estatística, análise de dados e desenvolvimento de gráficos na pesquisa científica.

A biologia hoje é uma disciplina de grandes e complexos conjuntos de dados. Assim, habilidades de programação são essenciais a pesquisadores em biologia molecular, campo dominado por sequências de genomas completos, dados de arrays de milhões de SNPs e outras tecnologias. [Update em 12/02/2015: Veja essa história na Nature sobre R na ciência]

Além de todo o poder do pacote básico do R, há ainda quase 1.000 pacotes de R específicos para análise de dados genômicos disponíveis no site do projeto Bioconductor. Você pode instalar e começar a usá-los instantaneamente. [história na Nature sobre o Bioconductor]

Para quem quer começar a aprender, esse guia do iniciante em R é uma introdução em 6 partes bem completa da linguagem. A última parte traz uma lista de livros, sites, videos, tutoriais, cursos online, etc.

Para quem gosta de tomar cursos presenciais, todo ano acontece o Summer Institute in Statistical Genetics na University of Washington Seattle com vários módulos sobre análise genômica usando R, além de módulos introdutórios da linguagem. A cada 2 anos ocorre a versão brasileira do evento (a próxima será no verão de 2016) na Esalq-USP em Piracicaba-SP.

O DNA a serviço da investigação criminal

Hoje, dia 28 de novembro de 2012, entra em funcionamento no Brasil a Rede Integrada de Bancos de Perfis Genéticos, de acordo com a lei 12.654 sancionada pela presidente Dilma Rousseff em maio deste ano e que torna obrigatória a coleta de DNA de criminosos.

Isso significa que, a partir de agora, condenados por crimes violentos terão de fornecer obrigatoriamente uma amostra de DNA para inclusão em um banco de dados. Suspeitos em uma investigação também podem ter que faze-lo se assim decidido pela justiça. Se o exame de DNA será aplicado aos que foram condenados antes de a lei entrar em vigor ainda se discute, e isso deve ser decidido pelo Judiciário.

Toda vez que ocorrer um crime novo, o DNA do criminoso ou do investigado poderá ser comparado com aqueles já presentes no banco de dados, e então descobrir se o indivíduo em questão cometeu outro crime no passado, crime este que até então estava sem solução, ou ainda se o indivíduo vinha cometendo crimes em série, sendo possível ligar a mesma pessoa a todos os crimes. Outra grande utilidade de um banco de DNA é a libertação de inocentes que foram presos injustamente, muitas vezes por identificação errônea pela vítima.

Essa prática não é nenhuma novidade e já acontece em outros países há muito tempo. O banco de dados de DNA do Reino Unido, implantado em 1999, é hoje o segundo maior do mundo com cerca de 6 milhões de perfis genéticos. O banco americano, que começou a operar oficialmente em 1994, tem hoje mais de 9 milhões de perfis. Na California, um dos estados mais liberais dos EUA e de onde escrevo, a proposição 69 votada pelos eleitores em 2004 (como um referendo) autoriza a coleta de DNA de presos por qualquer tipo de crime, assim como alguns tipos de contravenção. O DNA aqui também pode ser coletado de imigrantes ilegais por qualquer razão.

O sistema brasileiro funcionará aos moldes do sistema do FBI nos EUA, que trabalha juntamente com o governo brasileiro desde 2010 na transferência dessa tecnologia chamada CODIS (COmbined DNA Index System). Hoje, quinze estados brasileiros tem laboratórios de DNA e CODIS instalado e estão prontos a funcionar no sistema. No Espírito Santo, esse trabalho deve ser conduzido pelo Laboratório de Perícia Criminal da Polícia Civil em Vitória.

O banco de DNA será sigiloso, apenas acessado por agentes credenciados. A informação armazenada se refere a 15 posições hipervariáveis no nosso genoma. Essas posições, ou marcadores, são chamadas de STR (Short Tandem Repeats), significando que elas são sequências curtas e repetidas de DNA. Como eu disse, eles são hipervariáveis, ou seja, tem uma taxa de mutação bem maior do que a média do genoma e, por isso, diferentes pessoas provavelmente tem diferentes números de repetições (parentes compartilham alguns marcadores iguais e a probabilidade de compartilhamento varia dependendo do grau de parentesco). O que é armazenado no banco são esses números de repetições (alelos), 30 números por pessoa, já que 15 marcadores são analisados e temos 2 cópias do genoma, uma herdada do pai e outra da mãe. E como curiosidade, esses marcadores são os mesmos utilizados em testes de paternidade.

Esses marcadores não são genes e não podem dizer nada sobre características físicas, susceptibilidade a doenças ou comportamento de uma pessoa, funcionando apenas como um código de barras para cada indivíduo, nada muito diferente de uma carteira de identidade com foto e impressão digital. Porém, o DNA pode identificar um indivíduo quando não há impressões digitais, testemunhas e nem imagens, graças a células deixadas pelo criminoso no local do crime (por exemplo, sêmen em casos de estupro).

A genética forense, ou genética de identificação de indivíduos, é um grande exemplo de como a pesquisa científica pode contribuir com o nosso bem-estar, não somente no que se refere a saúde e cura de doenças, mas também criando ferramentas que possibilitam uma sociedade cada vez mais segura.

Update em 26/03/2013: reportagem do Jornal Nacional sobre a criação do banco de DNA de criminosos

Update em 24/04/2013: Dr. Guilherme Jacques, do Instituto Nacional de Criminalística, fala sobre o banco nacional de DNA no Programa do Jô

O poder das redes sociais (na Ciência)

Todo mundo sabe (na verdade só algumas pessoas sabem) dos problemas e perigos das redes sociais, e por isso tem gente que se recusa a fazer parte delas. O que o futuro da humanidade nos reserva é a presença massiva da análise de dados em todos os segmentos da nossa vida. Seres humanos são dados! Uma rede social grátis como o Facebook logicamente tem que ter alguma forma de fazer dinheiro, e eles fazem isso vendendo dados. Basicamente, eles vendem você para anunciantes.

Porém as redes sociais tem sim alguma utilidade, até cientificamente falando. O twitter é um grande exemplo de rede onde é possível fazer contatos e receber informações relevantes. Isso tudo depende, claro, de como você usa o serviço.

A minha conta do twitter, por exemplo, é usada apenas para fins profissionais, independente de quão tolo isso possa parecer para alguns (por isso tenho poucos seguidores!). Eu só posto coisas relacionadas ao meu trabalho, e tento só seguir pessoas que fazem o mesmo ou então empresas, revistas científicas, etc. Por lá, eu já conversei com a revista Nature sobre qual seria o melhor presidente para o Brasil no que se refere ao apoio a ciência, já conversei com Stevens Rehen sobre o último prêmio Nobel, com pesquisadores do mesmo campo que eu sobre assuntos que nos interessam e já conectei com pessoas que nem conheço, mas que atendiam a mesma conferência que eu, graças ao uso da tal hashtag.

De fato, grandes cientistas do Brasil e do mundo estão presentes no twitter. Entre eles, os dois cabeças do projeto genoma, Francis Collins e Craig Venter, além da nata da ciência brasileira, como Miguel Nicolelis, Stevens Rehen, Mayana Zatz e Lygia da Veiga Pereira. Nicolelis usa sua conta para falar em grande parte sobre futebol (leia-se sobre o Palmeiras), e também sobre neurociência. E nesse momento em que escrevo, a Mayana tá fazendo campanha pela liberação dos materiais de pesquisa do processo de importação, o Stevens está comentando sobre sua recente entrevista no Programa do Jô, e a Lygia foi a Paraíba dar aula de células-tronco!

Mas sobre o que as pessoas interessadas em genética tuítam? Meu amigo Gaston Sanchez, do Center for Theoretical Evolutionary Genomics – University of California Berkeley, fez uma interessante análise em R e classificou os resultados em 8 grupos (figura abaixo). Em vermelho, temos tópicos como bigdata e machine learning, em laranja tuítes associados a palavra “molecular” e, em amarelo, associados a “câncer de mama”.

E você, tem conta no twitter e acha relevante para o seu trabalho? Usa outra rede social para esse fim?

Fonte da figura e código de R: http://cteg.berkeley.edu/~nielsen/2012/twittering-about-genetics-and-genomics/

Migrando para o lado seco da bancada

Talvez eu tenha o tipo de trabalho mais diferente do NGHM, no sentido de que em todo o meu doutorado, até hoje eu não usei uma pipeta, não fiz uma extração de DNA, nem PCR, nenhuma reação de sequênciamento, muito menos um gel.

Mas esse tipo de coisa é exatamente o que se pensa quando se fala em pesquisa genética e, se eu não faço isso, o que eu faço então? Bom, eu analiso dados. Meu único instrumento de trabalho é um computador. E sim, isso pode ser muito interessante. Após meu ano de sanduíche no Center for Theoretical Evolutionary Genomics da University of California Berkeley então… decidi que é isso que quero fazer da vida. É o que se chama de Biologia Computacional.

O laboratório aqui é um pouco diferente de um laboratório de biologia normal. Na verdade, há apenas grandes salas com computadores por toda a parte. E é só isso. Mas o que se faz aqui é biologia pura. O grupo é especializado em genética de populações, evolução e análise de dados genômicos em geral, como aqueles de sequênciamento de nova geração, RNAseq e SNP arrays. A formação das pessoas é bem matemática. Até mesmo os biólogos tem algum minor, mestrado ou doutorado em estatística, matemática ou ciência da computação.

Infelizmente, nas escolas brasileiras, a matemática é apresentada ao estudante de uma forma não amigável e, normalmente, não se requer a aplicação de muita (ou nenhuma) matemática em cursos de biologia. Isso é verdade até mesmo para cursos superiores. E não há integração dos setores de biologia, estatística e ciência da computação nas universidades. Consequentemente, biólogos sendo formados no Brasil tem pouca ou nenhuma habilidade de análise de dados. Muitos pensam que o importante é gerar dados, depois se contrata um estatístico ou bioinformata para fazer a outra parte. E assim, se tornam profissionais muito limitados.

O principal grupo de ferramentas de bioinformática é a programação. Convencer um estudante de biologia que ele deve aprender programação parece um pouco difícil, mas após escrever os primeiros programinhas, se pode perceber como é um campo acessível e excitante! Com programação, você pode customizar suas análises, seus gráficos e figuras, não precisando ficar preso a o que um determinado software faz. É permitido pensar nas próprias hipóteses e criar formas de testa-las. Se você precisa mudar algo num gráfico feito por um software, por exemplo, como fazer? Com programação, é só mudar uma linha de código. Sabe aquelas figuras perfeitas publicadas na Nature? Programação!

Tanto faz se você pretende se mudar completamente para o “lado seco” ou ainda manter um pé no “lado molhado” da bancada, habilidades de análise de dados é essencial. Pensando nisso, eu e Iúri temos discutido sobre criar essa cultura no grupo NGHM-Iúri. Pra começar, talvez pudéssemos montar uma disciplina ou um grupo de estudos no tema. Após um grupo de alunos dominarem os principais conceitos, a coisa se propaga. Novos alunos vão entrando, recebendo o conhecimento dos mais antigos e aprofundando-o.

Talvez essa ideia inicial ainda represente uma grande mudança na filosofia de trabalho do lab no futuro. Mas como os alunos encarariam essa mudança? Com esperança, muitos deles vão descobrir a beleza de se trabalhar com biologia num computador, escrevendo códigos de programação.

P.S.1: o autor se compromete a postar mais histórias sobre programação em breve.

P.S.2: Este post foi inspirado no post de Melissa Wilson Sayres em http://cteg.berkeley.edu/~nielsen/2012/this-is-research/