Análise de STRs forenses em R

Olá. Esse post é pra quem trabalha com STRs forenses e tem interesse de analisar em R.

Eu publiquei no GitHub [https://github.com/VitorAguiar/forensicstr] um programinha (Rforensic.R) que toma um arquivo com perfis dos indivíduos (exemplo: “sample_input.csv”) e produz uma tabela de frequência alélica e estatísticas de relevância forense, como heterozigose observada e esperada, coeficiente de endocruzamento (que pode ser considerado uma quantificação dos desvios de Hardy-Weinberg em cada locus), índice de paternidade típico, informação de conteúdo polimórfico, probabilidade de match, poder de exclusão e poder de discriminação.

O programa roda em poucos segundos mesmo que você tenha milhares de indivíduos, evitando os vários passos de copy-n-paste do PowerStats e formatação de arquivos de input do Arlequin.

Além disso ele também pode fazer uma tabela de matches adventícios completos e parciais (nesse caso pode levar vários minutos dependendo da quantidade de indivíduos), e um histograma simples de missing data em cada locus.

Não tem GUI, então se executa do source code. Posso auxiliar quem quiser usar e não esteja familiarizado com R. Ainda é uma versão teste, então podem acontecer alguns probleminhas na execução. Nesse caso, favor reportar na seção de bugs do GitHub.

E se alguém publicar um paper, referencia meu GitHub! 🙂

P.S.: Publiquei aqui no blog essa lista de fontes interessantes para quem quer aprender R: http://wp.me/s2Tzlq-r

Anúncios

Curso de Verão em Genética Estatística na Esalq

Cheguei a Piracicaba no dia 02 de fevereiro. Era um domingo quente. Todos os 10 dias subsequentes seriam quentes, 40º C pra cima. E secos… não chovia há dias e a região já enfrentava uma grave seca.

Mas o campus agradável da Esalq-USP, com aquele clima de fazenda, ainda assim seria um lugar perfeito para o SISG Brazil (a versão brasileira do Summer Institute in Statistical Genetics que ocorre anualmente na University of Washington Seattle).

Com cursos instruídos por pesquisadores das melhores instituições do mundo e estudantes e profissionais também de várias partes do planeta, o evento foi um sucesso. Aprendi muito, revi amigos e encontrei muita gente interessante.

Participei de 3 módulos: Quantitative Genetics, com os professores Bruce Walsh (University of Arizona) e Guilherme Rosa (University of Wisconsin Madison); High-dimensional Omics Data e Network and Pathway Analysis of Omics Data, ambos com os professores Alison Motsinger-Reif (North Carolina State University) and Ali Shojaie (University of Washington Seattle).

O primeiro foi uma grande viagem pela genética quantitativa desde o paper de Fisher em 1918 até os dias atuais. Os outros dois apresentaram uma variedade de técnicas usadas pelos top pesquisadores do mundo para análise de dados “omics” e de redes “omics” (genômicas, proteômicas, metabolômicas…), muitas dessas ferramentas em R!

Deixo aqui meus parabéns aos organizadores, principalmente ao Dr. Augusto Garcia e seus alunos, pela iniciativa corajosa de trazer o evento ao Brasil e pela excelência na organização. O evento deve acontecer a cada 2 anos. Que venha o próximo!

Flickr do Evento

Reunião de Bioestatística III

No dia 17 de junho tivemos a 3ª reunião de bioestatística do NGHM. Com a mestranda Gabriela Peterle no comando, discutimos temas básicos como a diferenciação entre população e amostra, parâmetro e estimativa, média e mediana (e a diferença de sensibilidade a outliers entre elas), desvio padrão e erro padrão, além de relembrar o cálculo de intervalo de confiança e tamanho de amostra.

Na parte de tamanho de amostra, discutimos os tipos de cálculos, que diferem dependendo do desenho do estudo. Fizemos uma análise dos cálculos realizados pelo STATCALC no Epi Info para estudos descritivos e estudos do tipo coorte.

Também propomos funções em R usando as mesmas fórmulas usadas pelo Epi Info para esses dois desenhos de estudo. O script está disponível aqui.

Reunião de Bioestatística II: Risco Relativo e Odds Ratio

Na última reunião de bioestatística do NGHM, eu, Raquel Spinassé e Victor Stange falamos sobre o uso de risco relativo (RR) e odds ratio (OR) em pesquisa biomédica, duas estatísticas muito confundidas entre si e frequentemente mal interpretadas.

O risco relativo deve ser usado em estudos de coorte, no qual o pesquisador segue um grupo de indivíduos ao longo de um tempo e verifica a ocorrência de um evento (por exemplo, uma doença), tendo assim uma medida de sua incidência. O RR então mede o risco de um subgrupo desenvolver o evento em relação a outro subgrupo.

Por exemplo, em um estudo para analisar o risco de se desenvolver câncer de pulmão, um pesquisador pode acompanhar um grupo de 5.000 pessoas ao longo de um tempo. Ao acessar a quantidade de indivíduos que desenvolveram a doença, pode-se analisar a proporção desses indivíduos que tem hábitos tabagistas ou não.

Assim, o RR seria dado por: proporção de fumantes com câncer/proporção de não fumantes com câncer. Isso poderia ser interpretado como o risco de se desenvolver câncer de pulmão dado que você fuma.

Odds ratio é uma medida de interpretação um tanto menos intuitiva, porém muito útil em estudos de caso-controle. Estudo de caso-controle é aquele em que o pesquisador define os grupos antes de iniciar o estudo, por exemplo, um grupo de 500 indivíduos com a doença e um grupo de 500 indivíduos controles. Nesse tipo de desenho, não se pode usar o RR, uma vez que não se tem uma medida de incidência do evento, afinal é o próprio pesquisador quem define a quantidade de indivíduos em cada grupo.

É possível entender o conceito de Odds com um exemplo simples. Imagine a probabilidade de tirar um 6 ao jogar um dado de 6 lados, esta é 1/6 (esse seria o “risco”). A odds de se tirar o mesmo 6 é de 1/5, pois a odds é dada pela probabilidade de um evento ocorrer dividida pela probabilidade de ele não ocorrer, ou p / (1-p).

No nosso exemplo de câncer de pulmão, a OR seria dada por: (quantidade de fumantes com câncer/quantidade de fumantes sem câncer) / (quantidade de não fumantes com câncer/quantidade de não fumantes sem câncer).

Na reunião, também apresentamos uma função em R para calcular RR e OR, além de um exemplo de cálculo de OR pela abordagem da regressão logística. O R script está disponível aqui para que todos possam executar em seu próprio computador.

Odds de se sobreviver dado  diferentes genótipos. (via Ken Rice, University of Washington Seattle)

Probabilidades e Odds de morte por uma certa doença para diferentes genótipos. (via Ken Rice, University of Washington Seattle)

Reunião de bioestatística I

Hoje tivemos a primeira reunião de bioestatística do NGHM. Abordamos conceitos básicos como amplitude interquartil, variância, desvio padrão, erro padrão e intervalo de confiança. A apresentação e o R script estão disponíveis aqui.

A reunião tem como objetivo reforçar o conhecimento dos alunos da genética em conceitos básicos de estatística, bem como a compreensão dos testes mais aplicados em pesquisas científicas da área.

A próxima reunião ainda precisa de um voluntário para realizar a apresentação. Alguns tópicos sugeridos são:

1. População e amostras, tipos de variáveis;
2. Correlação e Regressão;
3. Análise de variância (ANOVA);
4. Tipos de distribuição (normal, uniforme, binomial…);
5. Test T: uma amostra, diferença entre duas amostras, distribuição t;
6. Teste do chi-quadrado;
7. Regressão múltipla e logistica;
8. Noções de probabilidade;
9. Odds Ratio;

Sugestão de material:

Livro de estatística OpenIntro Statistics

Vídeos no canal youtube.com/khanacademy 

Os alunos são incentivados a escolherem um tema que tem vontade de aprender ou que tem necessidade aplicar em seu projeto. Há total liberdade quanto ao formato de apresentação.

Programação em R para análise de dados genômicos

Digite R no google e clique no primeiro link. Pronto, você nunca mais será o mesmo biólogo de antes. R é uma linguagem de programação, a princípio estruturada para manipulação de dados, modelagem e visualização. Não é exatamente uma coisa nova, o projeto R foi criado em torno de 1990 por Ross Ihaka e Robert Gentleman como uma implementação de S, e vem se tornando o padrão da estatística, análise de dados e desenvolvimento de gráficos na pesquisa científica.

A biologia hoje é uma disciplina de grandes e complexos conjuntos de dados. Assim, habilidades de programação são essenciais a pesquisadores em biologia molecular, campo dominado por sequências de genomas completos, dados de arrays de milhões de SNPs e outras tecnologias. [Update em 12/02/2015: Veja essa história na Nature sobre R na ciência]

Além de todo o poder do pacote básico do R, há ainda quase 1.000 pacotes de R específicos para análise de dados genômicos disponíveis no site do projeto Bioconductor. Você pode instalar e começar a usá-los instantaneamente. [história na Nature sobre o Bioconductor]

Para quem quer começar a aprender, esse guia do iniciante em R é uma introdução em 6 partes bem completa da linguagem. A última parte traz uma lista de livros, sites, videos, tutoriais, cursos online, etc.

Para quem gosta de tomar cursos presenciais, todo ano acontece o Summer Institute in Statistical Genetics na University of Washington Seattle com vários módulos sobre análise genômica usando R, além de módulos introdutórios da linguagem. A cada 2 anos ocorre a versão brasileira do evento (a próxima será no verão de 2016) na Esalq-USP em Piracicaba-SP.