Gestão e interpretação de grande volume de dados são desafios atuais da genômica
Gestão e interpretação de grande volume de dados são desafios atuais da genômica
Terceira geração de sequenciamento genético traz desafios relacionados à infraestrutura tecnológica, ao armazenamento e à padronização de dados
O mundo vive hoje uma nova era da genômica na saúde. Os avanços nessa área já se traduzem na evolução de diagnósticos, predição de risco, medicina de precisão, cuidado personalizado e saúde populacional, apenas para citar algumas frentes. Ao mesmo tempo em que se abrem inúmeras possibilidades, esse cenário de avanços em velocidade carrega desafios como trabalhar com um enorme volume de dados gerados, infraestrutura tecnológica e a capacidade de interpretação em diferentes escalas – pois não basta mapear e juntar informações, é preciso saber o que fazer com elas.
É nesse contexto que a ciência de dados genômicos ganha cada vez mais protagonismo. A área começou a se destacar ainda na década de 1990, quando a tecnologia de sequenciamento genético começou a dar passos largos o suficiente para desvendar os pormenores do genoma humano. Segundo o National Human Genome Research Institute, um dos órgãos que compõem a rede de institutos nacionais de saúde dos Estados Unidos (NIH, na sigla em inglês), a abordagem tem o objetivo de utilizar métodos computacionais e estatísticos de larga escala para decodificar as informações funcionais escondidas na sequência de DNA.
Em outras palavras, é a ciência que permite que os pesquisadores identifiquem quais informações realmente são úteis em meio ao oceano de dados gerados pelo sequenciamento. De acordo com o NIH, estima-se que, atualmente, sejam gerados até 40 bilhões de gigabytes de dados genômicos por ano.
“A tecnologia de sequenciamento avançou de uma forma nunca vista”, afirma Tatiana Almeida, gerente médica do laboratório clínico da área de dados do Hospital Israelita Albert Einstein. “Você pode pensar no sequenciamento genômico como uma informação do indivíduo completo ou de partes dele, como ocorre quando fazemos o sequenciamento de um tumor, por exemplo.”
A título de comparação, o icônico Projeto Genoma Humano, considerado um marco nos estudos genéticos e finalizado em 2003 a um custo de US$ 3 bilhões, realizou o primeiro sequenciamento completo de um genoma humano gerando então 200 gigabytes em dados.
Mais de duas décadas depois, já há tecnologia para o sequenciamento completo do genoma abaixo de US$1 mil e estudos apontam que o volume de dados genômicos produzidos praticamente duplica a cada sete meses. A tendência é que essa capacidade seja cada vez mais desafiada quando chegar a terceira geração de sequenciamento (que ainda está em estudo): equipamentos conhecidos como single-cell, capazes de sequenciar uma única célula e aumentar as informações colhidas com esse tipo de análise. Hoje, o sequenciamento mais comum é feito ainda pelas máquinas as segunda geração, que avaliam uma amostra maior de material sem, no entanto, descer ao nível de uma única célula.
Sequenciamento populacional aumentará ainda mais volume de dados
Uma vez que o sequenciamento individual vai, aos poucos, se tornando um procedimento mais acessível, o horizonte se expande para dar espaço à era dos sequenciamentos populacionais. Primeiro, há o desafio dos diagnósticos das doenças monogênicas – ou seja, aquelas nas quais a condição está ligada à alteração ou mutação de um gene específico. O próximo passo será compreender, por meio da genômica, doenças mais incidentes, como as cardiovasculares, o diabetes, a hipertensão e a depressão – reconhecidas como condições resultantes de uma soma de mutações genéticas, fatores ambientais e epigenéticos (que são as variações de expressão de um gene não necessariamente ligada a uma mutação).
Esse olhar tem entrado na lupa de pesquisadores com o aumento de iniciativas de sequenciamento de grandes populações, como o projeto britânico UK Biobank, que gerou dados de 500 mil cidadãos e deu origem ao maior banco de dados genéticos do mundo – uma produção de 27,5 petabytes em dados. Almeida explica que o desafio de se analisar essas doenças com o foco em predição de risco é justamente o montante de dados necessários para enxergar padrões.
“São estudos que exigem muitas pessoas para que o dado faça sentido. Em doenças como a depressão, por exemplo, em que o fator ambiental é muito relevante, para começar a falar sobre risco genético, é preciso uma base de dados de 50 mil pessoas, no mínimo. Com 50 mil pessoas, a 150 gigabytes de dados para cada uma, você percebe que é algo exponencial, são volumes muito grandes quando atuamos na esfera populacional”, explica.
Análises dessa dimensão produzem um desafio secundário: os custos da infraestrutura tecnológica para armazenar esses dados. Almeida argumenta que ainda é necessário guardar dados grandiosos dos quais, muitas vezes, apenas um pequeno pedaço esconde uma informação valiosa. “Tenho um dado gigante para usar um pouquinho dele. Como não posso me desfazer desse dado enorme, isso gera um custo para manter essa ocupação grande”, afirma.
Segundo ela, no caso das doenças monogênicas, a interação humana com o resultado de testes e exames e a influência da interpretação do especialista ainda é mais relevante. Já nas doenças comuns, a inteligência artificial não só é uma grande aposta para otimizar análises e resultados, como já faz parte da realidade de iniciativas dessa natureza em diferentes pontos da jornada. “A IA vem sendo usada em vários pontos, seja para encontrar essas variações de alto risco, seja para juntar essas informações com outras e compor escalas de risco que não são só genéticas, mas que levam em consideração outras variações”, aponta a geneticista.
Padronização e infraestrutura de dados genéticos
Para resolver este desafio de gestão de dados, normalmente a padronização surge como parte da solução em diversas áreas da medicina. Contudo, isso ainda não aconteceu com os dados genômicos, segundo a pesquisadora. Ela explica que é preciso entender que esses sistemas surgem por uma demanda e, no cenário da genômica, ainda não há um sistema internacional de padronização elaborado.
Apesar disso, Almeida salienta que há conversas em andamento. “O que temos hoje são padrões para gerar o dado e, posteriormente, podemos escolher encaixar esse dado em um padrão. Mas isso ainda não é universal como já acontece com o CID [Classificação Internacional de Doenças] e com os exames laboratoriais. Existem inúmeras iniciativas nessa direção, o que falta é chegar a um acordo.”
Em paralelo a essa discussão de padronização de dados, há um consenso de que é preciso investir na construção de data centers com sistemas de armazenamento rápidos, com alta capacidade de processamento e novas tecnologias que otimizem a consulta e a análise desses dados. Para Almeida, isso será fundamental, especialmente com a previsão de um aumento exponencial na quantidade de informações dessa natureza e com a migração para além do ambiente de pesquisa.
“Esperamos que o sequenciamento não exista somente no contexto da pesquisa, mas no contexto populacional, no diagnóstico. Sabemos que, com o avanço nas ferramentas de análise e de otimização dos processamentos, vai ficar barato fazer esse tipo de análise”, espera.
A junção de dados biológicos, além dos genéticos, como RNA, proteínas e metabólitos, é outra grande aposta, trazendo para o contexto informações clínicas, de estilo de vida e ambiente. “No futuro, muito provavelmente as pessoas não receberão mais um resultado do exame genético, mas um portfólio com a composição de riscos e prognósticos, porque é isso que interessa no final das contas”, conclui.
One Comment
Leave A Comment
Recebar nossa Newsletter
NATALIA CUMINALE
Sou apaixonada por saúde e por todo o universo que cerca esse tema -- as histórias de pacientes, as descobertas científicas, os desafios para que o acesso à saúde seja possível e sustentável. Ao longo da minha carreira, me especializei em transformar a informação científica em algo acessível para todos. Busco tendências todos os dias -- em cursos internacionais, conversas com especialistas e na vida cotidiana. No Futuro da Saúde, trazemos essas análises e informações aqui no site, na newsletter, com uma curadoria semanal, no podcast, nas nossas redes sociais e com conteúdos no YouTube.
Por isso a necessidade de formar bons profissionais de Bioinformática, área competente para tratar dados dessa natureza