Trata-se de um método inovador que codifica registros de identificação pessoal em sequências de DNA, permitindo assim interligar informações existentes em diversos bancos, mesmo que contenham erros ou inconsistências.
Pesquisadores brasileiros criaram uma ferramenta capaz de vincular e analisar diferentes bases de dados de saúde com milhões de informações. O Tucuxi-BLAST codifica os diferentes registros contidos em um banco -por exemplo, o nome do indivíduo, o nome da mãe e o local de origem- por meio de letras que representam os nucleotídeos de uma sequência de DNA (A, T, C ou G). Ao “transformar” a pessoa em um DNA, permite vincular informações de vários bancos mesmo que contenham erros ou inconsistências.
Com o método, é possível, por exemplo, cruzar o banco de dados de pessoas vacinadas pelo Sistema Único de Saúde (SUS) com dados de outros bancos para encontrar pacientes vacinados que contraíram determinada doença. Mesmo que esses registros contenham erros de digitação, alterações de letras ou dados ausentes (campo inexistente ou não preenchido), o Tucuxi-BLAST pode identificar que são os mesmos indivíduos de bancos de dados diferentes.
Dessa forma, as diferenças nos registros de um mesmo indivíduo são entendidas pelo sistema como se fossem “mutações” no DNA, uma vez que as ferramentas genômicas podem mostrar os fragmentos semelhantes entre si e, com isso, fazer a ligação das bases.
“O SUS pode ser uma valiosa fonte de informação para estudos médicos e epidemiológicos, pois armazena dados de saúde de milhões de pessoas. No entanto, cada doença ou tipo de dado é armazenado em diferentes bancos de dados, que nem sempre se comunicam entre si. Com o método que desenvolvemos, é possível vinculá-los”, explica o imunologista Helder Nakaya, autor do artigo Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach, publicado na revista científica PeerJ.
Como funciona o Tucuxi – Blast
Para desenvolver o método, os cientistas traduziram os dados dos indivíduos em sequências de DNA usando uma roda de codons, uma série de bases nitrogenadas de RNA mensageiro responsáveis por codificar um determinado aminoácido ou indicar o ponto inicial ou final da cadeia de mRNA. Essas rodas mudam em diferentes execuções sem prejudicar a eficiência do processo.
O esquema de codificação permite a criptografia de dados em tempo real, o que garante privacidade durante a vinculação. “Trabalhando com DNA é possível criptografar os dados, com maior segurança quanto à privacidade das informações”, explica Nakaya.
A comparação dos campos de identificação codificados por DNA é feita usando BLAST e algoritmos de aprendizado por computador, que classificam automaticamente os resultados finais.
Semelhante à genômica comparativa, na qual genes de diferentes genomas são comparados para determinar sequências comuns e únicas, o Tucuxi-BLAST permite a integração simultânea de vários bancos administrativos, sem a necessidade de dados complexos pré-processados.
Durante o estudo, o grupo testou e comparou informações de um banco simulado com cadastro de 300 milhões de indivíduos, além de quatro grandes bancos de dados administrativos com informações reais de pacientes brasileiros.
A conclusão indicou que o método conseguiu superar os erros ortográficos e tipográficos em um tempo cinco vezes mais rápido: enquanto o processamento dos enlaces de registros (RL, sigla em inglês para record linkage) do maior conjunto de dados (200 mil registros) levou 127 horas (cinco dias e sete horas), o Tucuxi-BLAST fez em 23 horas (menos de um dia).
A plataforma pode ser utilizada para realizar análises epidemiológicas e na formulação de políticas públicas
Fontes:
https://tucuxi-translator.csbiology.org/