John P Jakupciak, Jeffrey M Wells, Jeffrey S Lin e Andrew B Feldman
A preparação para a biodefesa começa com a capacidade de detetar e responder a ameaças biológicas, com base na interpretação precisa da informação genética com ferramentas de bioinformática sofisticadas, mas fáceis de utilizar. A perícia microbiana permite ainda a atribuição de amostras de agentes patogénicos microbianos a uma fonte suspeita. A caracterização da amostra e a rastreabilidade até à fonte dependem da identificação do genoma de alvos específicos dentro das amostras, da análise abrangente de misturas de populações presentes e da deteção de variações maiores/menores nos genomas identificados e da comparação do perfil genético da amostra com outras amostras. As plataformas comerciais de sequenciação de nova geração (NGS) oferecem a promessa de uma sensibilidade de deteção e resolução dramaticamente maior das amostras de ADN forense do que é possível com os métodos atualmente em uso. Antes de aplicar estas tecnologias para análises forenses de amostras bacterianas, no entanto, é fundamental elucidar completamente os benefícios, advertências e armadilhas do NGS para testes de hipóteses em análises comparativas, uma vez que, em última análise, tal será necessário para a utilização do NGS tanto como ferramenta investigativa como ferramenta. Métodos: Desenvolvemos e avaliamos novos algoritmos probabilísticos para processar dados de sequências metagenómicas de sequenciação direta de amostras para identificar genomas presentes em misturas. Resultados: Apresentamos um pipeline para comparações amostra a amostra sem referência para melhorar a caracterização do alvo para além de um microrganismo para a caracterização do conteúdo abrangente da amostra. As nossas ferramentas fortalecem a confiança estatística para rastrear a ancestralidade das amostras e atribuir amostras à fonte com certezas probabilísticas sobre muitos alvos, em vez de um único genoma. Conclusão: Este estudo desenvolveu uma nova estratégia bioinformática sem referência para contabilizar e identificar a diversidade genética em amostras. As variantes de sequência devem ser confirmadas de forma não arbitrária nas leituras direta e inversa a uma taxa acima do nível de ruído de fundo do erro da máquina do sequenciador. Uma métrica de distância de similaridade compara genomas dentro de uma série de relações próximas. Utilizando dados de sequências de agentes de ameaça biológica, atribuímos com sucesso estirpes relacionadas conhecidas e excluímos a relação próxima de estirpes não relacionadas conhecidas. Os principais pontos fortes deste método forense são as determinações não arbitrárias de validação de dados e métricas de parentesco, bem como a capacidade de comparar genomas microbianos com ou sem uma base de dados de referência de genomas relacionados.