Xiaoli Jiao, Xin Zheng, Liang Ma, Geetha Kutty, Emile Gogineni
O PacBio RS, uma plataforma emergente de sequenciação de ADN de terceira geração, baseia-se numa tecnologia de sequenciação nano-nitch de molécula única em tempo real que pode gerar leituras muito longas (até 20 kb) em contraste com as leituras mais curtas produzidas pelas tecnologias de sequenciação de primeira e segunda geração. Por ser uma plataforma nova, é importante avaliar a taxa de erro de sequenciação, bem como os parâmetros de controlo de qualidade (CQ) associados aos dados de sequência do PacBio. Neste estudo, uma mistura de 10 amplicons de ADN previamente conhecidos e estreitamente relacionados foi sequenciada utilizando a plataforma de sequenciação PacBio RS. Depois de alinhar as leituras de Sequência de Consenso Circular (CCS) derivadas da experiência de sequenciação acima com as sequências de referência conhecidas, descobrimos que a taxa de erro mediana foi de 2,5% sem QC de leitura e melhorou para 1,3% com um método de CQ multiparâmetro baseado em SVM. Além disso, foi utilizada uma montagem De Novo como aplicação a jusante para avaliar os efeitos de diferentes abordagens de CQ. Este estudo de referência indica que, embora as leituras de CCS sejam pós-correção de erros, ainda é necessário realizar o controlo de qualidade apropriado nas leituras de CCS, a fim de produzir resultados analíticos de bioinformática a jusante bem-sucedidos.