Mingqi Wu, Monique Rijnkels e Faming Liang
Devido ao seu mapeamento de maior resolução e sinais de enriquecimento ChIP mais fortes, o ChIP-seq tende a substituir a tecnologia ChIP-chip no estudo das interações proteína-DNA em todo o genoma, enquanto os enormes dados digitais do ChIP-seq apresentam novos desafios para os estatísticos. Até à data, a maioria dos métodos propostos na literatura para a análise de dados ChIP-seq são baseados em modelos, no entanto, é impossível encontrar um único modelo viável para todos os conjuntos de dados, dada a complexidade dos sistemas biológicos e as variações geradas no processo de sequenciação. Neste artigo, apresentamos uma abordagem livre de modelos, a chamada MICS (Model-free Inference for ChIP-Seq), para a análise de dados ChIP-seq. O MICS tem algumas vantagens em relação aos métodos existentes: Em primeiro lugar, o MICS evita suposições para a distribuição de dados e, portanto, mantém um elevado poder mesmo quando as suposições do modelo para os dados são violadas. Em segundo lugar, o MICS emprega um método baseado em simulação para estimar a taxa de falsas descobertas. Uma vez que o método baseado em simulação funciona independentemente das amostras ChIP, o MICS pode funcionar de forma robusta numa variedade de amostras ChIP; pode produzir uma identificação precisa das regiões dos picos, mesmo para aquelas onde o enriquecimento é fraco. Em terceiro lugar, o MICS é muito eficiente em termos de computação, o que demora apenas alguns segundos num computador pessoal para um conjunto de dados razoavelmente grande. Neste artigo, apresentamos também um método semi-empírico simples para a simulação de dados ChIP-seq, que permite uma melhor avaliação do desempenho de diferentes abordagens para a análise de dados ChIP-seq. O MICS é comparado com vários métodos existentes, incluindo o MACS, CCAT, PICS, BayesPeak e QuEST, baseados em conjuntos de dados reais e simulados. Os resultados numéricos indicam que o MICS pode superar outros. Disponibilidade: Um pacote R denominado MICS está disponível em http://www.stat.tamu.edu/~mqwu.