Lubke GH, Laurin C, Walters R, Eriksson N, Hysi P, Spector TD, Montgomery GW, Martin NG, Medland SE e Boomsma DI
Normalmente, os estudos de associação genómica consistem na regressão do fenótipo em cada SNP separadamente, utilizando um modelo genético aditivo. Embora existam modelos estatísticos para interações recessivas, dominantes, SNP-SNP ou SNP-ambiente, a carga de testes torna impraticável uma avaliação de todos os efeitos possíveis para dados de todo o genoma. Defendemos uma abordagem em duas etapas, onde a primeira etapa consiste num filtro que é sensível a diferentes tipos de efeitos principais e de interação do SNP. O objetivo é reduzir substancialmente o número de SNPs de modo a que uma modelação mais específica se torne viável numa segunda etapa. Fornecemos uma avaliação de um método de aprendizagem estatística denominado “máquina de reforço de gradiente” (GBM) que pode ser utilizado como filtro. O GBM não requer uma especificação a priori de um modelo genético e permite a inclusão de um grande número de co-variáveis. O GBM pode, portanto, ser utilizado para explorar múltiplas interações GxE, o que não seria viável dentro da estrutura paramétrica utilizada no GWAS. Mostrámos numa simulação que o GBM tem um bom desempenho mesmo sob condições favoráveis ao modelo de regressão aditiva padrão comummente utilizado no GWAS, e é sensível à deteção de efeitos de interação mesmo que uma das variáveis interagentes tenha um efeito principal zero. Este último não seria detectado no GWAS. A nossa avaliação é acompanhada por uma análise de dados empíricos relativos à morfologia do cabelo. Estimámos a variância fenotípica explicada pelo número crescente de SNPs com classificação mais elevada e mostrámos que é suficiente selecionar SNPs de 10K a 20K na primeira etapa de uma abordagem de duas etapas.