Miroslaw J. Gilski e Rovshan G. Sadygov
A Iniciativa Padrão de Proteómica da Human Proteome Organization (HUPO) foi encarregada de desenvolver formatos de ficheiro para armazenar dados brutos (mzML) e os resultados do processamento espectral (identificação e quantificação de proteínas) de experiências proteómicas (mzIndentML). A fim de caracterizar completamente experiências complexas, foram concebidos tipos de dados especiais. Os formatos de ficheiro normalizados promoverão a visualização, validação e disseminação de dados independentemente dos ficheiros de armazenamento de dados binários específicos do fornecedor. Soluções programáticas inovadoras para um acesso robusto e eficiente a dados em formatos de ficheiro normalizados contribuirão para uma aceitação mais rápida e em larga escala destes formatos de ficheiro pela comunidade proteómica. Neste trabalho comparamos algoritmos para acesso a dados espectrais no formato de ficheiro mzML. Como um ficheiro XML, os ficheiros mzML permitem a análise eficiente de estruturas de dados quando se utilizam tipos de classe específicos de XML. Estas classes apenas fornecem acesso sequencial aos ficheiros. No entanto, o acesso aleatório aos dados espectrais é necessário em muitas aplicações algorítmicas para o processamento de conjuntos de dados proteómicos. Aqui, demonstramos a implementação de fluxos de memória para converter um acesso sequencial em acesso aleatório. A nossa aplicação preserva os elegantes recursos de análise de XML. A avaliação comparativa dos tempos de acesso aos ficheiros nos modos de acesso sequencial e aleatório mostra que, embora para um pequeno número de espectros o acesso aleatório seja mais eficiente em termos de tempo, quando a recuperação de um grande número de espectros o acesso sequencial se torna mais eficiente. Também fornecemos comparações com outros métodos de acesso a arquivos da academia e da indústria.