Sistema de Submissão de Resumos, I Encontro de Iniciação Científica - 2011 (ENCERRADO)

Tamanho da fonte: 
Teste e Caracterização do Uso do HDFS para o Sistema de Armazenamento de Dados do Experimento CMS do LHC
Samuel Tadeu Brasil, Eduardo de Moraes Gregores

Última alteração: 2011-09-21

Resumo


Introdução:

O experimento CMS do LHC armazena aproximadamente cinco Petabytes de dados brutos por ano, além de montantes equivalentes de dados de simulação e de dados processados. Por este motivo, o CMS utiliza a infraestrutura de  “Grid Computing” que tem como um dos objetivos oferecer um sistema de armazenamento de fácil manutenção, eficiente, dinâmico e escalável. Em busca dessa meta, existe uma preocupação e necessidade constante de buscar sempre novas soluções para encarar esse problema. Dentre elas está o Hadoop, um projeto Open Source mantido pelo Apache que nada mais é do que um framework que permite processar grandes arquivos entre clusters distribuídos usando um modelo simples.  Ele foi desenvolvido para funcionar desde em um servidor até milhares deles, agregando o poder de processamento e armazenamento de cada um.  O recurso mais utilizado desse framework se chama “Hadoop Distributed File System” (HDFS) que é um sistema de arquivos distribuídos de alta escalabilidade e confiança.  A grande vantagem é tornar um conjunto de servidores semi-confiáveis em um sistema de servidores bem confiáveis, além de oferecer um modelo de coerência simples, portabilidade entre plataformas heterogêneas e um processo de implementação simples, fácil operação e bem documentado. Atualmente, muitos dos Centros de Processamento de Nível 2 (Tier2) do experimento, como o mantido pelo Sao Paulo Research and Analysis Center (SPRACE), estão migrando para Hadoop.  

 

Metodologia:

A fim de se familiarizar com esse framework e descobrir as reais vantagens desse sistema, foi implementado um mini-cluster isolado de Hadoop consistindo de três servidores com configurações de hardware diferentes. Uma vez que o processo de instalação foi finalizado e o seu funcionamento ficou operacional, foi feito testes de uso e benchmark para mensurar e comparar o quão esse sistema de arquivos pode ou não ajudar no gerenciamento dos datasets do CMS.  

 

Resultados e Conclusão:

Com os testes já realizados, o sistema mostrou  ser de fácil implementação, gerenciamento e uso. Os próximos passos são: aumentar o número de servidores nesse cluster , integrar o middleware do CMS para efetivamente realizar testes com um ambiente mais próximo de uma situação real possível.