Amazon Web Services: Tudo que Você Deve Saber - Parte 9 (Big Data com EMR)

Amazon Web Services: Tudo que Você Deve Saber



Amazon EMR

É óbvio que, dentre a infinidade de serviços que a Amazon oferece através da sua plataforma de computação em nuvem, haveria algum serviço voltado para análise de grandes volumes de dados.

Sim. Este serviço existe.

E atende pelo nome de Elastic Map Reduce (EMR).

A rigor, hoje o serviço se estende para muito além do map-reduce, oferecendo implantação gerenciada de Hadoop, HBase e Spark e reduzindo o ônus de gerenciamento de configurar e manter esses serviços você mesmo.



Alternativas ao EMR e Lock-in

  • A maioria dos componentes do EMR é baseada em tecnologia de código aberto que, em princípio, pode ser implantada por qualquer um, em qualquer lugar. No entanto, os fluxos de trabalho e muitas outras ferramentas são específicos do AWS. A migração de EMR para seus próprios clusters é possível, mas nem sempre simples.


Dicas de EMR

  • A EMR conta com muitas versões do Hadoop e outros softwares de suporte. Certifique-se de verificar quais versões estão em uso para usar as ferramentas mais adequadas ao seu projeto.
  • O EMR e o Hadoop disponíveis podem ter sobrecarga significativa quando comparados com o processamento eficiente em uma única máquina. Se seus dados forem pequenos e o desempenho for importante, você pode considerar alternativas, como esse post ilustra.
  • Os programadores Python podem querer dar uma olhada na mrjob da Yelp.
  • Uma vez que os trabalhos de EMR são faturados em uma granularidade de uma hora, considerando a alteração do número e/ou do tipo de instâncias que o trabalho executa para melhor fazer uso desse tempo (instâncias menores para fazer uso mais eficiente de uma hora não subscrita, instâncias maiores para reduzir o tempo de execução do seu trabalho).
  • É preciso tempo para ajustar o desempenho dos trabalhos EMR, e é por isso que serviços de terceiros como o Qubole’s data service estão ganhando popularidade como formas de melhorar o desempenho ou reduzir custos.


EMR - Problemas e Limitações

  • Os custos de EMR podem aumentar rapidamente, pois envolvem muitos fatores, a eficiência pode ser fraca, dependendo da configuração do cluster e da escolha da carga de trabalho, e os acidentes como os trabalhos suspensos podem custar caro. Vale a pena avaliar o uso das instâncias Spot e evitar o faturamento por hora. Este post tem dicas adicionais.
  • Cuidado com o "mergulho duplo". Com EMR, você paga pela capacidade da EC2 e as taxas do serviço. Além disso, o EMR sincroniza registros de tarefas para S3, o que significa que você paga o armazenamento e as solicitações PUT nas taxas padrão de S3. Enquanto os arquivos de registro tendem a ser relativamente pequenos, todo trabalho Hadoop, dependendo do tamanho, gera milhares de arquivos de log que podem somar milhares de dólares na conta da AWS.  O log de dados da YARN  não está disponível no EMR.


Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!