Carreira em Big Data e Ciência de Dados - Guia Completo!

Carreira em Big Data e Ciência de Dados - Guia Completo!(Data chaos 3, sachyn)

O que é Big Data ?

Você já parou pra pensar que os dados são para sempre ?

Você certamente já perdeu dados em diversas situações, sejam os documentos do seu computador que deu defeito, as fotos do seu celular que foi roubado ou as músicas do seu HD externo (eu já quebrei 3 HDs externos, acredite!).

Agora lembre a sensação que você sentiu quando constatou: "Não tem mais jeito! Já era! Perdi!".

Raiva, angústia, revolta e tristeza provavelmente foram alguns dos sentimentos que povoaram sua mente.

Onde quero chegar com essa conversa toda ?

Que todos nós temos, naturalmente, nosso Big Data.

Queremos manter nossos dados acumulados ao longo de 10, 20, 50 anos ou mais.

Agora pense na organização em que trabalha.

Se para um indivíduo a perda de dados pode criar sérios problemas, imagine para empresas ?

Por isso, as empresas investem há bastante tempo em armazenamento, backup e outras tecnologias para manter seus dados seguros e disponíveis.

E o Big Data representa a possibilidade de agregar a estes dados gerados pela empresa, outros, espalhados pela web, que podem ser úteis de alguma maneira para, combinados com as informações já disponíveis, permitir análises mais completas e sofisticadas, que ajudem a produzir os resultados que a empresa deseja, seja o aumento de clientes pelo melhor entendimento de suas necessidades ou a melhoria do tratamento de doenças através da análise de indicadores.

Mas por que isto não era feito antes ?

Simplesmente porque as arquiteturas tradicionais de análise de dados (Business Intelligence, Business Analytics, etc) não suportavam lidar com o grande volume de dados, gerado em grande velocidade e de maneira não estruturada (tweets, posts no facebook, imagens no instagram, etc).

Esta situação levou ao que a literatura caracteriza como os 3 V's do Big Data, que ao longo do tempo foram ampliados, e atualmente há quem considere que os V's são cinco.

Vamos a eles.

Volume


Atualmente, o crescimento exponencial do volume de dados se apresenta de forma tão natural que é comum ver serviços oferecendo capacidade “ilimitada” de armazenamento. É o caso do Flickr e Google Fotos, por exemplo, que permitem armazenar um número indefinido de imagens se algumas regras forem seguidas.

Está se tornando comum empresas com volumes de terabytes e até petabytes em seus sistemas de armazenamento, especialmente no caso de médias e grandes empresas. Com o crescimento das bases de dados, as aplicações e arquiteturas de aplicações construídas para suportar estes dados precisam ser reavaliadas.

Velocidade


O crescimento dos dados e a explosão das mídias sociais mudaram a forma como olhamos para os dados. Houve um tempo em que se acreditava que os dados de ontem eram recentes. Alguns jornais impressos ainda seguem esta lógica.

No entanto, os canais de notícias na web, de rádios comunitárias online a redes sociais, mudaram a velocidade com que recebemos informação. As pessoas interagem nas mídias sociais para atualizar as últimas notícias que estão acontecendo em todo o mundo.

Às vezes bastam alguns segundos para que mensagens “antigas” (um tweet, por exemplo) deixem de despertar interesse das pessoas. É comportamento comum descartar mensagens antigas e prestar atenção às atualizações recentes.

O movimento de dados é praticamente em tempo real e a janela de atualização foi reduzida a frações de segundos.

Variedade


Os dados podem ser armazenados em múltiplos formatos: bancos de dados, planilhas, documentos de texto, áudio, vídeo, imagem, etc.

Este é o tipo de dado que mais cresce, os chamados dados não estruturados, que, por representarem volume relevante, devem ser analisados pelas organizações de acordo com suas necessidades, da forma mais eficaz e eficiente possível.

Seria fácil manipular estas informações se os dados estivessem no mesmo formato, mas este não é o caso na grande maioria das vezes. O mundo real tem dados em muitos formatos diferentes e este é o desafio que as tecnologias para Big Data vem ajudar a superar.

Veracidade


Apesar da definição de Big Data a partir dos 3 V's mencionados anteriormente ser a mais citada, um quarto V tem sido utilizado para destacar a necessidade de verificar se os resultados obtidos a partir da análise dos dados são reais, verdadeiros.

Em outras palavras, este 'V' reflete a preocupação em identificar se as perguntas certas estão sendo feitas em relação aos dados, se as análises estão corretas, e acima de tudo, se os dados são confiáveis.

Valor


O mais recente 'V' incluído na lista diz respeito ao benefício gerado para o negócio, em relação aos objetivos da organização.

Valeu a pena o esforço de analisar todo o volume e variedade de dados ? 

Os resultados obtidos ajudam a organização de tal maneira que o investimento se justifica ?

Em resumo, Big Data não se refere apenas a grandes volumes de dados, mas a uma nova visão sobre os dados, incluindo orientações para sua captura e análise no futuro.

Se adaptar e superar os desafios da dinâmica da informação será questão de sobrevivência para muitos negócios no futuro próximo.

Ciência de Dados vs Big Data vs Business Intelligence


É comum ver discussões em torno da relação entre Ciência de Dados e Big Data, ou entre Big Data e Business Intelligence.

Big Data é o mesmo que BI ?

E a Ciência de Dados ? É apenas outro nome para Estatística ?

Penso que a tecnologia de BI tende a focar muito mais no passado que no futuro, de forma que isso limita em certa medida os benefícios que se pode obter da tecnologia.

Em Big Data, por outro lado, há uma preocupação maior em analisar o presente, em tempo real, e prever o futuro com base não apenas no que aconteceu antes, mas também no que está acontecendo agora.

Pense nos 'Trending Topics' do Twitter, por exemplo.

Quantas decisões uma empresa pode tomar hoje a partir da observação do que está 'bombando' na web ?

É cada vez maior o número de empresas cujo modelo de negócio é baseado em análise de dados em redes sociais.

Outro ponto que destacaria como vantagem de Big Data em relação a BI, é a maior facilidade para lidar com dados não estruturados, ampliando tremendamente as possibilidades de análise, na medida em que a 'estruturação' do dado passa a ser muito mais flexível, através de esquemas que mapeiam uma estrutura lógica de um sistema de arquivos distribuído, e não em estruturas mais rígidas, pela organização dos bytes em arquivos binários de banco de dados relacionais.

E quanto à Ciência de Dados ? Qual sua relação com Big Data ?

Penso que Big Data não existe sem Ciência de Dados, e se o primeiro é mais genérico e abrangente, o segundo representa a importância de lidar de maneira científica com os dados, como indicam os Vs de Veracidade e Valor, de forma a garantir que os resultados obtidos sejam confiáveis e possam, assim, subsidiar de maneira efetiva a tomada de decisão das organizações.

Portanto, a Ciência de Dados se traduz em hipóteses, modelos matemáticos e estatísticos aplicados à análise dos dados de maneira a certificar a qualidade dos resultados obtidos.

Conhecimentos necessários para uma carreira de sucesso em Big Data

Conhecimentos necessários para uma carreira de sucesso em Big Data

Eu gosto muito do diagrama acima, pois mostra (com o bom humor de um unicórnio :) os desafios que se apresentam para os que desejam aproveitar esta excelente oportunidade representada pelas tecnologias que envolvem Big Data e Ciência de Dados.

É importante conhecer matemática, estatística, computação, além de ter abordagem científica, com método e organização na análise e apresentação dos dados.

Tudo isto sem contar a necessidade de conhecer do negócio específico, inerente a todo profissional de TI.

Aliás, é importante destacar o papel fundamental da visualização de dados. Uma análise muito bem feita pode ser destruída por uma visualização inadequada.


Penso que, na prática, o tempo revelará a necessidade de estabelecer equipes multidisciplinares, em que a colaboração entre os diversos perfis que integram o time será decisiva para a qualidade do trabalho realizado.

Com isso, devem ser definidos nomes mais específicos que Cientista de Dados, e já começo a ver referências a engenheiros, desenvolvedores e analistas, de maneira que deve se tornar cada vez mais claro quais os perfis necessários para que um 'time Big Data' funcione, bem como o papel de cada um.

Faixa Salarial das Carreiras em Big Data e Ciência de Dados

Quanto ganha um profissional Big Data / Cientista de Dados ?

De acordo com o Datajobs, os salários para uma carreira em Big Data são os seguintes:
  • Analista de Dados - iniciante até 75 mil obamas, experiente até 110 mil;
  • Cientista de Dados - entre 85 mil e 170 mil obamas;
  • Gerentes - entre 90 mil e 240 mil obamas, conforme tamanho da equipe e experiência;
  • Engenheiro Big Data - entre 70 mil e 165 mil obamas;
Aqui no Brasil encontrei notícias com salários de até 15 mil Dilmas :)

Hadoop e seu Ecossistema

Ecossistema Hadoop - Ferramentas para Big Data

A base do Big Data consiste no processamento distribuído dos dados, aproveitando o barateamento do hardware e do armazenamento, e o avanço da computação em nuvem.

Desta forma, a divisão dos dados em partes 'friamente calculadas' e a sua distribuição para processamento através de um cluster de dezenas, centenas ou mesmo milhares de nós (computadores) permite lidar com volumes de dados até então inimagináveis, com uma velocidade incrível, e (melhor parte) a um custo viável.

Este sistema de processamento distribuído, criado pelo Yahoo em 2004, a partir de um paper do Google, é o famoso Hadoop, que consiste de dois componentes principais, o Map Reduce e o HDFS.

O Map Reduce cuida do 'dividir pra conquistar', organizando a distribuição e processamento dos dados, enquanto o HDFS cuida do seu armazenamento.

Os desafios do processamento distribuído são muitos, e o Hadoop vem evoluindo rapidamente para lidar com eles, fornecendo mecanismos de tolerância a falhas, melhorias de desempenho e mais recursos para desenvolvedores e administradores a cada nova versão.

Em torno do Hadoop há um ecossistema generoso que traz soluções para importação e exportação de dados (Sqoop e Flume), pesquisa textual (Solr/Lucene), análise de dados com linguagem similar a SQL (Hive), desenvolvimento simplificado de aplicações (Pig) e muito mais.

Lidar com este ecossistema pode ser bem trabalhoso, e para facilitar este trabalho surgiram as Distribuições Hadoop, que oferecem integração simplificada entre os vários componentes, ferramentas exclusivas e outras melhorias.

Hortonworks, Cloudera e MapR são algumas das principais distribuições que você pode baixar e usar em seu computador.

Há também as distribuições na nuvem, que concorrem cada vez mais acirradamente para fornecer a maior variedade de serviços e mais facilidades para os usuários. Amazon, Microsoft e Google se destacam nesta briga.

Vários cursos online recomendam executar os exercícios, que muitas vezes consistem em manipular centenas de gigabytes e até terabytes, usando os serviços da Amazon, pela facilidade de 'levantar' um cluster EMR (o Big Data do Jeff Bezos) e executar uma aplicação Hadoop que processa terabytes em poucos minutos, pagando apenas algumas doletas.

Além do Hadoop

Linguagem R - requisito para Ciência de Dados

Mas nem só de Hadoop vive o Big Data, e algumas linguagens de programação são requisito obrigatório pra quem quer se aventurar por este mundo novo de Big Data e Ciência de Dados.

Destaque para duas delas: Python e R.

O Python traz uma série de bibliotecas que facilitam o tratamento e manipulação dos dados em diversos aspectos, simplificando tarefas que em outras linguagens seriam extremamente trabalhosas.

O Pandas é uma destas bibliotecas, e aqui você encontra mais informações.

Já o R é a linguagem que aprendi a admirar, pela enorme quantidade de bibliotecas e pela simplicidade para gerar resultados em curto espaço de tempo.

Tenho dedicado um tempo a explorar suas funcionalidades através do Rstudio, e já estou impressionado com a facilidade para realizar operações de manipulação de texto e criação de visualizações bem legais como histogramas e nuvens de palavras.

E há também as biblliotecas para integração com Hadoop, que prometem simplificar o uso do R, antes restrito a máquinas com muita memória, através de clusters na nuvem.

Na UFRGS há um guia muito legal sobre programação com R.

Quem usa Big Data?


Uma das coisas mais legais quando se começa a explorar o mundo do Big Data é observar os projetos incríveis que as empresas estão conduzindo mundo afora.

A Ford está avaliando o Hadoop na tentativa de obter valor a partir dos dados gerados pelas suas operações, pesquisa de veículos e até dos carros dos clientes, focando em obter os dados gerados pelos inúmeros sensores dos veículos atuais e usar os dados coletados para, sabendo o comportamento do cliente no uso do veículo, melhorar a experiência do motorista no futuro.

A Mitsui usa o SAP HANA, R e Hadoop para pré-processar sequências de DNA que antes levavam dias, reduzindo para questão de minutos as análises que envolvem pesquisas relacionadas ao Câncer.

A Nokia usa as informações geradas pelos seus dispositivos em todo o mundo, desde criar mapas e prever densidade de tráfego até criar modelos de elevação em camadas.

O Walmart usa Hadoop pra analisar dados do Twitter, Facebook, Foursquare e outras fontes, de forma a prever o fluxo de clientes para suas lojas.

Como se Preparar para Trabalhar com Big Data e Ciência de Dados ?

Conhecimento é Poder - Onde aprender mais sobre Big Data e Ciência de Dados

Há cursos gratuitos espalhados por toda a web (em inglês).

Relaciono alguns deles abaixo:

Coursera - Web Intelligence and Big Data

Big Data University (IBM) - Big Data Fundamentals

Udemy - Big Data Hadoop Essentials

Udacity - Introdução ao Hadoop e Map Reduce

Aqui no Brasil começaram a surgir mais opções recentemente:

Especialização da Universidade Presbiteriana Mackenzie em Ciência de Dados (Big Data Analytics), com custo de 24 x R$ 971,00 + 9 parcelas a definir.

MBA Analytics em Big Data, da FIA, com custo de R$ 28 mil.

MBA em Big Data (Data Science), da FIAP, a partir de 24 x 751,00.

Big Data - Inteligência na Gestão de Dados, da USP, com custo de 24 x 891,00.

Caso não esteja em SP ou não disponha destes valores 'convidativos', há cursos mais em conta.

Certificações em Big Data


Em muitos casos, profissionais de TI obtém melhores resultados em termos de carreira investindo em certificações que em cursos mais extensos como Pós Graduação.

A seguir relaciono algumas das certificações em Big Data mais relevantes do mercado.

A Cloudera é um dos principais fornecedores de soluções em Big Data, e oferece as certificações:

  • Cloudera Certified Professional: Data Scientist (CCP:DS)
  • Hadoop Developer (CCDH)
  • Hadoop Admin (CCAH)
  • HBase Specialist (CCSHB)

A certificação CCP:DS exige passar em três exames, e a Cloudera recomenda a realização de um curso presencial no valor de U$ 2.495,00 (putz!).

As certificações Hadoop custam a partir de U$ 295,00 e exigem passar em um exame com 50 a 60 questões, com duração de uma hora e meia, e aproveitamento mínimo de 70%. Não, os exames não estão disponíveis em português :(

A Hortonworks tem uma solução que é base para os serviços oferecidos na nuvem da Microsoft, e oferece as certificações:

  • HDP Certified Developer (HDCDP);
  • Hortonworks Certified Apache Hadoop Administrator;
  • Hortonworks Certified Apache Hadoop Java Developer.
Estas certificações custam entre U$ 200,00 e U$ 250,00, e consistem em tarefas que devem ser executadas através dos serviços da Amazon, com duração máxima de 2 horas.


Há também certificações da IBM (IBM InfoSphere for BigInsights Technical Mastery Test v2 e IBM InfoSphere Streams Technical Mastery Test v1), EMC (EMC Data Science Associate), HP (HP Vertica), SAS (SAS Certified Statistical Business Analyst), e muitas outras.

Conclusão


Não me canso de repetir que Big Data é um a tendência tecnológica que representa uma excepcional oportunidade para aqueles que tiverem a dedicação necessária, lutarem contra a inércia e superarem as dificuldades do nosso país em termos de acesso à educação.

O problema é tão sério que vemos empresas 'bancando' a educação dos funcionários na tecnologia, por entender a importância (e carência) de profissionais qualificados na tecnologia.

O esforço vai compensar, tenho certeza disso! Tanto que 'embarquei nesta onda' bem cedo, antes mesmo de muitos dos cursos que citei aqui sequer existirem.

Não deixe pra aprender sobre o assunto quando for requisito mínimo pras vagas de emprego, daqui há 5 anos (no máximo!).

Aproveite agora!

Sei que muitos vão ler tudo isso que escrevi e simplesmente ignorar, mas se este texto puder ajudar um único profissional a tomar uma atitude e crescer na carreira como resultado deste incentivo, ficarei extremamente feliz.

Para saber mais

  1. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, e vamos trocar idéias!
  2. Se inscreva na lista que criei para discutir o tema no Google Groups.

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!