6 Dúvidas Comuns Sobre Big Data e o Cientista de Dados Respondidas!

Dúvidas Big Data

Há pouco mais de 6 meses fiz uma pesquisa junto a você que acompanha o Tecnologia que Interessa!, sobre suas dúvidas em relação a Big Data e Ciência de Dados.

Lamentavelmente, apenas agora pude tabular os resultados e verificar as dúvidas mais comuns, bem como outras informações interessantes sobre a percepção dos profissionais de TI em relação ao tema.       

Mas vamos ao que interessa: os dados! E eles são bem interessantes!

Algumas observações preliminares sobre as respostas:
  1. A pesquisa solicitava informar se o respondente estava empregado e sua área de atuação, e com isso foi possível perceber algumas peculiaridades dos perfis. Enquanto desenvolvedores e engenheiros de software estavam mais interessados em entender como funciona a tecnologia, exemplos e projetos, analistas e técnicos de suporte queriam saber "tudo", já que a maioria não tinha praticamente nenhum conhecimento sobre o assunto, assim como alguns gestores. Outros gestores estavam interessados na aplicabilidade da tecnologia, por onde começar, e como adotar em pequenas e médias empresas. Vamos tentar endereçar tudo isso nas próximas linhas.
  2. O nível de importância da tecnologia foi de aproximadamente 6, variando de 1 a 10, o que demonstra que, de forma geral, os profissionais reconhecem a importância de aprender sobre a tecnologia em termos de mercado e carreira.
  3. Foram 75 respondentes, sendo a maior parte composta de Gestores de TI, seguidos de perto pelos Analistas de Suporte e, mais longe, dos Desenvolvedores. Pode parecer estranho, mas isso reflete o perfil dos leitores do blog (mais infra e gestão, menos dev);
  4. A fonte de informação mais comum nas respostas foi do tipo portais de notícias, seguida por sites de vídeo e blogs, praticamente empatados. Entendi o recado, e pretendo escrever ainda mais e gravar vídeos sobre o tema em breve.
  5. A rede social mais usada é o Facebook, seguido de longe pelo LinkedIn e, mais longe ainda, o Google+.
Vamos às dúvidas, enfim.

1 - Por Onde Começar?

A resposta, ainda que óbvia, revela uma "pegadinha". Embora a melhor opção pra começar seja estudar, eu não recomendo a leitura exclusivamente de blogs e sites.

Como assim, Christian? Você tem um blog!

A resposta pode parecer estranha, mas a verdade é que, para entender "direito" uma tecnologia, é necessário buscar conhecimento estruturado, e não apenas informações soltas, parciais, ainda que úteis.

Há muito mais conteúdo aqui no blog sobre o tema, mas se você está partindo do zero, é necessário seguir uma sequência lógica para um melhor entendimento do assunto.

E este é o grande defeito dos blogs, as informações ficam, por padrão, organizadas cronologicamente, e não são agrupadas por tema e estruturadas

Tentando resolver essa questão, aqui está a sequência lógica que entendo ser mais interessante pra que você possa obter o máximo dos conteúdos sobre o tema aqui no blog.

  1. Confira os números do mercado para Big Data neste infográfico;
  2. Aprenda o que é Big Data, seus conceitos básicos, veja casos de uso e exemplos no Guia do Consumidor;
  3. Entenda como determinar quanto é Big, ou seja, o que pode ser considerado Big Data, clicando aqui;
  4. Aprenda sobre Hadoop, uma das principais ferramentas para Big Data, bem como sobre HDFS e Map Reduce, seus principais componentes, aqui e aqui;
  5. Descubra o que fazer para trilhar uma carreira de sucesso como Cientista de Dados neste guia e neste infográfico;
  6. Por fim, fique antenado com as novidades da tecnologia através desses grupos do LinkedIn e Facebook. E, claro, acompanhando o blog! :)
  7. BÔNUS - se quiser ir além, você ainda pode conhecer técnicas e ferramentas específicas aquiaquiaquiaqui e aqui.

2 - Como Aplicar Big Data e Ciência de Dados em Empresas de Pequeno e Médio Porte?

O melhor caminho pra começar um projeto Big Data é perguntando qual a utilidade da tecnologia para a sua empresa.

A resposta não é fácil, pois depende de um embasamento mínimo que permita identificar um caso de uso válido.

IBM lista 6 passos pra iniciar um projeto Big Data, começando pela identificação de um problema a ser resolvido na organização, seleção de pessoas de negócio e TI, definição de arquitetura, escolha de ferramentas, parceiros, etc.

Talvez o início seja a parte mais difícil, pois encontrar um problema relevante para o negócio e que dependa de análise de dados é complicado.

Ainda que a solução para quase todos os problemas de uma empresa hoje envolva algum tipo de análise de dados, encontrar um problema relevante, cuja solução vai impactar na organização a ponto de impulsionar avanços na adoção da tecnologia, pode ser um grande desafio.

O mais importante é encarar o desafio com a certeza de que há alguns facilitadores. O acesso a conhecimento na tecnologia é fácil e barato, e vários fornecedores como IBMAmazonMicrosoftClouderaHortonworksMapr e outros oferecem cursos gratuitos (obviamente, voltados para suas soluções - ainda assim muito úteis!).

Há também uma série de parceiros, alguns com conhecimento multi-fornecedor, que podem ajudar a identificar um caso de uso e apoiar na implantação de um projeto piloto. A carência de profissionais especializados faz com que as empresas forneçam um nível maior de apoio aos clientes, e isso deve ser aproveitado com sabedoria.

3 - Preciso ser um Cientista de Dados?

Projetos de análise de grandes volumes de dados têm, por natureza, uma característica mutidisciplinar, exigindo, com frequência, equipes compostas de profissionais com perfis diversos.

De acordo com a Pentaho, uma "equipe ideal" teria executivo patrocinador, usuário de negócio, especialista de negócio, cientista de dados, engenheiro de software/dados, jornalista de dados e arquiteto de sistemas/plataforma.

Evidentemente, a complexidade do projeto vai determinar o tamanho e diversidade de perfis da equipe, mas, respondendo objetivamente a pergunta: não necessariamente você precisa ser cientista de dados pra participar de projetos de Big Data e Ciência de Dados.

Entretanto, ser um cientista de dados garante a sua participação em qualquer projeto :)


4 - Onde (e o quê) Estudar?

Já mostrei aqui o caminho a trilhar para se tornar um Cientista de Dados neste Infográfico.

Em resumo, estes são os assuntos mais importantes:
  1. Estatística e Matemática;
  2. Programação (Python, Java, R, Scala);
  3. Bancos de Dados (SQL e NoSQL);
  4. Visualização de Dados e Relatórios;
  5. Sistemas Distribuídos (Hadoop, Spark);
No outro texto sobre a Carreira de Cientista de Dados, relacionei os seguintes cursos no Brasil:

Especialização da Universidade Presbiteriana Mackenzie em Ciência de Dados (Big Data Analytics), com custo de 12 x R$ 1159,00 + 9 parcelas a definir.

MBA Analytics em Big Data, da FIA, com custo de R$ 28 mil.

MBA em Big Data (Data Science), da FIAP, a partir de 24 x R$ 950,00.


No exterior há muito mais opções, inclusive cursos em português.

Coursera (em inglês)

Big Data University (IBM - em inglês)

Udemy (vários cursos em português!)

Udacity (os famosos nano-degrees têm opções em português!)

E há também as opções de cursos, mas é importante ter cuidado.

Não recomendo os cursos do IGTI, por exemplo, tive referências ruins deles.

Já a Data Science Academy oferece alguns cursos gratuitos, e tem ótimas referências.

Agora, se você busca custo/benefício, então só há uma alternativa.

5 - Quais as principais ferramentas?


E aí, assustou?

Pois é.

O ecossistema Big Data é tão grande que já há quem diga que cresceu demais!

Mas não se desespere.

Comece pelas linguagens de programação, pois o tratamento dos dados é a etapa mais importante.

Eu sou fã do R, mas há quem defenda Python com unhas e dentes e Scala vem ganhando popularidade. E tem o Java, claro.

Hadoop Spark são requisitos obrigatórios pra qualquer profissional que busque uma formação completa.

A partir daí, as ferramentas a serem usadas dependem do objetivo.



Escalar seu DW usando o Hive;

Migrar os dados estruturados do SQL pro Hbase;

Analisar dados em tempo real com o Storm;

Consultar dados não estruturados usando SQL com Drill;

Indexar dados estruturados ou não com o Solr/Lucene;

Enfim... a lista de possibilidades é infinita.

6 - Como integrar Big Data e SGBDs/DW/BI tradicionais?

Essa pergunta é interessante e importantíssima para qualquer organização, afinal toda empresa tem seu legado, seus sistemas tradicionais, de uso essencial para sua operação. Muitas têm BI e já fazem análises mais sofisticadas dos dados dos sistemas transacionais.

Percebendo esta realidade, os fornecedores de soluções para Big Data Analytics e Ciência de Dados criaram a abordagem denominada Data Lake, em que o objetivo é estruturar um conjunto de dados que permita enriquecer e ampliar as análises tradicionais já realizadas.

Com isso, é possível utilizar ferramentas como Hadoop, Spark, R e muitas outras para coletar, tratar e integrar dados de fontes diversas, estruturados ou não, ao ambiente de análise de dados da empresa, ao seu DW/BI por exemplo.

Um exemplo prático disso é a possibilidade de usar R pra coletar dados de sites na web e redes sociais com notícias e comentários sobre a empresa, fazer um trabalho de análise de sentimento e armazenar o resultado no DW, integrando posteriormente com o ERP através do BI. Isso permitiria relacionar a opinião do mercado com os resultados financeiros da empresa e determinar o grau de impacto que uma notícia ruim pode ter nos lucros, por exemplo.

Imagino que a Volkswagen precisou fazer um trabalho desse tipo (caso já não tivesse) para lidar com o escândalo da falsificação dos resultados da emissão de poluentes, que arranhou gravemente sua imagem em 2015.

Conclusão

A tecnologia está amadurecendo rápido.

O ecossistema de soluções é gigantesco.

São infinitas possibilidades de aplicações.

Isso tudo assusta.

Por isso escrevo tanto sobre este assunto aqui no blog.

Tenho certeza que há outras dúvida que não pude abordar (ainda) aqui, por isso deixe sua dúvida abaixo, nos comentários, que responderei com a maior satisfação!

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!