Big Data: quanto é Big ?

Estou ficando fã da Debra Shinder, do Windows Networking. Este é o segundo artigo dela que me vejo "obrigado" a traduzir, dada a qualidade e relevância do texto.

Big, Bad Data

Meu pai era fã do cantor country Jimmy Dean muito antes de o homem parar de fazer música e começar a fazer salsicha. Minhas memórias de infância incluem as palavras, embutidas para sempre em meu cérebro, da sua canção maior, "Big Bad John". Ela conta a história de um gigante gentil que assustou a todos ao seu redor, mas que acabou salvando o dia ao sacrificar a sua própria vida. 

Big Data lembra-me um pouco desse mineiro de carvão de grandes dimensões. Para aqueles que não entendem o conceito, que é um pouco assustador. O que é o "big data" de qualquer maneira - além de ainda chavão outro projetado para vender "soluções" ? Não há um número restrito de terabytes, petabytes, exabytes, etc, que constitui uma linha que, quando ultrapassada, coloca você no território de big data. Mas o termo evoluiu para se referir a conjuntos de dados que contêm tantas informações que nossas ferramentas de banco de dados tradicionais têm dificuldade de processá-las.

Tudo é relativo, portanto, e uma quantidade de dados que qualificam como "grande" em uma organização pode não ser considerado grande o suficiente em outra. Depende das ferramentas que você usa para processar dados e se elas são capazes de lidar com uma quantidade específica. Um levantamento de CIOs indicou que 36% - mais de um terço deles - consideram 1-9 TB de dados "big data".

Estamos vivendo em um mundo onde a coleta de dados tornou-se onipresente. Houve um tempo em que, para obter informações em um banco de dados, um ser humano devia sentar e introduzir os dados à mão. Hoje, os fluxos de dados em bancos de dados ocorrem automaticamente, através da Internet, em todo o mundo. Dados são coletados a partir de computadores, dispositivos móveis, câmeras, microfones, leitores de código de barras, scanners RFID, e todos os tipos de sensores. Os dados vem em muitas formas: mensagens de e-mail, informações de redes sociais, entrada de formulário web, arquivos de log, documentos, arquivos de texto, PDFs, fotografias, desenhos, vídeos, arquivos de áudio e muito mais. Empresas coletam informações sobre clientes, empregados, fornecedores, indústria, questões jurídicas, contábeis e muito mais. 

Estamos nos afogando em dados - mas de que servem os dados, se não temos uma maneira de tomar ciência de tudo isso ? O valor em ter uma grande quantidade de informações é a capacidade de usá-las para detectar tendências, padrões, anomalias e, finalmente, ser capaz de usá-las como base para decisões de negócios. E isso nos leva à necessidade de um software de gestão da informação ou serviços que possam organizar, classificar e filtrar os dados e também realizar análises sobre eles. 

Dados não estruturados, em particular, são um desafio para as ferramentas de banco de dados tradicionais, pois não se encaixam bem em tabelas de dados relacionais. Isso inclui documentos de texto, áudio, vídeo, e-mails, páginas web, e muito mais. O problema é que uma grande porcentagem dos dados que as empresas recolhem não é estruturado. A percentagem estimada varia, mas mesmo nas estimativas mais conservadoras, compreende uma parte muito significativa de todos os dados.

A Gestão da informação caminha lado a lado com a ideia de Business Intelligence. Há um número de diferentes tipos de tecnologias que podem ser usadas para processar big data e encontrar o caminho certo pode ser um desafio, uma vez que o que é certo para os seus fins depende do objetivo final de sua análise, bem como suas expectativas em relação ao desempenho e confiabilidade da análise preditiva. A pesquisa CIO mencionada acima mostrou que 81% dos CIOs precisam os resultados de consultas analíticas que devem ser retornados em menos de um minuto. 

Grandes soluções de processamento de dados pode ser locais ou baseadas em nuvem. Há soluções projetadas para rodar em qualquer servidor de sistemas operacionais que você possa ter no local, a partir de frameworks open source, como o Apache Hadoop até as caras soluções comerciais. Administradores do Windows provavelmente ficarão felizes em saber que a Microsoft está no jogo do big data (aprender a usar novas tecnologias é difícil o suficiente sem ter que aprender a usá-las em uma nova plataforma). Sua Data Explorer para o Excel 2013 é uma ferramenta recém-lançada e projetada para tornar mais fácil de descobrir, combinar e refinar os dados de fontes diferentes para análise no Excel. A fundação do esforço da Microsoft em big data, porém, é o HDInsight, que curiosamente é uma distribuição Hadoop que pode ser executada em Windows Server ou como um serviço do Windows Azure. A Microsoft também anunciou uma solução de processamento paralelo em banco de dados, o SQL Server 2012 PDW , que integra com Hadoop e muitas soluções de BI populares. Ela oferece uma capacidade de multi-petabytes.

Nem todas as empresas precisam de uma solução de big data, mas se a quantidade de informação que você precisa para processar está excedendo as capacidades dos sistemas que você usa, você pode precisar começar a pensar sobre big data.
Até a próxima, Deb

Por Debra Littlejohn Shinder, MVP

Para saber mais

  1. Baixe o ebook sobre soluções para Big Data que escrevi;
  2. Se inscreva na lista que criei para discutir o tema no Google Groups;
  3. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, depois venha trocar idéias!

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!