Guia do Consumidor para Big Data e Ciência de Dados (tudo que você precisa saber pra começar a adotar a tecnologia)

Tudo que você precisa saber pra começar a adotar a tecnologia de Big Data

Introdução


Estamos nadando em dados – estruturados e não estruturados, gerados por pessoas e máquinas. Os dados estão sendo criados a taxas quase inimagináveis e este cenário tende a aumentar. Estamos criando oceanos de dados provenientes de empresas, agências governamentais e até mesmo a interação de indivíduos através de redes públicas e privadas ao redor do globo.

Ao longo dos próximos anos, outro bilhão de usuários vão se conectar à Internet, com mais e mais dispositivos inteligentes, conduzindo transações on-line de dados a níveis cada vez mais elevados. O fluxo de informação digital dentro e entre empresas também está crescendo rapidamente. Muitas empresas estão integrando sensores em seus produtos e processos, criando novas fontes de fluxo de dados de alto volume.

Modelos de implementação de cloud computing estão reduzindo o tempo que leva para implantar os produtos no mercado e diminuindo o custo necessário para prestar serviços aos consumidores através da Internet. Por conta disso, é cada vez maior o grau em que as empresas estão buscando modelos e-commerce que, por sua vez, adicionam à explosão de dados.

No entanto, ainda estamos sedentos de conhecimento e inteligência. Em muitos casos, a capacidade de recolher dados ultrapassa a capacidade de analisar o significado e ações fora dele.

Algumas das empresas mais bem sucedidas do mundo devem seu sucesso, em parte, às estratégias inovadoras que tenham desenvolvido para acessar, gerenciar e usar partes dos dados para identificar oportunidades, tomar melhores e mais rápidas decisões de negócios, às vezes quase que em tempo real e proporcionar experiências personalizadas aos clientes. De acordo com a Gartner, até 2015 apenas 10 a 15% das empresas vão aproveitar plenamente Big Data, superando os seus concorrentes despreparados em 20% em métricas financeiras.


Objetivo


Big Data está tomando forma para alavancar uma mudança profunda. Como tal, a Open Data Center Alliance (ODCA) vê esta área como um próximo passo lógico para os seus membros tomarem medidas.

Além disso, existe uma interseção entre Big Data, Análise de Dados e Cloud Computing que a ODCA pretende abordar em trabalhos futuros. O escopo deste guia está focado apenas em torno do Big Data. Isto foi feito para estabelecer uma base sobre a qual o trabalho futuro, incluindo a interseção de Big Data e Cloud Computing, podem ser exploradas.

O objetivo deste documento é promover Big Data e determinar como os grupos de trabalho da ODCA podem fornecer recomendações concretas e insights que podem beneficiar tanto os provedores de soluções de Big Data e consumidores empresariais de Big Data.

Ao fornecer uma introdução ao Big Data e ilustrar os seus vários casos de uso, este artigo estabelece as bases para um conjunto de trabalhos futuros, que incluirá fornecedores de soluções e consumidores de Big Data (empresas) em conjunto para ajudar a impulsionar a criação de tecnologias de Big Data que estão abertas e baseadas em padrões, com um maior grau de interoperabilidade e eficácia de custo para grandes empresas.

As empresas podem usar as informações contidas neste documento para entender melhor o Big Data e alcançar um equilíbrio entre os investimentos existentes e os novos que melhor endereçam o crescimento exponencial do volume, velocidade e variedade de dados da empresa.

Big Data

Antes das empresas determinarem por que e como usar Big Data e antes que os provedores de soluções possam começar a elaborar a tecnologia que atende as necessidades das empresas, é importante entender o que é Big Data e como ele surgiu.

Definindo Big Data


Big Data refere-se a quantidades maciças de dados, ao tamanho e variedade, os quais estão além das capacidades de processamento de ferramentas de gerenciamento de dados tradicionais para capturar, gerenciar e analisar em tempo hábil.

Big Data vem de todos os lugares. As fontes comuns incluem:

• Máquinas que geram dados de sensores, dispositivos RFID, logs de máquinas, sinais de telefone celular, GPS e muito mais;
• Proliferação de mídias digitais (tanto on-line quanto off-line) e mídias sociais;
• Registros de transações on-line.

De acordo com a IDC, os dados não estruturados são responsáveis por mais de 90 por cento dos dados nas organizações  hoje, armazenados em mensagens de email, documentos, notas e conteúdo da Web.

De acordo com a Gartner, os dados não estruturados dobram a cada três meses e sete milhões de páginas da Web são adicionadas a cada dia.

Big Data também inclui dados estruturados tradicionais que existem em quantidades maciças.

A Walmart é um bom exemplo:

Mais de 1 milhão de transações de clientes ocorrem a cada hora, gerando mais de 2,5 PB de dados equivalente a 167 vezes a informação contida em todos os livros da Biblioteca do Congresso dos EUA.

Big Data tem inspirado abordagens novas e complementares para armazenar, consultar e analisar dados estruturados e não estruturados. Bancos de dados NoSQL são úteis para trabalhar com grandes quantidades de dados estruturados ou não estruturados, quando o que realmente importa é a capacidade de armazenar e recuperar grandes quantidades de dados, não a capacidade de examinar as relações entre os elementos de dados.

NewSQL é uma nova categoria de bancos de dados relacionais que melhora a velocidade de transação e escalabilidade.

MapReduce é um modelo de programação recentemente desenvolvido para o processamento de grandes conjuntos de dados.

Todas estas novas ferramentas e abordagens incorporam uma definição comum de Big Data como uma combinação de três Vs: Volume, velocidade e variedade.

• Volume. Como o nome Big Data sugere, o seu volume pode levar até terabytes e petabytes de espaço de armazenamento. Tem surgido como um resultado de uma crescente demanda empresarial de usar e analisar mais tipos de dados estruturados e não estruturados, que não se encaixam em sistemas operacionais e analíticos existentes. Os dados estão crescendo a uma taxa exponencial, tanto que 90% dos dados no mundo de hoje foram criados nos últimos dois anos.

• Velocidade. Cada vez mais, as empresas precisam de respostas não na próxima semana ou no próximo mês, mas agora. O carregamento em lote noturno é pouco adequado para o e-commerce, a entrega de conteúdos multimídia, a segmentação de anúncios e outras aplicações em tempo real. Isso coloca pressão sobre a aceleração do carregamento de dados, ao mesmo tempo em que os volumes de dados estão subindo rapidamente. Streaming de dados, processamento de eventos complexos e tecnologias relacionadas, predominantemente em serviços financeiros e governo, estão emergindo como requisitos de arquitetura de dados corporativos em vários setores.
Da mesma forma, como mais empresas se envolvem em mídias sociais e da Web, respondendo em tempo real ou quase em tempo real torna-se cada vez mais necessário.

• Variedade. Variedade relaciona-se com a complexidade de tipos de dados e as fontes de dados. Além disso, grande parte dos dados de hoje são não estruturados ou semi-desestruturados. Isso significa que eles não se encaixam em linhas e colunas dos tradicionais sistemas de gerenciamento de banco de dados relacionais (SGBD) puros.

Nota: outros "Vs" também podem ser usados para discutir Big Data, como Variabilidade e Valor; no entanto, os três descritos acima são os mais comumente discutidos na indústria.

Evolução do Big Data


Big Data surgiu porque estamos vivendo em uma sociedade que faz uso crescente de tecnologias intensivas de dados. Há 4,6 bilhões de assinaturas de telefonia móvel em todo o mundo e entre 1 e 2 bilhões de pessoas que acessam a Internet. Basicamente, existem mais pessoas que interagem uns com os outros e com a informação, do que nunca. As ações de cada usuário resultam em uma cascata de ações subsequentes, as quais estão agora conectadas, criando dados adicionais. Isso às vezes é chamado de "exaustão de dados."

Apesar de Big Data ter algumas novas e bastante perturbadoras características, é simplesmente o próximo passo em uma longa evolução da dependência da empresa em dados. No início de 1980 RDBMs eram sistemas incipientes e depois se tornaram empresas de bilhões de dólares, como Oracle e SAP.

Com o crescimento da Internet, não demorou muito para que as empresas se voltassem para o processamento de transações on-line (OLTP), em seguida, aos armazéns de dados dimensionais (DW) para satisfazer as suas necessidades de armazenamento de dados e análises.

Hoje estamos no limiar de mais uma transformação, onde aqueles que se engajarem vão continuar a crescer e aqueles que permanecerem em tecnologias obsoletas vão cair no esquecimento. O que costumava ser considerado um problema de armazenamento é agora um ativo estratégico.

Porque Big Data é Importante


Combater Big Data usando abordagens tradicionais de gestão e análise de dados pode não ser sempre uma opção viável. Por exemplo, uma empresa pode decidir que o retorno do investimento (ROI) associado a ampliação de seu RDBMS não é suficiente, aplicando uma abordagem diferente e mais rentável. Ou então, uma empresa pode ser sensível à latência de determinadas questões e não pode se dar ao luxo de esperar três dias para os dados serem processados.

O fundamental é que as empresas não podem ignorar Big Data, pois ele contém informações convincentes e poderosas sobre a evolução das necessidades do cliente, pontos fracos de produto e questões de serviço recorrentes.

Utilizando novas tecnologias que vão além de RDBMS e que permitem novos tipos de agregação de dados e análise, as empresas podem obter uma percepção mais profunda e mais rica, acelerando assim a tomada de decisões e o ritmo da inovação, bem como aumentar o valor do negócio através de economias de custo significativas e aumento das receitas.

Aqui estão apenas dois exemplos onde a velocidade e o volume de dados de entrada é simplesmente muito grande para caber em um RDBMS tradicional. Antes de Big Data, esses tipos de cenários foram resolvidos utilizando amostragem e agregação.

• Operações de Rede - Provedores de serviços de telefonia fixa e de cabo precisam de uma visão holística da rede, aplicações, dispositivos e dados do assinante para obter insights para o planejamento de rede e otimização que afetam as camadas inferiores da companhia.

Análise de Big Data pode ajudar a responder perguntas como "Qual é o uso de tráfego em cada plano de dados?" e "Como é que vamos criar o plano de preços certo para nossos clientes?"

As empresas podem usar Big Data para obter mais detalhes sobre a rede, dispositivos, assinantes e aplicativos para identificar os dispositivos ou aplicativos mais populares em um determinado local, criar perfis de tráfego e identificar os principais padrões de uso do assinante.

• Uso Utilitário. Imagine a fusão de dados de um sistema doméstico de gestão de energia e fontes de dados utilitários externos. Isso tornaria possível a realização de um padrão de uso e análises que podem ajudar a detectar uma possível degradação de aparelhos ao longo do tempo, correlacionar os dados meteorológicos com gastos de energia para entender o conforto e custo, fornecer uma melhor compreensão do que impulsiona o consumo de energia e como os motoristas mudam com o tempo.

Embora muitos dos casos de uso que podem se beneficiar de Big Data já existem há algum tempo, agora eles são caracterizados pela capacidade de alavancar novos dados obtidos a partir de tipos de dados não estruturados.

Anteriormente, os dados não estruturados eram ignorados ou, na melhor das hipóteses, usados de forma ineficiente. Ao combinar as novas fontes de dados com as fontes tradicionais, as empresas podem alcançar novos e mais valiosos conhecimentos a um nível mais granular.

Antes de Big Data, a maioria das ideias foram generalizadas para um grupo ou segmento.

O custo também é um grande diferencial para os casos de uso de Big Data.

Historicamente, as empresas precisavam gastar uma quantidade significativa de dinheiro em hardware, software e desenvolvimento de aplicações customizadas para obter resultados semelhantes. 

Com o poder de servidores de commodities de hoje e soluções de código aberto, as empresas podem agora implementar esses casos de uso em uma fração do custo e com muito menos esforço. Antes de soluções de código aberto como o Apache ™ Hadoop® chegarem, a programação paralela era muito difícil, especialmente em situações em que consultas SQL não eram suficientes para expressar a análise necessária.

Nestes casos, a programação personalizada era necessária, o que é caro. Hadoop agora permite processamento paralelo acessível.

No entanto, muitas empresas atualmente não compreendem a importância de Big Data ou como começar a aproveitá-lo.

Na Conferência da Gartner Catalyst 2012, em San Diego, afirmou-se que "A compreensão de quando usar Big Data está faltando agora."

O restante deste documento identifica uma variedade de casos de uso em potencial, descreve as tecnologias existentes e também algumas considerações de planejamento que empresas devem ter em mente ao formar suas estratégias de Big Data.

A solução certa de Big Data para uma determinada empresa depende da escolha certa do caso de uso, ferramentas e pessoal, bem como a tomada de decisões de alto nível sobre o investimento e infraestrutura.

Casos de Uso de Big Data


Uma das vantagens do Big Data é que ele pode trazer valor para quase qualquer setor da indústria, possibilitando novas perspectivas e melhorando o apoio à decisão para uma ampla variedade de projetos. A seguir, estão exemplos dos setores da indústria que podem beneficiar de Big Data.

• Mídias sociais e motores de busca

• Seguros, bancos e finanças

• Prestadores de serviços de telecomunicações e de Internet

• Prestadores de serviços móveis

• Análise de Varejo e de ponto-de-venda

• Otimização de fabricação

• Utilidade e energia

• Cuidados da saúde

• Operações de TI

• Pesquisa e desenvolvimento

• Transporte

• Computação em nuvem

• Marketing

Os consumidores podem se beneficiar através da compreensão dos casos de uso que abrangem indústrias ou que podem ser usados ​​para fins específicos da indústria para extrair valor a partir de conjuntos de dados analisados.

Por outro lado, os provedores de soluções podem projetar melhores soluções, se eles entendem as necessidades da empresa.

Esta seção fornece alguns exemplos de casos de uso que abrangem vários setores da indústria. Ela não se destina a ser uma lista exaustiva; a aplicação de grandes volumes de dados é uma área emergente e os novos casos de uso surgem numa base regular.

Exemplos da Indústria


A utilização comum de Big Data pela indústria inclui, mas não se limita a: ciência de dados de computação intensiva e armazenamento de baixo custo. Uma empresa particular pode usar Big Data em qualquer um dos seguintes casos de uso:

• Acumulação de dados e arquivamento. Tecnologias de Big Data estão sendo usadas ​​para preservar e arquivar dados.

A natureza redundante do Hadoop, juntamente com o fato de que é open source e fácil de acessar sistemas de arquivos, obrigou várias organizações a usar Hadoop como uma solução de arquivamento.

Em alguns aspectos, com servidores de commodities reduzindo o custo de armazenamento, Big Data tornou-se o "o novo backup em fita." O arquivamento de enormes quantidades de dados pode ajudar as empresas a atender às normas de conformidade regulamentar, bem como preservar os dados, mesmo que a empresa ainda não esteja completamente certa do que fazer com os dados.

• Pesquisa e desenvolvimento. Muitas empresas, como fabricantes de produtos farmacêuticos, usam Hadoop para navegar através de enormes volumes de pesquisa baseada em texto e outros dados históricos para ajudar no desenvolvimento de novos produtos.

• Análise preditiva. Os analistas têm usado algoritmos avançados para correlações e cálculos de probabilidade em relação aos dados atuais e históricos para prever mercados como prática padrão. As grandes quantidades de dados históricos do mercado e da velocidade com que novos dados precisam ser avaliados, tornar esta uma excelente aplicação da tecnologia de Big Data. A capacidade de realizar cálculos mais rápido e em hardware commodity, faz Big Data um substituto confiável para a abordagem legada relativamente lenta e cara.

• Otimização de rede para impedir falhas. Tecnologias de Big Data são usadas ​​para analisar as redes de qualquer tipo. Redes, como a rede de transporte, a rede de comunicações, a rede de proteção da polícia e até mesmo uma rede de escritórios locais, todos podem se beneficiar de uma melhor análise.

Considere uma rede local. Com estas novas tecnologias, grandes quantidades de dados são coletados a partir de servidores, dispositivos de rede e outros hardwares de TI. Padrões que conduzem a problemas de rede podem ser identificados para que gargalos e outros problemas possam ser evitados antes que eles introduzam um efeito adverso sobre a produtividade.

• Tomada de decisão em tempo real e ajuste de cenário. Cada vez mais, os OEMs estão adicionando sensores para plataformas para que possam ser utilizados para o pagamento, autorização e identidade.

Estes incluem sensores para muitos outros fatores além da tradicional localização e conectividade, como umidade, temperatura e luz ambiente. Os sensores podem gerar uma grande quantidade de dados e as empresas podem usar esses dados para adaptar um ambiente, produto ou serviço para atender com mais precisão as necessidades dos consumidores (ou provedores) em tempo real.

• Uso do sistema. Monitoramento do uso do sistema – se os recursos são servidores, memória, armazenamento, rede ou serviços comuns, como Lightweight Directory Access Protocol (LDAP) – gera grandes quantidades de dados que podem iluminar as tendências e habilitar as empresas a planejar melhor.

Usando esses dados, a equipe de operações pode controlar a forma como os subsistemas estão se comportando e estabelecer regras e políticas para responder a limites de uso. Além disso, a equipe de operações pode otimizar a utilização do sistema por meio do rastreamento de picos e baixos de uso, ajudando a evitar tanto o excesso de alocação (desperdício) e sub-alocação (potencialmente catastrófico).

• Análise de causa raiz. Em casos onde existe uma grande falha no sistema, a causa de raiz pode ser pouco clara. Muitas vezes, uma cascata de eventos ocorre e a história do que aconteceu está contida no conjunto completo de arquivos de log e dados de monitoramento recolhidos em todo o centro de dados.

Portanto, encontrar a causa raiz pode envolver análise de grandes conjuntos de dados, em busca de um ponto específico, correlacionando dados de fontes díspares.

• Análise de sentimento e gestão de fidelização dos clientes. As empresas podem usar a análise de voz e análise de texto, com base em modulação de voz e análise de palavras-chave, para entender melhor os sentimentos do cliente.

Extrair percepções oportunas ​​sobre os sentimentos do cliente, pode habilitar as organizações a melhorar a satisfação do cliente em tempo hábil e gerenciar a rotatividade de forma adequada.

• A preservação de dados. Encontrar a informação certa e descobrir tendências.

• A movimentação de dados. Extração, transformação e carregamento (ETL) offload.

• Análise de funil de marketing (análise de conversão).

• A segurança da informação. Detecção de malware e detecção de fraudes.

• Motor de recomendação. App Store e e-commerce.

• Testes A/B de páginas da web.

• Análise de Cohort e gráficos sociais.

Conclusão

O texto acima é uma tradução parcial e adaptada do Guia do Consumidor, da ODCA, cujas informações são de extrema importância para a compreensão de como a tendência Big Data pode ser aproveitada pelas organizações mundo afora.

Vemos que as empresas ainda têm um caminho a percorrer, buscando amadurecer o entendimento das tecnologias para Big Data, de forma que seja possível fazer o melhor uso possível das inḿeras ferramentas já disponíveis no mercado, resolvendo problemas até então insolúveis ou melhorando as soluções existentes.

Para saber mais

  1. Baixe o ebook sobre soluções para Big Data que escrevi;
  2. Se inscreva na lista que criei para discutir o tema no Google Groups;
  3. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, e vamos trocar idéias!

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!