Big Data Analytics

/Tag: Big Data Analytics

Tudo que você queria saber sobre Agrupamento (Clustering) e não tinha a quem perguntar!

Por André Camacam Diferentes clusters em diferentes pontos coloridos (De Matthew Mayo’s Palavras Chave de Aprendizagem de Máquina, Explicado) Iniciando com Ciência de Dados (Data Science) ou precisando dar aquela refrescada na memória? O agrupamento encontra-se entre as ferramentas mais utilizadas pelos Cientistas de Dados. A seguir você vai ver 10 termos relacionados ao "tal de clustering" e suas definições. Agrupamento é um método de análise de dados, que agrupa pontos de dados em conjunto para “maximizar similaridades dentro da classe e minimizar similaridades entre as classes” (Han, Kamber & Pei), sem utilizar rótulos de pontos pré-definidos (ou seja, uma [...]

By |2018-08-29T10:16:45+00:00março 13th, 2017|Sem categoria|0 Comments

Apache Drill em 10 minutos

Objetivo Use o Apache Drill para consultar dados de amostras em 10 minutos. Para simplificar, você executa o Drill no modo incorporado ao invés do modo distribuído, sem ter que executar quaisquer tarefas de configuração. Visão geral da instalação Você pode instalar o Drill para executar no modo incorporado em uma máquina rodando Linux, Mac OS X ou Windows. Para obter informações sobre a instalação do Drill para execução no modo distribuído, consulte a Instalação do Drill em Modo Distribuído. Este procedimento de instalação inclui como baixar o arquivo Apache Drill e extrair o conteúdo para um diretório em sua [...]

By |2018-08-29T10:16:49+00:00setembro 26th, 2016|Sem categoria|0 Comments

Guia do Consumidor para Big Data e Ciência de Dados (tudo que você precisa saber pra começar a adotar a tecnologia)

Introdução Estamos nadando em dados – estruturados e não estruturados, gerados por pessoas e máquinas. Os dados estão sendo criados a taxas quase inimagináveis e este cenário tende a aumentar. Estamos criando oceanos de dados provenientes de empresas, agências governamentais e até mesmo a interação de indivíduos através de redes públicas e privadas ao redor do globo. Ao longo dos próximos anos, outro bilhão de usuários vão se conectar à Internet, com mais e mais dispositivos inteligentes, conduzindo transações on-line de dados a níveis cada vez mais elevados. O fluxo de informação digital dentro e entre empresas também está crescendo [...]

By |2018-08-29T10:16:49+00:00setembro 19th, 2016|Sem categoria|0 Comments

Processamento Paralelo e Iterativo para Recomendações de Aprendizado de Máquina com Spark

O texto a seguir é uma tradução livre de um tutorial da MapR que achei muito interessante. Espero que também ache :) Sistemas de recomendação ajudam a estreitar suas escolhas para aquelas que melhor atendem às suas necessidades, estando entre os mais populares aplicativos de processamento de Big Data. Neste post vamos discutir a construção de um modelo de recomendação de classificação de filmes, semelhante a estes dois artigos: Um Olhar Interno aos Componentes de um Mecanismo de Recomendação e Sistema de Recomendação com Mahout e Elasticsearch, mas desta vez usando um algoritmo iterativo e processamento paralelo com Apache Spark MLlib. [...]

By |2018-08-29T10:16:51+00:00março 21st, 2016|Sem categoria|0 Comments

6 razões pelas quais a carreira em Big Data é uma escolha inteligente

Confuso para ingressar em uma carreira em Big Data? Planeje-se para investir seu tempo em obter a certificações para adquirir experiência em frameworks relacionados, como Hadoop, Spark etc. Está preocupado se você está cometendo um grande erro? Basta passar alguns minutos lendo este blog e você terá seis razões pelas quais você está fazendo uma escolha inteligente ingressando uma carreira na big data. Por que Big Data? Existem várias pessoas que acreditam que Big Data é a próxima grande coisa que ajudaria as empresas a se destacar a frente das outras e ajudá-las a posicionarem-se como a melhor em seus [...]

By |2018-08-29T10:16:51+00:00março 7th, 2016|Sem categoria|0 Comments

Guia de 5 minutos sobre Spark

A MapR, empresa responsável por uma das principais distribuições Hadoop, traz um ótimo texto sobre as diferenças entre o Spark e o MapReduce, por que é mais fácil desenvolver em Spark, e os cinco principais casos de uso. Então, o que é o Spark? Spark é um outro framework de execução. Assim como o MapReduce, que funciona com um sistema de arquivos para distribuir os seus dados através do cluster e processá-los em paralelo. Ele também tem um conjunto de instruções de um aplicativo escrito por um desenvolvedor. O MapReduce foi codificado a partir do Java. O Spark não suporta apenas [...]

By |2018-08-29T10:16:54+00:00dezembro 28th, 2015|Sem categoria|0 Comments

Os 7 projetos mais comuns com Hadoop

Crédito: flickr / Robert Scoble De acordo com a Infoworld, a maioria dos projetos Hadoop se encaixa perfeitamente em um desses sete tipos. O artigo cita um provérbio que diz: se você oferecer a alguém o seu total apoio e respaldo financeiro para fazer algo diferente e inovador, vai acabar fazendo o que todo mundo está fazendo. Todo mundo pensa que está fazendo algo especial com estas novas tecnologias de Big Data, mas não demora muito para encontrar os mesmos padrões. Alguns casos específicos podem diferir um pouco, mas aqui estão os sete projetos mais comuns. Projeto 1: Consolidação de [...]

By |2018-08-29T10:16:54+00:00dezembro 21st, 2015|Sem categoria|0 Comments

10 termos do Aprendizado de Máquina (Machine Learning) que você deve aprender o quanto antes!

Se você é novo no contexto do Aprendizado de Máquina e suas aplicações (como eu), então já se deparou com alguns termos muito técnicos que são muitas vezes difíceis para os iniciantes entenderem. Por isso, resolvi traduzir os 10 termos de Aprendizagem de Máquina relacionados pelo KDNuggets, num esforço louvável de torná-los mais fáceis de entender. Vamos a eles. Aprendizado de Máquina (Machine Learning) É um subcampo da ciência da computação e inteligência artificial (IA) que incide sobre a concepção de sistemas que podem aprender e tomar decisões e previsões baseadas em dados. O aprendizado de máquina permite que os computadores [...]

By |2018-08-29T10:16:54+00:00novembro 30th, 2015|Sem categoria|0 Comments

[Infográfico] Cientista de Dados em 8 Passos!

Que a carreira em Big Data e Ciência de Dados é uma das mais promissoras para os próximos anos, já não há mais dúvida. A grande questão agora é como chegar lá. Por isso, resolvi traduzir este excelente infográfico do BiCorner.com, que traz os 8 passos (fáceis) para uma carreira de cientista de dados. Coloquei a palavra fáceis entre parênteses porque este é um adjetivo polêmico neste caso. A facilidade é relativa, e vai depender muito do quanto você está realmente disposto a agir efetivamente na direção de construir uma carreira em ciência de dados. Estudo sobre Big Data e [...]

By |2018-08-29T10:16:55+00:00setembro 14th, 2015|Sem categoria|0 Comments

Big Data para leigos – Parte 2

Seguimos com a Parte 2 da série... se não viu a Parte 1, clique aqui. A Abordagem Hadoop Hadoop foi concebido para processar eficientemente grandes volumes de informação, ligando muitos computadores convencionais em conjunto para funcionar em paralelo. A máquina de 1000 CPUs teórica descrita anteriormente custaria uma quantidade muito grande de dinheiro, muito mais do que 1.000 máquinas com uma única CPU ou 250 máquinas com 4 CPUs. O Hadoop vai amarrar essas máquinas menores em um único cluster de computação de baixo custo. Comparação com Técnicas Existentes Processamento de grandes volumes de dados não é algo novo, tendo [...]

By |2018-08-29T10:16:59+00:00julho 27th, 2015|Sem categoria|0 Comments

Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!
Bitcoin Direto ao Ponto - Como Investir Sem Cair Em Armadilhas e Golpes!
Preparatório para Certificação VMware VCA-DCV
Programa de Certificação ISO 27002
Backup com Veeam - Do zero ao primeiro backup em 1 hora
Preparatório para Certificação TIL Foundations
Mentoria em Big Data e Ciência de Dados


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!