Big Data Analytics

/Big Data Analytics

Programação em R – Parte 2 (manipulações simples; números e vetores)

Confira todos os textos da série Programação em R: Programação em R - Parte 1 (Introdução) Programação em R - Parte 2 (Manipulações simples; números e vetores) Programação em R - Parte 3 (Entendendo e manipulando objetos) Programação em R - Parte 4 (Fatores) Programação em R - Parte 5 (Matrizes) Programação em R - Parte 6 (Listas e Data Frames) Programação em R - Parte 7 (Lendo Dados de Arquivos) Programação em R - Parte 8 (Agrupamentos, Loops e Execução Condicional) Programação em R - Parte 9 (Exibindo Gráficos) Vetores e atribuição R opera em estruturas de dados nomeadas. [...]

Programação em R – Parte 1 (Introdução)

Confira todos os textos da série Programação em R: Programação em R - Parte 1 (Introdução) Programação em R - Parte 2 (Manipulações simples; números e vetores) Programação em R - Parte 3 (Entendendo e manipulando objetos) Programação em R - Parte 4 (Fatores) Programação em R - Parte 5 (Matrizes) Programação em R - Parte 6 (Listas e Data Frames) Programação em R - Parte 7 (Lendo Dados de Arquivos) Programação em R - Parte 8 (Agrupamentos, Loops e Execução Condicional) Programação em R - Parte 9 (Exibindo Gráficos) Introdução Comentei aqui recentemente sobre meu projeto de análise do [...]

5 Tecnologias Que Todo Cientista de Dados Tem Que Conhecer

Você já sabe que o cientista (maluco) de dados é um misto de estatístico, matemático, analista de TI e de negócios. Se não sabia, aprenda aqui. O que a maioria das pessoas não sabe é que se, por um lado, é preciso estudar muito, por outro, quanto mais você estuda mais percebe que não é tão complicado (nem glamoroso :) quanto parecia à primeira vista. Embora a fama de "Profissão Mais Sexy do Século XXI" já tenha pegado, a verdade é que muito do trabalho do cientista de dados envolve "arrumar a bagunça" de conjuntos de dados que não estão [...]

6 Dúvidas Comuns Sobre Big Data e o Cientista de Dados Respondidas!

Há pouco mais de 6 meses fiz uma pesquisa junto a você que acompanha o Tecnologia que Interessa!, sobre suas dúvidas em relação a Big Data e Ciência de Dados. Lamentavelmente, apenas agora pude tabular os resultados e verificar as dúvidas mais comuns, bem como outras informações interessantes sobre a percepção dos profissionais de TI em relação ao tema.        Mas vamos ao que interessa: os dados! E eles são bem interessantes! Algumas observações preliminares sobre as respostas: A pesquisa solicitava informar se o respondente estava empregado e sua área de atuação, e com isso foi possível perceber algumas [...]

Tudo que você queria saber sobre Agrupamento (Clustering) e não tinha a quem perguntar!

Por André Camacam Diferentes clusters em diferentes pontos coloridos (De Matthew Mayo’s Palavras Chave de Aprendizagem de Máquina, Explicado) Iniciando com Ciência de Dados (Data Science) ou precisando dar aquela refrescada na memória? O agrupamento encontra-se entre as ferramentas mais utilizadas pelos Cientistas de Dados. A seguir você vai ver 10 termos relacionados ao "tal de clustering" e suas definições. Agrupamento é um método de análise de dados, que agrupa pontos de dados em conjunto para “maximizar similaridades dentro da classe e minimizar similaridades entre as classes” (Han, Kamber & Pei), sem utilizar rótulos de pontos pré-definidos (ou seja, uma [...]

Apache Drill em 10 minutos

Objetivo Use o Apache Drill para consultar dados de amostras em 10 minutos. Para simplificar, você executa o Drill no modo incorporado ao invés do modo distribuído, sem ter que executar quaisquer tarefas de configuração. Visão geral da instalação Você pode instalar o Drill para executar no modo incorporado em uma máquina rodando Linux, Mac OS X ou Windows. Para obter informações sobre a instalação do Drill para execução no modo distribuído, consulte a Instalação do Drill em Modo Distribuído. Este procedimento de instalação inclui como baixar o arquivo Apache Drill e extrair o conteúdo para um diretório em sua [...]

By |2018-08-29T10:16:49+00:00setembro 26th, 2016|Big Data, Big Data Analytics, noticias-tecnologia|0 Comments

Guia do Consumidor para Big Data e Ciência de Dados (tudo que você precisa saber pra começar a adotar a tecnologia)

Introdução Estamos nadando em dados – estruturados e não estruturados, gerados por pessoas e máquinas. Os dados estão sendo criados a taxas quase inimagináveis e este cenário tende a aumentar. Estamos criando oceanos de dados provenientes de empresas, agências governamentais e até mesmo a interação de indivíduos através de redes públicas e privadas ao redor do globo. Ao longo dos próximos anos, outro bilhão de usuários vão se conectar à Internet, com mais e mais dispositivos inteligentes, conduzindo transações on-line de dados a níveis cada vez mais elevados. O fluxo de informação digital dentro e entre empresas também está crescendo [...]

Processamento Paralelo e Iterativo para Recomendações de Aprendizado de Máquina com Spark

O texto a seguir é uma tradução livre de um tutorial da MapR que achei muito interessante. Espero que também ache :) Sistemas de recomendação ajudam a estreitar suas escolhas para aquelas que melhor atendem às suas necessidades, estando entre os mais populares aplicativos de processamento de Big Data. Neste post vamos discutir a construção de um modelo de recomendação de classificação de filmes, semelhante a estes dois artigos: Um Olhar Interno aos Componentes de um Mecanismo de Recomendação e Sistema de Recomendação com Mahout e Elasticsearch, mas desta vez usando um algoritmo iterativo e processamento paralelo com Apache Spark MLlib. [...]

6 razões pelas quais a carreira em Big Data é uma escolha inteligente

Confuso para ingressar em uma carreira em Big Data? Planeje-se para investir seu tempo em obter a certificações para adquirir experiência em frameworks relacionados, como Hadoop, Spark etc. Está preocupado se você está cometendo um grande erro? Basta passar alguns minutos lendo este blog e você terá seis razões pelas quais você está fazendo uma escolha inteligente ingressando uma carreira na big data. Por que Big Data? Existem várias pessoas que acreditam que Big Data é a próxima grande coisa que ajudaria as empresas a se destacar a frente das outras e ajudá-las a posicionarem-se como a melhor em seus [...]

Guia de 5 minutos sobre Spark

A MapR, empresa responsável por uma das principais distribuições Hadoop, traz um ótimo texto sobre as diferenças entre o Spark e o MapReduce, por que é mais fácil desenvolver em Spark, e os cinco principais casos de uso. Então, o que é o Spark? Spark é um outro framework de execução. Assim como o MapReduce, que funciona com um sistema de arquivos para distribuir os seus dados através do cluster e processá-los em paralelo. Ele também tem um conjunto de instruções de um aplicativo escrito por um desenvolvedor. O MapReduce foi codificado a partir do Java. O Spark não suporta apenas [...]

By |2018-08-29T10:16:54+00:00dezembro 28th, 2015|Apache Spark, Big Data, Big Data Analytics, noticias-tecnologia|0 Comments