Linguagem R

[Infográfico] Cientista de Dados – o caminho mais curto para a carreira do século XXI!

Resultado de imagem para site:blog.tecnologiaqueinteressa.com

No infográfico a seguir você encontra respostas para as questões mais importantes sobre a carreira em cientista de dados!

  • O que é Big Data?
  • Big Data vs Ciencia de Dados
  • O que é um cientista de dados?
  • Quais são os conhecimentos necessários para um cientista de dados?
  • Qual é o salário médio de um cientista de dados?
  • O que é o Hadoop?
  • Que grandes empresas adotaram o Big Data?
  • Onde estudar para se tornar um cientista de dados?
  • Quais certificações são mais reconhecidas pelo mercado para o Data Scientist?

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Ferramentas como o Vengage permitem criar vários tipos de (info)gráficos.

Top 20+ Ferramentas de Big Data para se tornar Cientista de Dados (mesmo sem saber programar)

A esta altura, você já deve saber que Big Data é o volume de dados além da capacidade tecnológica para armazenar, gerenciar e processar de modo eficiente, demandando soluções novas, mudanças de paradigma, abordagens e métodos para o desenvolvimento e implementação de tecnologias para análise de dados.

Atualmente as empresas têm acesso a muita informação, mas não conseguem extrair valor dos dados brutos, muitas vezes por estarem semi ou não estruturados, pois não há soluções adequadas para lidar com este tipo de dado. Muitas empresas sequer sabem se vale a pena manter, ou mesmo não possuem condições de manter os dados, até por não conhecerem todas as possibilidades dos serviços em nuvem e outras alternativas acessíveis para armazenamento e tratamento de dados.

Diante desse cenário, resolvi fazer esse levantamento de ferramentas que muita gente não conhece e que podem ser úteis pra você fazer a diferença.

Sim, você!

Já pensou na quantidade de dados que está lá, parada, escondida numa pasta no servidor de arquivos, numa tabela do banco de dados ou mesmo nas redes sociais apenas esperando que você vá lá e faça um uso delas que ninguém pensou antes, mas que faz toda a diferença pra sua empresa, seu trabalho e até mesmo sua vida?

Pois é!

Preparei essa lista de softwares pra que você possa ter uma noção do arsenal que está à sua disposição, seja qual for o seu perfil, desde programadores, analistas de negócio, estatísticos e até gestores.

Confira as opções abaixo depois me diga nos comentários qual ferramenta faz sentido pra você, combinado?

Vamos lá!

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

 

1 – Apache Hadoop

Não dá pra falar de Big Data sem citar o Hadoop, a primeira solução de uso amplo voltada pra análise de grandes volumes de dados. Na minha opinião, a maior contribuição do Hadoop nem é a questão do cluster, processamento distribuído, mas sim a mudança de paradigma que o Map Reduce proporcionou, reduzindo drasticamente a complexidade de desenvolver um sistema distribuído, e o melhor, seguindo uma lógica simples, que pode até ser comparada por analogia a operações de uso comum em linguagem SQL, como select e group by. Por tudo isso, o Hadoop é item obrigatório no arsenal de conhecimentos de um cientista de dados, e uma das soluções mais usadas do mundo até hoje, embora já tenham anunciado sua “morte” algumas vezes.

Mais informações sobre download, instalação e uso aqui.

 

2 – Spark

O Spark nasceu de uma sacada inteligente pra resolver uma limitação do Hadoop. Por que não trabalhar os dados em memória ao invés de disco? Com isso, o Spark chegou a ser considerado um Hadoop-Killer, mas hoje está claro que a integração dos dois pode fazer sentido em muitos cenários, até porque não faria sentido reinventar a roda e criar um novo sistema de arquivos distribuído, quando o HDFS, maduro e robusto, pode atender as mais diversas situações.

O Spark lida com o gerenciamento de tarefas distribuídas, gerenciamento de memória, recuperação de falhas e todo tipo de desafio que um sistema distribuído está sujeito, incluindo a distribuição dos dados através dos Resilient Distributed Datasets (RDD), uma coleção de itens distribuídos que podem ser manipulados em paralelo (somente leitura).

O Spark suporta várias integrações com outras ferramentas e linguagens, sendo comumente usado através do Python Shell (PySpark Shell).

 

3 – Distribuições Hadoop/Spark

Uma distribuição Hadoop/Spark é mais que uma ferramenta, mas uma suite de soluções, integradas e mantidas por uma empresa ou comunidade que garante a compatibilidade entre as versões dos seus vários componentes, atualizações e suporte em caso de dúvidas e dificuldades.

É importante conhecer este tipo de solução, especialmente para empresas de maior porte, cujo volume de dados a ser analisado demanda uma solução mais robusta, versátil e escalável. Por isso listo a seguir algumas das principais distribuições disponíveis para uso gratuito ou avaliação e testes, seja dentro da empresa ou através da nuvem.

3.1 Cloudera – tem versão gratuita chamada Cloudera Quickstart, que vem no formato de máquina virtual, em que você pode testar as ferramentas integradas, incluindo Hadoop, Spark, Hive, Pig, Hue, HBase, Impala e outras. Os requisitos para executar a VM são pelo menos 8GB de RAM e 2 processadores virtuais. Mais informações sobre download, instalação e uso aqui.

3.2 Hortonworks – era uma alternativa de distribuição, semelhante à Cloudera, mas as duas empresas se fundiram recentemente (janeiro de 2019).

3.3 Amazon EMR – O Amazon Elastic Map Reduce é o serviço de big data da nuvem da empresa do Jeff Bezos, que permite processar grandes quantidades de dados com rapidez, de forma econômica e em grande escala. Tem suporte ao Spark, Hive, HBase, Flink e Presto, além dos serviços de instâncias computacionais Amazon EC2, armazenamento S3, e suporte a notebooks baseados em Jupyter para permitir o desenvolvimento iterativo, a colaboração e o acesso a dados. Mais informações sobre download, instalação e uso aqui.

3.4 Microsoft Azure HDInsight – o serviço de big data da nuvem da Microsoft suporta Hadoop, Spark, HBase, Hive, Kafka, Storm e muito mais, fornecendo uma maneira rápida pra provisionar um cluster para processamento de grandes volumes de dados sem a complexidade envolvida na implantação de um ambiente desses dentro da empresa. A Microsoft tem um apelo muito grande não apenas para quem já é cliente das suas soluções, pela integração com Office e Power BI, por exemplo, mas também pela facilidade que oferece na utilização de suas ferramentas, como o Microsoft Machine Learning Studio. Mais informações sobre download, instalação e uso aqui.

3.5 IBM Watson – A IBM possui parceria com a Cloudera e pode oferecer uma distribuição Hadoop naquele modelo, porém o foco da empresa é mesmo os serviços do Watson, a sua plataforma de computação cognitiva, que inclui os mais diversos serviços de análise de dados nos mais diversos formatos, incluindo tratamento de áudio, reconhecimento de imagens e linguagem natural, dentre outras funcionalidades. Mais informações sobre download, instalação e uso aqui.

 

4 – Knime

O KNIME (Konstanz Information Miner) é uma plataforma gratuita de análise de dados, relatórios e integração de dados. O KNIME integra vários componentes para aprendizado de máquina e mineração de dados através de seu conceito modular de pipelining de dados.

O KNIME é uma ferramenta muito versátil, que traz mais de 1000 módulos, com recursos para tratar, analisar e aplicar várias técnicas e algoritmos aos dados, de forma que você pode usá-lo no Linux, MacOS e Microsoft Windows para as mais diversas tarefas.

Mais informações sobre download, instalação e uso aqui.

 

5 – Neuroph

Neuroph é uma aplicação voltada para a criação de redes neurais artificiais, orientada a objetos e escrita em Java. Pode ser usada para criar e treinar redes neurais, e fornece bibliotecas Java, além de uma versão instalável que permite analisar dados texto, imagem e outros utilizando algoritmos de Inteligência Artificial baseados em redes neurais, como Adaline e Multilayer Perceptron, dentre outras.

Você encontra uma lista de projetos interessantíssimos feitos usando o Neuroph aqui.

 

6 – RapidMiner

RapidMiner é uma plataforma de software de ciência de dados desenvolvida pela empresa de mesmo nome que fornece um ambiente integrado para preparação de dados, aprendizado de máquina, aprendizado profundo, mineração de texto e análise preditiva.

É frequentemente citado em pesquisas sobre soluções utilizadas para análise de dados, e você encontra mais detalhes sobre a solução aqui, incluindo guias para começar a usar e tutoriais com exemplos.

 

7 – WEKA

O pacote de software Weka começou a ser escrito em 1993, usando Java, na Universidade de Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006. O Weka é um software livre largamente utilizado para mineração de dados, e oferece uma lista ampla de algoritmos para análise de dados, podendo ser instalado em qualquer computador com Windows ou Linux. Mais informações sobre o projeto aqui.

 

8 – Auto-WEKA

Auto-WEKA é uma iniciativa da Universidade British Columbia, que visa otimizar os chamados hiperparâmetros de modelos de Machine Learning, usando a ferramenta WEKA, de forma automática, buscando facilitar a escolha e aplicação do melhor modelo para a solução de um problema de análise de dados. Mais informações aqui.

 

9 – MLJAR

MLJAR é um projeto que promete automatizar (ao menos em parte) o processo de aplicar um algoritmo de Machine Learning a um conjunto de dados. A princípio, bastaria fazer o upload dos dados para a plataforma na nuvem, selecionar os campos a serem utilizados pelo algoritmo e, com um clique, executar o modelo. A solução tem uma versão gratuita que permite enviar até 250MB de dados para análise. Mais informações aqui

 

10 – OpenRefine (Google Refine)

Este projeto da Google é um pouco diferente, no sentido de que ele foca no tratamento de dados mais que na sua análise. Intitulada como “uma ferramenta livre, de código aberto, e poderosa para tratar dados bagunçados/sujos”, a solução pode ser instalada na sua máquina, e permite organizar, transformar e extender os dados a partir de fontes externas como web services, além de possuir uma vasta lista de plugins e integrações. Mais informações aqui.

 

11 – Orange

Uma ferramenta de código aberto, para novatos e experts, com recursos de Machine Learning, visualização de dados e workflow interativo. Esta é a Orange, uma ferramenta poderosa, como demonstra a seção de screenshots do site, que vai de aplicação de modelos de Deep Learning para reconhecimento de imagens a modelagem de tópicos a partir de tuites. Confira todo o poder dessa ferramenta aqui e, se gostar, instale hoje mesmo e comece a brincar.

 

12 – Gephi

Gephi é uma ferramenta especializada em grafos, com recursos de visualização e exploração para todo tipo de redes de conexões que possa imaginar. Este tipo de ferramenta vem crescendo muito nos últimos anos pela necessidade de analisar relações entre pessoas, objetos, informações, instituições e muito mais, sendo bastante utilizada em investigações e mapeamento de relações entre pessoas nas redes sociais. Mais informações aqui.

 

13 – OctoParse

Web Scraping ou Raspagem de Dados é a técnica que permite extrair da web, sejam sites de notícias, portais, blogs ou redes sociais, informações diversas que estão “soltas” e organizá-las em planilhas e outros formatos. OctoParse é uma ferramenta que promete facilitar este processo para não programadores, com poucos cliques.

A rigor, já encontramos hoje recursos que facilitam bastante as tarefas de raspagem de dados, em ferramentas como Power BI, Qlikview e similares, uma vez que os dados não estruturados são a maior parte na web, não poderiam ser ignorados.

Ainda assim, uma solução especializada e que conta com versão gratuita, tem seu valor. Confira tudo sobre a OctoParse aqui.

 

14 – R/RStudio

A linguagem R é certamente um dos itens obrigatórios na caixa de ferramentas do cientista de dados. Não apenas por ser uma linguagem nativamente orientada a dados (o que me fez ficar fã da linguagem!), mas também por contar com uma vasta biblioteca de recursos para todo tipo de necessidade, seja fazer web scraping de uma página ou rede social, seja criar um robô pra fazer análise de dados financeiros da bolsa de valores e até criptomoedas e Bitcoin, pra ficar somente em dois exemplos que estou envolvido.

Uma linguagem de programação não é o caminho mais fácil para não programadores, certamente. Por outro lado, oferece uma infinidade de possibilidades, inigualável por qualquer outra ferramenta. Afinal, com uma linguagem de programação, tudo é possível, e ainda que não exista biblioteca pronta para sua necessidade, você pode criar uma.

Além disso, as linguagens atuais fornecem tantos recursos facilitadores, que costumo repetir o que li há algum tempo num site especializado: construir software hoje é mais sobre encontrar e combinar os componentes certos que resolvem o problema, do que escrever código (não eram exatamente essas as palavras, mas a ideia é a mesma).

 

15 – Python & Jupyter Notebook

Se o R pode ser considerada mais que uma linguagem de programação, e há quem chame de plataforma, o que dizer do Python, que cresce de forma tão impressionante que já está se tornando a solução padrão para diversos casos de uso, em especial na área de Machine Learning e Deep Learning.

Jupyter Notebook é um ambiente de desenvolvimento web que agrega, além da interatividade e facilidade típicas de um ambiente de navegador, a ideia de notebook, uma tendência que favorece a chamada reprodutibilidade da análise de dados. Ou seja, ao combinar código e texto no mesmo projeto, é mais fácil documentar os detalhes de forma a simplificar o processo de repetição da análise, seja para melhorá-la ou validar os resultados obtidos.

A combinação do Jupyter com o Python é muito comum e há soluções como Anaconda que trazem várias bibliotecas e recursos embutidos visando facilitar ainda mais o desenvolvimento de análises de dados.

 

16 – Pig

Apache Pig é uma plataforma de alto nível para criar programas que são executados no Apache Hadoop. A linguagem para esta plataforma é chamada Pig Latin. O Pig pode executar suas tarefas do Hadoop no MapReduce, Apache Tez ou Apache Spark.

Importante mencionar que o código escrito em Pig Latin é “convertido” para jobs Map Reduce. Isso significa que o Pig é uma abstração que permite criar soluções em linguagem mais simples, que será interpretada e transformada em tarefas apropriadas para execução distribuída.

Você encontra um excelente tutorial com exemplos dos recursos do Pig aqui.

 

17 – Hive

Apache Hive é um projeto de software de data warehouse construído sobre o Apache Hadoop para fornecer consulta e análise de dados. O Hive fornece uma interface semelhante a SQL para consultar dados armazenados em vários bancos de dados e sistemas de arquivos que se integram ao Hadoop.

Seguindo a mesma linha do Apache Pig, o Hive permite simplificar a execução de tarefas no de processamento de dados no Hadoop com uma linguagem SQL-like, uma abordagem comumente denominada pelo mercado de “SQL-on-Hadoop”, que é interpretada e transformada em jobs Map Reduce para execução no Hadoop.

Mais detalhes sobre o projeto, documentação e uso aqui.

 

18 – Sqoop

Sqoop é um aplicativo de interface de linha de comandos para transferir dados entre bancos de dados relacionais e o Hadoop. Uma ferramenta simples porém essencial pra quem precisa levar os dados do ambiente legado de banco de dados para a plataforma Hadoop, usando o HDFS para armazenamento desses dados visando a construção de um Data Lake que permita ampliar as possibilidades de análise de dados da organização.

 

19 – Flume

Apache Flume é um software distribuído, confiável e disponível para coletar, agregar e mover com eficiência grandes quantidades de dados de log. Tem uma arquitetura simples e flexível baseada em dados de fluxo contínuo.

Tive a oportunidade de orientar um aluno num trabalho de coleta de dados do Twitter usando a distribuição da Cloudera, sendo o Flume usado para coletar e armazenar os dados no HDFS do Hadoop, e o Solr usado para indexar e consultar as informações posteriormente visando analisar o conteúdo compartilhado na rede social durante o período da coleta, que se deu próximo às eleições de 2014.

 

20 – Opinion Crawl

Mais um serviço que uma ferramenta, Opinion Crawl permite obter a análise de sentimento em tempo real para vários tópicos, desde economia a Charlie Sheen :). Confira o serviço aqui.

Conclusão

E então?

O que achou da listinha de ferramentas?

Qual a sua preferida?

Sentiu falta de alguma solução?

Comenta aí!

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

 

Estou procurando uma ferramenta de big data para criar perfil de empreendedores e realizar um estudo longitudinal?

1
Olá Carter, o Watson analytics inclui alguns recursos que podem torná-lo ideal para o seu aplicativo. Inclui ferramentas de preparação e seleção de dados que podem ser um problema em um estudo longitudinal. Ele também inclui recursos preditivos, que podem ajudá-lo a avaliar a força dos relacionamentos nos dados. O WA entende CSV e muitos outros formatos de arquivo e possui seu próprio repositório, portanto não é necessária a integração. Parece que você está próximo do início de sua jornada, portanto, a versão gratuita pode ser tudo o que você precisa por um longo tempo. Https://www.ibm.com/analytics/wa…

 

Além do Hadoop, que outras ferramentas de big data podemos usar?

1
Isso realmente depende do que você está tentando fazer. “Ferramentas” é um tópico amplo. Existem ferramentas de transformação para ajudar a limpar os dados em algo utilizável. Trifacta é um bom começo para isso. Existem ferramentas para consultar os dados – Spark, Hive / Impala (para sql, como recurso de consulta). Existem ferramentas para usar os dados no Machine Learning, o Spark possui sua própria biblioteca ML, mas também há o Data Robot. Também existem ferramentas de visualização como o Qlik, que podem ler dados do HDFS e criar tabelas, gráficos e outras visualizações de Big Data agregado.

2
O melhor é a Spark. # DforDataScience – Aprenda ciência de dados O Easy WaySpark é a mais poderosa e alternativa ao Hadoop.É executado no topo do Hadoop e possui seu próprio cluster.park é a pilha completa.Tem sua própria máquina Além disso, ele possui um próprio SQL chamado spark SQL.Além disso, ele possui um spark streaming e processamento grapx.

 

Quais são as ferramentas de big data que devo conhecer para a ciência de dados? Quão bem eu devo conhecer essas ferramentas? Aprender ‘extrair dados de DWH para R’ é suficiente?

1
As ferramentas para movimentação de dados (por exemplo, ETL, REST) podem ser bastante úteis, pois permitem acessar e navegar facilmente pelas fontes de dados para análise. Além de extrair do DWH para o R, eu aprenderia também a enviar dados novamente para um banco de dados – ou melhor – encontre maneiras de seu código R ser executado no banco de dados para permitir que você dimensione sua atividade.

2
Depende do que você quer fazer. A maioria das pessoas começará como analista de dados. R ou Pythons são mais que suficientes para esse papel. Se você progredir no campo, precisará entender SQL e Apache Spark e / ou Hadoop. Eles tendem a ser específicos da empresa e, quando você ficar esperto em um deles, estará trabalhando em empresas que usam variações semelhantes do que aprendeu.

 

Como as empresas estão usando a análise de big data?

1
Muitas empresas se adaptaram a novas tecnologias, como o Big Data, para facilitar a análise de dados complexos. É difícil classificar, analisar e tomar uma decisão sobre dados complexos. Bem, o Big Data resolve o problema de manipular dados variados e permite a extração sistemática de informações ou lida com conjuntos de dados muito grandes e complexos, difíceis de lidar seguindo os processos tradicionais de análise de dados. Tenho um exemplo perfeito desse sucesso história. Mergulhe no estudo de caso para saber como a ferrovia Classe I implementou o Big Data e alavancou o processo de tomada de decisão

2
80% dos dados nas empresas não são estruturados. A IA e as análises avançadas melhoram a experiência do cliente, reduzem as despesas operacionais e de negócios e melhoram os esforços de conformidade. Aprenda a começar com o Opentext-magellan.

 

Qual é o escopo do Big Data Testing? Sugira algumas boas ferramentas para teste de big data.

1
Big Data refere-se a todos os dados que estão sendo gerados em todo o mundo a uma taxa sem precedentes. Esses dados podem ser estruturados ou não estruturados. As empresas de negócios de hoje devem grande parte de seu sucesso a uma economia firmemente orientada para o conhecimento. Os dados impulsionam as organizações modernas do mundo e, portanto, compreendem esses dados e desvendam os vários padrões e revelam conexões invisíveis dentro do vasto mar de dados que se tornam críticos e um esforço imensamente recompensador. Melhores dados levam a uma melhor tomada de decisões e uma maneira aprimorada de criar estratégias para as organizações, independentemente do tamanho, Big Data Hadoop, Spark, Storm, Scala – Classes de treinamento on-line | Big Data Hadoop, Spark, Storm, Scala – Combo Courses Geografia on-line, participação de mercado, segmentação de clientes e outras categorizações. As empresas mais bem-sucedidas de amanhã serão as que conseguirão entender todos esses dados em volumes e velocidades extremamente altos para capturar mercados e base de clientes mais novos.O Big Data possui certas características e, portanto, é definido usando 4Vs, a saber: Volume: the A quantidade de dados que as empresas podem coletar é realmente enorme e, portanto, o volume dos dados se torna um fator crítico nas análises de Big Data.Velocidade: a taxa na qual novos dados estão sendo gerados, tudo graças à nossa dependência da Internet, sensores, máquinas, os dados da máquina também são importantes para analisar o Big Data em tempo hábil. Variedade: os dados gerados são completamente heterogêneos no sentido de que podem estar em vários formatos, como vídeo, texto, banco de dados, dados numéricos, dados do sensor etc. portanto, entender o tipo de Big Data é um fator-chave para desbloquear seu valor.Veracidade: saber se os dados disponíveis são provenientes de uma fonte confiável e são de extrema importância antes de decifrar e implementar Aqui está uma breve explicação de como exatamente as empresas estão utilizando o Big Data: Depois que o Big Data é convertido em pepitas de informações, torna-se bastante simples para a maioria das empresas, no sentido de que agora elas sabem o que seus clientes deseja, quais são os produtos que estão se movendo rapidamente, quais são as expectativas dos usuários em relação ao atendimento ao cliente, como acelerar o tempo de colocação no mercado, maneiras de reduzir custos e métodos para criar economias de escala de maneira altamente eficiente. Assim, o Big Data distintamente leva a grandes benefícios para as organizações e, portanto, naturalmente existe um interesse tão grande por todo o mundo.

 

Como geralmente os big data são processados e visualizados? Quais ferramentas são usadas?

1
Depende da infraestrutura que você possui e do caso de uso. Vamos dividir o Hadoop em: MapReduce (estrutura de processamento) e HDFS (armazenamento de dados). O Spark (estrutura de processamento) geralmente é integrado ao HDFS (estrutura de armazenamento). Além disso, o Spark requer um gerenciador de cluster para que possa ser usado no Hadoop YARN ou Apache Mesos.Real time? O Spark pode ser até 10 vezes mais rápido que o MapReduce para processamento em lote e até 100 vezes mais rápido para análises em memória. O MapReduce opera em etapas, o Spark opera em todo o conjunto de dados de uma só vez. Mas isso significa que você precisa de uma quantidade comparativamente maior de memória para poder usar o Spark. A maneira como a tolerância a falhas é tratada também é diferente. No Hadoop, os dados são gravados no disco após cada operação, tornando-os resilientes a falhas ou falhas do sistema. O Spark tem resiliência interna semelhante. No Spark, os objetos de dados são armazenados nos chamados conjuntos de dados distribuídos resilientes distribuídos pelo cluster de dados.

2
Apache spark é o bebê atual. A limpeza de dados e o ETL ainda são uma tarefa árdua e não há uma maneira ‘boa’ de fazê-lo. Mas existem produtos por aí, como trifacta, tamr etc. etc. Ainda bastante beta. No entanto, quanto à visualização, os dados geralmente processados e agregados são pequenos o suficiente para ser visualizado em qualquer pacote std viz. A maioria dos grandes fornecedores de dados como AWS, azure, pivot etc. também fornece o pacote viz. Mas você pode usar de prateleira como tableau, qliksense ou até criar seu próprio viz em d3 ou webgl.

3
7 ferramentas principais para domesticar o big data. Eu acho que isso iria ajudá-lo um pouco.

 

Como você calcularia a mediana de um grande conjunto de números (digamos 100 milhões) sem usar as ferramentas de Big Data?

1
Eu usaria SQL.100 milhões de linhas não são tão grandes. O código abaixo é o que eu usaria nas minhas caixas SQL para calcular a média. Temos tabelas com vários bilhões de linhas.SELECTAVG (ALL val) FROMt; ** Código mediano abaixo: ** SELECT @Median = AVG (1.0 * val) FROM (SELECT o.val, rn = ROW_NUMBER () OVER (ORDER BY o .val), c.cFROM dbo.EvenRows AS ou CROSS JOIN (SELECT c = COUNT (*) FROMdbo.EvenRows) AS c) AS x ONDE rn IN ((c + 1) / 2, (c + 2) / 2 );

2
Embora esse tamanho de um conjunto de dados esteja certamente entrando no domínio do Big Data, muitos pacotes estatísticos tradicionais (por exemplo, SAS) poderiam lidar com isso. Além disso, isso pode ser feito sem um pacote de estatísticas, por exemplo, ordenando os números, contando quantos existem e depois contando até o ponto médio.

3
Como você encontra a mediana de um grande conjunto de números? Ordene os valores do menor para o maior. Se o conjunto de dados contiver um número ímpar de valores, escolha aquele que está exatamente no meio. Você encontrou a mediana. Se o conjunto de dados contiver um número par de valores, pegue os dois valores que aparecem no meio e calcule a média deles para encontrar a mediana.Sourcehttps: //www.dummies.com/educatio

 

Os partidos políticos podem realmente aproveitar as ferramentas de Big Data e as soluções de análise de dados para alcançar prováveis eleitores?

1
Você primeiro precisará entrar em contato com os Eleitores que não votarão. Para alcançar um grande público, o Digital é o caminho a seguir. Email / SMS / Banner / Ads / Search Ads e muitos outros podem ajudar diretamente a chegar ao fim Você precisará do Big Data and Analytics para analisar sua resposta e estimar quem votará em quem etc. Você pode combinar essas informações com dados disponíveis ao público (como respostas do Quora :), feeds do Twitter e feeds do FB públicos ) e, em seguida, decida ir atrás de um endereçamento mais direcionado…

 

Qual é o livro mais recomendado para aprender o Apache Spark e outras ferramentas de big data?

1
Você não perderá seu tempo com livros, nem quer responder por muito tempo, jargão e sofisticado. Apenas uma palavra para aprender big data é: O site chamado “ITVERSITY” DE DURGA RAJUAND SE VOCÊ NÃO TEM BOM HARDWARE, COMPRE O CLOUDLAB TAMBÉM OFERECIDO POR ELE NÃO UM PATROCINADOR NEM EU QUERO QUE VOCÊ DESPERDIÇA O SEU TEMPO. SE VOCÊ SENTE QUE QUER REALMENTE APRENDER, TENTE A ITVERSIDADE E LEMBRE-SE “NESTE MUNDO NADA É GRATUITO”, então siga o princípio do pagamento e aceite esse caminho de aprendizado.

2
Não é necessário procurar nenhum livro para aprender Sparks e outras ferramentas de big data, pois o dataflair tem ótimos tutoriais disponíveis gratuitamente em seu site. Estes são completamente do zero ao nível avançado, onde cada tópico é abordado com práticas para fornecer conhecimentos.Para iniciantes, você deve ter o conhecimento dos tópicos abaixo: Introdução ao SparkInstalação e recursosComandos de shellRDDs e maneiras de criá-losPara nível intermediário, você deve saber : Mapa versus FlatMapAvaliação preguiçosaTolerância a falhasDAGSparkRTópicos avançados no Spark incluem tópicos como: Spark SQlDataFramesDatasetsAjuste de desempenhoS Streaming de parqueGraphXSpark MLlibTodos esses itens são abordados de maneira adequada em Learn Spark – Spark Tutorials – DataFlair para entrevista depois de aprender a tecnologia corretamente. Para realizar vários projetos no spark, o dataflair tem um bom curso, que você pode conferir no link abaixo: Curso certificado de treinamento Apache Spark e Scala – DataFlairSo comece a aprender agora e aumente sua carreira.Todo o melhor !!!

3
Os 10 melhores livros para aprender Apache Spark2 | Análise avançada com Spark: padrões para aprender com dados em escala Por Sandy Ryza. … 3 Spark: O Guia Definitivo: O Processamento de Big Data Simplificado por Bill Chambers. … 4 Apache Spark em 24 horas, Sams ensina-se por Jeffrey Aven. … 5 | Aprendendo Apache Spark 2 por Muhammad Asif Abbasi.

 

Quais são algumas startups promissoras de Big Data (tanto financiadas quanto não financiadas) e talvez alguns aplicativos ou pilhas de OSS (uma startup nem sempre precisa ser uma empresa)?

1
HortonWorkshttp: //hortonworks.com/

2
Factual (empresa) – http://www.factual.com

3
Olá. Aqui estão algumas das principais descobertas sobre big data: • 80% das organizações vêem o processamento de Big Data como missão crítica • Para empresas que lidam com Big Data, a necessidade de funcionalidade em tempo real é significativa e crescente. A necessidade de soluções de streaming para lidar com os desafios do Big Data e acelerar o processamento de Big Data está aumentando. • 80% das empresas planejam mover seu Big Data para a nuvem ou estão considerando a opção. Você pode ler mais sobre isso aqui ! http: //www.rickscloud.com/big-da … isso é útil!

 

Existem mestres na aplicação de ferramentas de big data / aprendizado de máquina a problemas de medicina (por exemplo, câncer)?

1
Resposta do usuário-11174886681697790289 da Existem exemplos de organizações das ciências da vida alcançando resultados na descoberta de medicamentos por meio de aprendizado de máquina que não seriam possíveis sem o aprendizado de máquina? pode ajudar.

 

Quais são alguns dos melhores blogs sobre desenvolvimentos / inovações em ferramentas / tecnologias de big data?

1
O Kdnuggets – Analytics, Data Mining e Data Science é um bom blog e possui links para materiais de treinamento Smarter Computing Blog – Mantido pela IBM, que inclui artigos sobre Big Data e computação em nuvemPlanet Big Data – Um agregador de blogs mundiais sobre Big Data, Hadoop, e tópicos relacionados. Big Data | Blogs da Forrester – Uma agregação de blogs e artigos de especialistas empresariais com foco em tópicos de Big Data Hadoop Wizard – Um site dedicado a ajudar as pessoas a aprender como usar o Hadoop para análises de “Big Data”

2
Análise computacional: um caminho para melhorar a análise de big datahttp: //blog.qburst.com/2014/10/c … Análise preditiva: http: //blog.qburst.com/2014/11/p

3
O site Big Data and Analytics Blog – Experfy Insights é de longe o meu favorito entre os sites nos quais estou inscrito. Tenho tudo o que preciso para me manter atualizado sobre tudo o que diz respeito a big data, IA e qualquer outro assunto relacionado à tecnologia. Você também pode se inscrever para obter descontos em sua próxima compra com eles.

 

Como substituo o aplicativo Oracle PL / SQL por ferramentas de Big Data, como Hive e Spark?

1
Como você estruturou os dados de um RDBMS, aparentemente não há vantagem real em usar um banco de dados NOSQL baseado no Hadoop. Um SQL no hadoop como o Hive funcionaria bem para você … Você pode usar ferramentas como o Sqoop para mover convenientemente dados do seu RDBMS para o Hive ou até para o HDFS. A vantagem de usar o Sqoop é que ele cria automaticamente a mesma estrutura de tabela no Hive como ele existe originalmente no RDBMS.No entanto, o principal desafio não é mover dados do RDBMS para o Hadoop, mas o principal desafio está na transferência do código PLSQL existente para o Hadoop. Eu tive que corrigir esse problema ao migrar um data warehouse existente baseado em Oracle para o Hadoop há alguns meses. Aqui estão algumas soluções para o problema: Tente usar o HPLSQL, que é uma extensão do Hive. É uma ferramenta primitiva que ajuda a executar consultas PLSQL / T-SQL e DB2 no Hive. mas esta ferramenta não tem suporte…. as mensagens de erro são enganosas e algumas funcionalidades não funcionam bem…. Pode ser necessário obter o código-fonte do GitHub e alterá-lo de acordo com as necessidades do seu projeto. Tente usar o “Oracle Big Data SQL”, caso o seu banco de dados herdado seja o Oracle. Funciona como um encanto e você poderá executar consultas PLSQL e procedimentos armazenados no Hive usando-o. Esta é a abordagem que eu adotei. Tente usar o Presto .. Ouvi coisas boas sobre ele, mas nunca o usei em um projeto ao vivo. O melhor da sorte com a migração .. 🙂

2
Os aplicativos podem ser categorizados, ou seja, OLTP, puro, misto, processado em lote, mini-lotes, misto e também consistência transnacional, número de usuários, tempo de resposta SLA, complexidade de sua relação de requisitos / dados, consulta, padrão de manutenção de dados etc. até você especificar algumas das opções acima, é difícil responder. Além disso, a partir de agora, o modo como está indo será transferido para a chamada “fonte aberta” / pilha de Big Data, como é hoje em dia, assim como “How on Earth Fast and Furious pode ganhar tanto dinheiro, embora a franquia seja pura dor de cabeça, exceto pode ser a primeira ”.

 

Quais são as ferramentas de big data mais sofisticadas e escalonáveis para a descoberta de conhecimento?

1
Originária de Oreilly, esta imagem deve explicar praticamente todas as coisas relacionadas ao conjunto de ferramentas, você em termos simples, com uma ampla escala de conjunto de ferramentas e seu objetivo em cada estágio da ciência de dados.

 

Onde posso encontrar grandes conjuntos de dados abertos ao público?

1
Eu fiz um post no blog sobre dados abertos há muito tempo (http: //bret.appspot.com/entry/we …) e o ReadWriteWeb fez um bom resumo com base em todos os comentários do post: http: / /www.readwriteweb.com/arch….Desde essa postagem, houve muito mais comentários no blog (105 e contando), portanto, você pode querer combinar os comentários de qualquer pessoa que a postagem do RWW tenha perdido.

2
Pete Warden resume algumas das opções aqui que ele cobre no “Data Source Handbook” de O’Reilly: http: //petewarden.typepad.com/se…Aqui estão 18 links relacionados a dados que Warden aponta, além de o que está coberto no livro – para aqueles que desejam aprender mais: http: //petewarden.typepad.com/se

3
Existem alguns corpora de texto aqui: Onde posso encontrar grandes conjuntos de dados abertos ao público? Se você está procurando uma vasta fonte de literatura de domínio público, o Project Gutenberg é maravilhoso: http://www.gutenberg.org/wiki/Ma … O Arquivo do Discurso Presidencial: http://millercenter.org/scripps/… Discursos de Hitler: http://www.hitler.org/speeches/Os Vedas: http://www.sacred-texts.com / hin / The Gita: http://www.gita4free.com/english…The Bible: http://patriot.net/bmcgin/kjvpa… Dê uma olhada no arquivo do NYT: http: // www .nytimes.com / ref / membe

 

Existe uma ferramenta de big data on-line que eu possa usar gratuitamente ou por uma pequena taxa?

1
Você pode experimentar o HDInsight da Microsoft, que é o Apache Hadoop em execução no Azure. É grátis para experimentar, mas custará o uso contínuo. HDInsight | Cloud Hadoop

 

Quais são as melhores ferramentas de software de big data?

1
Já abordamos a questão: Quais são as boas ferramentas para análise de big data? Essencialmente, comece com qualquer distribuição do Hadoop e você já possui um conjunto de ferramentas bastante poderoso.

2
Ferramentas de integração de big data é um termo usado para uma coleção de conjuntos de dados tão grandes e complexos que é difícil processar usando aplicativos / ferramentas tradicionais. São os dados que excedem o tamanho de Terabytes. Devido à variedade de dados que ele abrange, o big data sempre traz vários desafios relacionados ao seu volume e complexidade. Uma pesquisa recente diz que 80% dos dados criados no mundo não são estruturados. Um desafio é como esses dados não estruturados podem ser estruturados antes de tentarmos entender e capturar os dados mais importantes. Outro desafio é como podemos armazená-lo. Hoje, quase todas as organizações usam extensivamente o big data para obter uma vantagem competitiva no mercado. Com isso em mente, as ferramentas de big data para processamento e análise de big data são a escolha mais útil das organizações, considerando o custo e outros benefícios. Agora, quando falamos em ferramentas de big data, vários aspectos aparecem em cena. Por exemplo, quão grandes são os conjuntos de dados, que tipo de análise faremos nos conjuntos de dados, qual é a saída esperada etc. Portanto, em termos gerais, podemos categorizar a lista de ferramentas de big data nas seguintes categorias: com base em armazenamentos de dados Como plataformas de desenvolvimento, como ferramentas de desenvolvimento, ferramentas de integração para ferramentas de análise e relatórios.Por que existem tantas ferramentas de big data de código aberto no mercado? A maioria dos grupos ou organizações ativas desenvolve ferramentas de código aberto para aumentar a possibilidade de adoção na indústria. Além disso, é fácil baixar e usar uma ferramenta. Se olharmos atentamente para a lista de ferramentas de big data, ela pode ser desconcertante. Como as organizações estão desenvolvendo rapidamente novas soluções para obter uma vantagem competitiva no mercado de big data, é útil concentrar-se nas ferramentas de big data de código aberto que estão impulsionando a indústria de big data. Um exemplo perfeito disso seria Rivery.

3
As cinco principais ferramentas de software de Big Data: 1. Máquina de emendaEsta ferramenta oferece a capacidade de utilizar o SQL padrão e pode ser expandida em hardware comum; é uma ferramenta para desenvolvedores que descobriram que o MySQL e o Oracle não podem ser dimensionados para os limites desejados. O MarkLogicMarkLogic foi desenvolvido para lidar com cargas pesadas de dados e permitir que os usuários acessem por meio de atualizações e alertas em tempo real, além de fornecer dados geográficos combinados com a relevância do conteúdo e da localização, além de ferramentas de filtragem de dados. Essa ferramenta é ideal para quem busca o desenvolvimento de aplicativos de pesquisa de conteúdo pago. Esta ferramenta gratuita vem com vários recursos para a visualização de dados de um site, como mapas em árvore hierárquica ou apenas gráficos simples.Esta ferramenta é facilmente implementada incorporando código JavaScript em um site e permite classificar, modificar e filtrar dados, bem como o capacidade de se conectar a um banco de dados ou extrair dados de um site. MongoDBEste é um banco de dados documental de código aberto, ideal para desenvolvedores que desejam ter controle preciso sobre os resultados finais. Isso é fornecido com suporte completo ao índice e flexibilidade para indexar qualquer atributo e dimensionar horizontalmente sem afetar a funcionalidade. As consultas baseadas em documentos e o GridFS para armazenamento de arquivos significam que você não deve ter problemas para comprometer sua pilha.5. O SplunkSplunk é especializado em aproveitar dados de máquinas criados a partir de várias fontes diferentes, como sites, aplicativos e sensores. A empresa também permite que os desenvolvedores escrevam código usando qualquer plataforma, linguagem ou estrutura de tecnologia. As ferramentas de extensão foram desenvolvidas para os desenvolvedores do Visual Studio for .NET criarem aplicativos e usam o Splunk SDK para C # .Você está interessado em aprender ferramentas de Big Data – Clique em Aqui

 

Você sugere aprender Python ou ferramentas de big data para conseguir um emprego em ciência de dados?

1
Aprender Python é um bom começo, mas está longe de ser suficiente.É apenas uma ferramenta.Você precisa aprender: Como ler dados de diferentes fontesLimpar e inserir dadosFazer análises estatísticas simplesFazer gráficosEncontrar informações valiosas para o lado comercial e assim por diante.

 

Big Data: Existe uma convenção para ferramentas de software relacionadas a big data, estruturas de programação etc.?

1
Existem dois objetivos principais com o Big Data. Analítica (primária) e Redução de custos (secundária). A redução de custos baseia-se principalmente na ideia de substituir bancos de dados e datawarehouse caros por código aberto. Se você analisar agora a análise, provavelmente desejará criar um data lake com Big Data. Aeroespacial coleta muitos dados e esses dados podem ser ingeridos em clusters do Hadoop para análises posteriores. Não conheço nenhuma ferramenta específica para o setor aeroespacial, mas provavelmente a configuração mais benéfica para sua empresa seria um engenheiro de dados excepcional para coletar dados e um excelentes cientistas de dados que o interpretam. Ambos os perfis são difíceis de obter.

2
O mundo aeroespacial e aviônico está à beira de uma nova era com o Big Data, nós sabemos. Porém, devido às normas de segurança DO-178, ED109, as tecnologias não se desenvolveram tão rapidamente quanto as outras indústrias nos últimos dois anos. A outra questão pode ser os casos de uso e os dados são tão importantes que o setor não os compartilha com os pesquisadores e empresas que trabalham com Big Data (quero dizer, tão raro). Os artigos a seguir dão uma perspectiva do que as fronteiras (IBM, Hadoop, Hortonworks etc.) estão produzindo sobre o big data e sua análise para a indústria aeroespacial. Aeroespacial, energia e big data: como o Fundo de Conhecimento pode afetar os resultados da Reno – Big Dados simplificados – uma fonte. Muitas perspectivas. IBM Platform Computing Solutions: Resumo da (s) solução (s) aeroespacial e de defesa Publicações BDI – Hortonworks Bem-vindo ao Apache ™ Hadoop®! Cumprimentos

3
Independentemente do setor em que você está, as ferramentas com as quais você deve se familiarizar serão as estruturas de código aberto mais populares e as ferramentas associadas a elas. Os eventos Strata de O’Reilly (Strata + Hadoop World Conference) e o Smart Data / NoSQL Now da Dataversity (Smart Data Conference 2015 e The Premier NoSQL Conference & Expo) são bons lugares para se manter atualizado sobre ferramentas e técnicas de big data e análise de código aberto e tendências. A pesquisa no YouTube exibirá vídeos de sessões de eventos anteriores que você pode ver. Os encontros locais são outra boa maneira de acompanhar os desenvolvimentos nessa área.

 

Qual é o melhor laptop (econômico) da Índia para SAS, Tableau, outras ferramentas de big data / analytics e photoshop?

1
Escolha uma instância baseada na AWS e compre um laptop barato (HP stream 13) ou um chromebook. Você pode conectar-se aos espaços de trabalho da AWS a partir de um aplicativo de navegador e possui um computador baseado em nuvem que pode ser descartado a qualquer momento. Você pode salvar todo o seu trabalho na nuvem. Quando o seu laptop morre após 4 anos, você pode simplesmente substituir a máquina e continuar como se nada tivesse mudado.

2
É necessário comprar um laptop com 8 GB de RAM, disco rígido e processador de 1 TB e pode ser qualquer coisa entre i3, i5, i7 (3a a 6a geração, com base no seu orçamento). Eu recomendaria encontrar alguns laptops da DELL com o disco rígido i3 ou i5 + 8GB RAM + 1 TB. Os revendedores dirão que você deseja que a placa gráfica diga não. Se você encontrar laptop sem placa gráfica, ele economizará seu dinheiro e não terá função no SAS, Tableau. E o laptop de menino apenas com Unix, economiza entre 3000 e 5000 rúpias. Você pode tirar janelas de qualquer loja de TI e hardware ou elas serão instaladas tomando 200 rúpias. Espero que isso ajude.

3
Eu recomendo o Dell Inspiron 11 3000 Series.O laptop em si é muito atraente, com um acabamento prateado cinza brilhante nos componentes externos e um preto frio na área do teclado.Performances: Processador: Intel Pentium N3530 CPURAM de 2,16 GHz CPURAM: 4GBTamanho da unidade: 500GB A bateria do seu notebook é a mais cara do mercado, com um custo de manutenção de R $ 10.000,00.

 

As ferramentas de big data podem ajudar a apagar o ciclo econômico?

1
Improvável. Embora o “big data” seja novo em algumas indústrias, o governo federal possui big data há muito tempo, desde os anos 70, e muitas pessoas inteligentes o observam, e basicamente não chegam a lugar algum. muitas novas técnicas sofisticadas que podem ser aplicadas com as quais os analistas do governo não estão familiarizados. E muito mais poder computacional, o que permite certos tipos de cálculos que não podiam ser feitos antes. Mas o big data por si só não ajuda muito, caso contrário teríamos feito alguns avanços.

 

Quais são algumas idéias interessantes de projetos na área de Big Data com as ferramentas Scala, Apache Spark?

1
Como engenheiro do AppLovin, não posso deixar de pensar que um projeto interessante poderia ser analisar aplicativos na loja de aplicativos. Você pode começar usando a API de pesquisa do iTunes aqui: API de pesquisa do iTunes. (Dica: para obter mais dados de uma só vez, você pode obter vários resultados de uma chamada de API com um termo de pesquisa mais geral ou especificar vários IDs na mesma chamada de API para obter informações sobre aplicativos específicos, como http: //itunes.apple.com/lookup?id=909253,284910350)Depois de obter dados suficientes, você pode fazer todos os tipos de análise com o Spark. Por exemplo, você pode encontrar os aplicativos mais semelhantes por descrição. Ou talvez a palavra mais lucrativa para se ter no título do aplicativo. Na minha opinião, é um bom projeto de brinquedo que permitiria a exposição e a análise de dados.

 

Como político, quais mídias sociais e ferramentas de big data devo usar para minha campanha?

1
Informações do público-alvo do Facebook, sem dúvida. Você terá acesso a dados poderosos e acionáveis que informam MUITO sobre seu público-alvo. Honestamente – você pode executar uma campanha exclusivamente no Facebook. Nem seria muito difícil. E acho que seria uma fração do custo das formas tradicionais de publicidade.

 

Durante uma entrevista para uma posição de cientista de dados, qual é a importância de ter experiência com ferramentas de big data, como Spark e Hadoop?

1
Depende do negócio em que seu empregador está. Na maioria dos casos, é um exagero. Eu nunca precisei disso em pesquisas. Trabalhei em uma equipe desenvolvendo algoritmos de ML para uma grande empresa de fidelidade. Eles tinham milhares de empresas menores como clientes. Eu pensei que seria finalmente necessário usar a computação distribuída. Hoje, as ferramentas de big data são necessárias apenas em certas empresas, como SaaS / serviços de streaming com tráfego considerável. Aconselho a implementar clusters simples para entender como as coisas funcionam.

2
Não encontrei ninguém que os use na minha região do país. É principalmente SQL / Python / R aqui na Flórida (ou C ++ para posições militares).

3
Eu diria que é útil, mas não crítico. A questão maior é sempre “O que você fez com as ferramentas?” O uso do Spark e do Hadoop geralmente significa que você resolveu um problema com milhões de pontos de dados, e o que você fez lá é uma discussão muito mais interessante. Posso dizer honestamente que tenho nunca perguntou sobre o uso do Spark ou Hadoop em mais de 200 entrevistas para cientistas de dados.

 

Qual é o significado das ferramentas analíticas de big data para comércio eletrônico? Todas as empresas de comércio eletrônico, grandes e pequenas, usam essas ferramentas para gerenciar arquivos?

1
O comércio eletrônico não produz necessariamente uma enorme quantidade de dados. Hospedamos quase 50 mil lojas online e até logs ainda podem se encaixar em um grande banco de dados da Vertica até recentemente. O Hadoop é uma ferramenta que só deve ser usada como último recurso, apesar do hype.

 

Quais ferramentas de big data podem analisar arquivos do Excel?

1
Os arquivos do Excel não se ajustam ao volume, velocidade ou variedade de tecnologias de big data. Portanto, e embora você possa usar qualquer um deles, por que o faria? O que será feito pela tecnologia de big data que não pode ser manipulada, provavelmente melhor, pela tecnologia local e / ou tradicional. Portanto, a resposta é todas. Mas eu não usaria nenhum. R, Python, SAS, etc, nem se encaixam na descrição aqui. Eles não seriam usados como ferramentas de big data. Eles estariam operando em uma base local / tradicional.

2
Eu imaginaria praticamente todos eles. Se você pode fornecer mais um exemplo sobre exatamente o que deseja analisar com os arquivos do Excel, posso ajudar um pouco mais. Outras ferramentas para tentar explorar os arquivos do Excel seriam o Tableau ou o Qlik, onde são puramente BI, em vez de análises avançadas. Este pode ser um bom lugar para você começar. Os arquivos do Excel são muito pequenos, de modo que você não precisa colocá-los em um cluster Hadoop para análise. No entanto, se você realmente quiser, aqui está a maneira do RapidMiner: Sim, é isso. Dois operadores, um para ler o arquivo do Excel e o outro para materializá-lo no cluster hadoop para análise e modelagem. Se você não quiser usar o cluster do Hadoop (como seu arquivo provavelmente é razoavelmente pequeno), basta simplesmente usar o operador ou uma das ferramentas que mencionei anteriormente na publicação. Além disso, você já ouviu falar de tabelas dinâmicas?

3
Concorde que muitas ferramentas podem fazer isso. O Excel possui um complemento de COM que permite que um usuário do Excel (ou Word, Powerpoint) acesse a análise do SAS diretamente em uma planilha do Excel. É muito conveniente para usuários que gostam de permanecer no ambiente do Microsoft Office e compartilhar análises entre si.

 

Quais ferramentas de mineração de fluxo de dados podem lidar com big data?

1
Você pode estar interessado em Vowpal Wabbit: http://hunch.net/vw/.

2
Nossa empresa é especializada nesse problema exato – nosso principal produto DataSift http://datasift.net coleta muitos dos dados mais populares de sites de mídia social e permite definir programaticamente o conteúdo que você deseja recuperar. fora da base de conhecimento -> http://support.datasift.net/help/kb Processamos mais de 200 milhões de dados por dia. A saída dos fluxos pode ser consumida via fluxo HTTP, Web Sockets e por meio de uma API REST. Também estamos trabalhando em um sistema de armazenamento + mapreduce, que entrará no teste Alpha dentro de um mês.Pergunta Quais ferramentas de big data estão disponíveis hoje para ajudar no fornecimento de medicamentos de precisão aos pacientes? Quais são os cenários futuros que provavelmente veremos em relação ao aprendizado profundo e ao big data que dão suporte à medicina de precisão? 1 Existem muitas ferramentas que podem potencialmente informar o atendimento ao paciente de maneira precisa. O mais importante no momento em termos do que pode contribuir para a saúde do paciente em um campo de medicina de precisão é sem dúvida o sequenciamento do genoma. O uso de dados genômicos para determinar o risco genético de um paciente para desenvolver uma doença ou sua capacidade de reagir a um medicamento ou até sua impressão digital genética para permitir uma estratificação personalizada de seu tratamento são ótimas maneiras pelas quais a genômica hoje tem um papel no fornecimento de medicamentos de precisão No entanto, além do seqüenciamento do genoma, existem novas tecnologias que também usam a geração de dados de alto rendimento da mesma maneira que a genômica, que será incorporada à clínica de medicina de precisão. Essas outras tecnologias ômicas incluem epigenômica (útil, por exemplo, para prever a idade genética), microbioma (para entender as interações intestino-saúde), proteômica (a concentração de proteínas em uma amostra) ou metabolômica (a verificação de todos os metabólitos em uma amostra). Todas essas tecnologias ôômicas complementarão a visão mecanicista do clínico sobre a expressão de saúde ou doença do paciente. O fato de as tecnologias ômicas catalisarem a implementação de medicamentos de precisão não exclui, no entanto, a existência de outras ferramentas de big data que provavelmente medicina de precisão de impacto. Vários sensores vestíveis que rastreiam nossas constantes vitais, atividades ou medições dinâmicas dos níveis de metabólitos contribuirão para fornecer medicamentos de precisão através do fornecimento de quantidades potencialmente vastas de dados em tempo real e dinamicamente. Esses sensores serão conectados a aplicativos em nosso smartphone que notificarão constantemente nosso médico para informar sua decisão. O outro elemento crucial que também ajudará na implementação de medicamentos de precisão é o campo do processamento de imagens. Exemplos disso incluem a caracterização do tecido tumoral, por exemplo. Houve algumas histórias de sucesso limitadas em que os tecidos patológicos foram segregados dos saudáveis e eu recomendo um artigo de Green et al. (Oportunidades e obstáculos para a aprendizagem profunda em biologia e medicina [1]), onde eles mencionam tais sucessos. o artigo acima diz, e eu concordo com isso, o potencial de aplicação do aprendizado profundo no campo da medicina de precisão ainda precisa ser cumprido. A complexidade dos dados, nossa capacidade de categorizá-los de maneira significativa e sua disponibilidade, dada sua sensibilidade e possíveis usos éticos, dificultam o desenvolvimento integral da promessa da medicina de precisão. Onde eu vejo a oportunidade em termos de novos cenários para apoiar a medicina de precisão estão na integração de registros eletrônicos de saúde, sequenciando informações de dados, dados de dispositivos vestíveis e talvez imagens (como a que vem da ressonância magnética) para prevenir doenças. Para isso, teremos que ter nossa própria nuvem de dados de saúde. Nuvens de dados de saúde são um conceito que foi originalmente apresentado por Leroy Hood e colegas [2], e acho que ele tem muito potencial, supondo que tenhamos a infraestrutura apropriada para cuidar dos problemas de privacidade do paciente e, ao mesmo tempo, compartilhar seus dados de maneira controlada. Se o aprendizado profundo for capaz de lidar com a possibilidade de tais conjuntos de dados heterogêneos (eu esperaria representações complexas de redes neurais para isso), juntamente com perguntas claramente delineadas para as quais esses conjuntos de dados podem ser treinados, então temos a chance de dominar a próxima maneira de precisão medicamentos até sua promessa. Dito isto, os frutos baixos para medicamentos de precisão virão do campo da farmacogenética. Já somos capazes de entender o status metabolizador dos pacientes para certos medicamentos, dada sua genética. Isso só vai melhorar. E se, com a genética do paciente, formos capazes de adicionar o contexto de criação de perfil para estratificá-lo, para que ele possa ser inscrito no ensaio clínico mais apropriado para um determinado medicamento sendo pesquisado, isso acelerará nossa capacidade de colocar novas informações. medicamentos no mercado mais rapidamente ou redirecionar os existentes para novas aplicações úteis rapidamente. Ambos os cenários de diagnóstico e tratamento serão afetados drasticamente pela riqueza de novos dados moleculares e de imagem sobre o paciente. Inicialmente, teremos silos de dados separados (por exemplo, silos de genética, silos de imagem, silos de registros eletrônicos de saúde) que serão usados independentemente para ajudar a melhorar a tomada de decisões clínicas (por exemplo, diagnóstico de doenças raras não caracterizadas, estratificação do paciente para um tratamento específico). À medida que a infraestrutura apropriada para integrar com segurança esses silos começa a surgir, oNo entanto, ainda há muito trabalho a ser feito. Em primeiro lugar, ainda temos um entendimento fraco da maioria dos processos moleculares, bem como do funcionamento da célula em seu ambiente (afinal, as células são a unidade básica da vida). Estamos apenas começando a entender como as células interagem e respondem ao seu ambiente em um nível holístico e sistêmico e, quando realizamos muitas medições moleculares, estamos apenas analisando as médias. Os procedimentos de célula única para a medição de alto rendimento de dados ômicos também estão explodindo como um campo agora e nos ajudarão a ter uma resolução muito mais refinada desses processos mecanicistas. Minha esperança é que governos, indústria e outras organizações [3] ser capaz de criar em breve estruturas legais, éticas e sociais que aumentem os incentivos para mais inovação neste campo promissor. Isso também terá um tremendo impacto nos cenários futuros que provavelmente veremos em relação à aprendizagem profunda e ao big data que apóiam a medicina de precisão. Notas de rodapé [1] Oportunidades e obstáculos para a aprendizagem profunda em biologia e medicina [2] Um estudo de bem-estar de 108 indivíduos que usam nuvens de dados pessoais, densas e dinâmicas [3] GA4GH

 

Quais são as ferramentas de big data que são úteis para um cientista de dados?

1
Essa resposta pode abranger um livro inteiro, uma vez que existe uma variedade imensa de ferramentas de big data disponíveis para o cientista de dados usar, como Spark, Storm, Cassandra, Mongo ou Hadoop Frameworks. Também pode incluir ferramentas relacionadas à análise de dados de BI ou estatística. A parte principal que precisamos entender é que, sem a capacidade de lidar com grandes conjuntos de dados, o que, por sua vez, não pode ser feito sem o uso dessas ferramentas, um cientista de dados não pode executar sua tarefa. responsabilidades de forma eficiente e dependerá de engenheiros de dados especializados para obter ajuda. Para reduzir a resposta e fornecer uma resposta direta – um cientista de dados deve ter conhecimento de todas as ferramentas usadas para construir o Lago de Dados Corporativos de sua organização. Um data lake é um armazenamento de dados robusto, heterogêneo e combinado, que pode ser criado usando a combinação de qualquer pilha de tecnologia disponível, com a qual a organização se sinta confortável. Portanto, a capacidade de trabalhar com o Data Lakes é o requisito máximo para qualquer cientista de dados e, portanto, ele deve ser capaz de trabalhar com o mesmo, pois ele será construído usando as melhores ferramentas de Big Data disponíveis na organização (para implementar armazenamento, pipelines de processamento e fluxo de dados)

 

Ao visualizar big data, que ferramentas você usa e que tipo de recursos você mais usa?

1
O tipo de dados com o qual você lida determina quais ferramentas de visualização você usa sobre as outras. Ao selecionar uma ferramenta, uma vez que a maioria deles realiza todos os vários gráficos e widgets existentes, isso depende do que se sente confortável ou tem experiência anterior em usar mais. Eu sugeriria, você se atenha a um. O Tableau é um líder do setor nesse espaço e vale a pena gastar seu tempo e energia dominando essa ferramenta. Procure manter as tarefas de manipulação de dados ou ETL fora dessas ferramentas, mas use-as para as quais elas são boas, como conhecimento agregado, rotação de dados, renderização de gráficos e tabelas perfeitos de pixels e criação de painéis de negócios mais interativos e de autoatendimento para o final Novamente, se você é analista e deseja apenas inspecionar os dados e iterar rapidamente as informações que obtém, eu preferiria a ferramenta de organização de dados que estou usando neste caso (seja R ou python), também possui dados bibliotecas de visualização, para que eu não gaste tempo e código adicionais mudando meu ambiente de trabalho e movendo dados entre eles.

2
Concorde com a opinião de todos sobre este tópico. Além disso, eu recomendaria considerar o Looker também. Usamos o Looker e o Tableau e cada ferramenta tem pontos fortes. Dependendo do caso de uso e do tipo de usuários, escolhemos uma das ferramentas. Você pode considerar uma ferramenta de BI se houver mandato comercial para disponibilizar dados para os tomadores de decisão e tiver uma solução de autoatendimento em vez de criar insights por um número insuficiente de recursos técnicos.

 

Qual é uma boa fonte de grandes conjuntos de dados no formato JSON para testar ferramentas de análise de dados?

1
Na documentação do Drill: o conjunto de dados AOL Search é uma coleção de dados reais de log de consultas baseados em usuários reais.O conjunto de dados Enron Email contém dados de cerca de 150 usuários, principalmente da gerência sênior da Enron. O Histórico de Edição da Wikipedia é um dump público de o site disponibilizado pela fundação wikipedia. Você pode encontrar detalhes aqui. Os dumps são disponibilizados como dumps SQL ou XML. Você pode encontrar todo o esquema desenhado neste ótimo diagrama. Talvez seja necessário convertê-los para json:) Você deve ler o seguinte: Onde posso encontrar grandes conjuntos de dados abertos ao público?

2
Usar lotes da cidade (formato de arquivo com formato compactado) | Dados e use shp2json para conversão !!! Cortesia (zeMirco) Formatos CSV – grandes conjuntos de dados abertos ao público !!! e use o csv-to-json PS: leia esses dados de preparação

3
Conjuntos de dados JSON – isso fornece um conjunto muito bom de recursos

 

Qual ferramenta de big data você sugeriria para mensagens em tempo real que não sejam o Apache Kafka?

1
Experimente o ZeroMQ, que é um sistema de entrega de mensagens em camadas à sua escolha: TCP, entre encadeamentos, entre processos e PGM / multicast.Se você não se importa de trabalhar com soquetes, dê uma olhada no SCTP, um protocolo resiliente de hospedagem múltipla.

 

Quais são os principais recursos e características do Hadoop que o tornam a ferramenta de Big Data mais popular e poderosa?

1
Na minha experiência, o Hadoop é a plataforma de big data mais famosa, porque é de código aberto, apoiado pela Apache Foundation e possui um enorme ecossistema de aplicativos por trás dele. Você pode fazer praticamente qualquer coisa com o Hadoop: de streaming, real análise de tempo, para uma implementação de armazém de dados. Isso suporta visualização de dados, bem como algoritmos ML, e esse não é o sonho?

 

Quais são as ferramentas do big data?

1
Obrigado pela A2A. Aqui estão as principais ferramentas usadas para armazenar e analisar o Big Data. Uma pesquisa recente diz que 80% dos dados criados no mundo não são estruturados. Um desafio é como esses dados não estruturados podem ser estruturados antes de tentarmos entender e capturar os dados mais importantes. Outro desafio é como podemos armazená-lo. Podemos categorizar as ferramentas do Big Data em duas partes: 1. Armazenamento e consulta 2. AnalysisTools: 1. Apache Hadoop2. Microsoft HDInsight3. NoSQL4. Colmeia5. Sqoop6. PolyBase7. Big data no EXCEL8. Presto

2
As sete ferramentas e tecnologias de big data usadas pelos desenvolvedores de análise bem-sucedidos são: HadoopA plataforma orientada a objetos distribuída de alta disponibilidade, conhecida popularmente como Hadoop, é uma estrutura de software que avalia dados estruturados e não estruturados.Por causa do Hadoop, o dimensionamento de dados é possível sem Ele oferece um armazenamento enorme para uma variedade de dados.Ele pode lidar virtualmente com tarefas coexistentes infinitas.O MongoDBIt é um banco de dados de documentos de código-fonte aberto NoSQL, principal e ágil, compatível com várias plataformas. O MongoDB é famoso por causa de sua capacidade de armazenamento e seu papel na pilha de software MEAN. Ele armazena os dados do documento no formato binário do documento JSON, que é o tipo BSON. O MongoDB é usado principalmente por sua alta escalabilidade, capacidade de obtenção e apresentação.HiveIt é uma ferramenta de armazém de dados, construída na plataforma Hadoop. O Apache Hive é um componente do Hortonworks Data Platform (HDP). Ele fornece uma interface semelhante à SQL para armazenar dados no HDP. A linguagem de consulta exclusiva do Hive é o HiveQL. Esse idioma interpreta consultas do tipo SQL em tarefas do MapReduce e depois implanta-as na plataforma Hadoop. O HiveQL também suporta scripts MapReduce, que podem ser o plug-in para consultas. O Hive aumenta a elasticidade do design do esquema e contribui para a serialização e desserialização de dados.SparkApache Spark é um dos principais projetos de código aberto para processamento de dados. Possui semelhanças com o MapReduce, no entanto, supera o MapReduce com recursos como velocidade, fácil interação do usuário e engenhosidade da análise. O Apache Spark reduz o tempo de desenvolvimento que o Hadoop normalmente leva. Isso resulta em fluxo suave e análise colaborativa de dados. O HBaseApache HBase é um banco de dados NoSQL de código aberto, oferecendo provisão de leitura / gravação em tempo real para grandes conjuntos de dados. É um aplicativo Hadoop que funciona sobre HDFS. Ele se dimensiona linearmente para gerenciar grandes conjuntos de dados com inúmeras linhas e colunas e organiza suavemente fontes de dados de várias fontes com estruturas e esquemas distintos. HBase é um dos complementos do Apache Hadoop. Ele contém ferramentas como Hive, Pig e ZooKeeper.CassandraApache Cassandra ™ é um projeto Apache de primeira linha, com sua origem no Facebook. Foi então construído sobre o Dynamo da Amazon e a BigTable do Google. É conhecido por seu gerenciamento eficaz de grandes blocos de dados. Além disso, o Cassandra oferece alta disponibilidade e escalabilidade, sem um único ponto de falha no funcionamento do hardware do servidor e da infraestrutura de nuvem. O KafkaKafka é uma plataforma de código aberto, particionada, escalável, permissível a falhas, altamente rápida e segura. É importante agir como uma ponte entre vários sistemas principais de código aberto, como Spark, NiFi e as ferramentas de terceiros.

3
No bigdata, muitos frameworks disponíveis, como Hadoop, spark, Kafka, hive, pig oozie…. A partir de agora Spark número um quadro em bigdata

 

Quais são alguns dos desafios atuais do uso de ferramentas de big data?

1
Entendo que a ferramenta de big data que você mencionou é uma ferramenta que facilita a análise de big data, certo? Nesse caso, existem dois grandes problemas. Primeiro, os dados estão dispersos. Para usar ferramentas de big data, os dados devem ser preparados em um só lugar. É por isso que as ferramentas que conectam repositórios de dados foram introduzidas recentemente, como o Dremio, CData. O próximo problema é que as ferramentas de análise de dados estão desconectadas e precisam de habilidades profissionais. Atualmente, os não profissionais da ciência de dados usam a análise para o seu trabalho cada vez mais. Ferramentas como o Metatron Discovery cobrem todo o processo de análise de dados com interface gráfica.

 

Quais são as melhores ferramentas de big data para assistência médica?

1
Estamos fornecendo as melhores ferramentas de big data para assistência médica, as melhores ferramentas de big data para relatórios de BI, as melhores ferramentas de big data para soluções de BI, as melhores ferramentas de big data para o painel de BI. Ferramentas de Big Data para soluções de BI, Melhores ferramentas de Big Data para painel de BIPergunta Devo fazer um curso de “Big Data” ou apenas aprender uma ferramenta analítica como R, Python, Tableau?

1 Obrigado pelo A2A Hemant Singh. Deixe-me primeiro esclarecer o significado das definições para cada termo. Big Data é a enorme quantidade de dados que não podem ser processados efetivamente com os aplicativos tradicionais existentes. Por outro lado, o Data Analytics é a ciência de examinar dados brutos com o objetivo de obter informações valiosas. Big Data Agora, chegando ao ponto, você deve fazer um curso de ‘Big Data’? Claro que você pode! O problema é que quando você diz “Big Data”, sua mente automaticamente aparece com a palavra Hadoop. No Google, você obtém tecnologias relacionadas, como Hive, Pig, Mahout e muito mais. Se você se considera bom em Programação Java, a transição é fácil, já que o Hadoop é uma estrutura de programação baseada em Java de código aberto. As outras tecnologias que mencionei também são baseadas em Java. De acordo com o que fiz no treinamento de verão com a EMC Academic Alliance, posso concluir o seguinte: 1. Implantação e administração da tecnologia Big Data. Você precisa poder usar um sistema Linux e, em seguida, implantar tecnologias e serviços como Hadoop, Pig, Hive etc. Aprendi a usar o PostgreSQL para o banco de dados Greenplum. Você pode até analisar os dados armazenados. A única coisa em que você precisa ser proficiente é em Java. É isso aí. Você precisa ser capaz de escrever códigos de Map Reduce (geralmente Java é usado para isso) para processar dados enormes em um ambiente em cluster. Dados Analytics Em segundo lugar, o Data Analytics é um pouco mais divertido. Todas as ferramentas e tecnologias usadas nos processos modernos de Data Analytics são desenvolvidas em linguagens de programação como Python. Existe até programação R quando você menciona o termo “Análise de dados”. Para obter mais informações sobre a comparação de ferramentas usadas no Data Analytics, você pode consultar minha resposta. Quais cursos on-line devo seguir para me tornar um bom cientista de dados? Devo optar pelo Python ou pelo R para análise de dados? Resumindo, aprender qualquer uma das tecnologias será muito benéfico para você, considerando o fato de que o mercado atual está mudando para essas tecnologias. Não me interpretem mal. Você também pode analisar dados com as tecnologias Apache contidas no Big Data. A única grande diferença é que, se você deseja acessar as soluções tradicionais de Big Data, precisa ser bom com Java (o que não sou, FYI). O outro, ou seja, o Data Analytics, bem, existem essas linguagens de programação interessantes que são fáceis de aprender e divertidas de usar.Com base na sua pergunta, o Data Analytics com Python, R e Tableau seria mais divertido. 2 Graduado em MBA e com experiência em vendas, acho que você deve se concentrar em aprender o Tableau e o SQL. As tecnologias relacionadas ao Hadoop são mais centradas na parte da arquitetura de dados. Não estou dizendo que o Hadoop não é usado como uma ferramenta de análise de dados, mas os trabalhos são mais voltados para a criação de pipelines de dados para gerenciar big data, o que obviamente é mais ou menos um trabalho de arquiteto de dados em vez de analista de dados. já esteja familiarizado com painéis e visualização de dados. O Tableau certamente o ajudará nessa área. E, como parte da análise de dados, recomendo que você inicie o SQL. As pessoas geralmente subestimam seu poder quando se trata de análise de dados. SQL desempenha um papel importante na análise de dados. Além disso, é bastante fácil ser visto com relação às linguagens de programação. Nunca subestimou o MS Excel. Ainda é uma das ferramentas mais usadas para análise de dados. Muitas grandes empresas ainda usam o Excel para suas tarefas de análise de dados. E estando no campo de análise de dados, você simplesmente não pode ignorá-lo. São apenas meus dois centavos. Espero que ajude. 3 Antes de tudo, espero que você esteja apenas começando com o Big Data, sugerindo que você não se apresse e faça uma pesquisa completa sobre esse conceito. No que se refere ao R, Python ou Java, sugiro que você aprenda qualquer um sobre Java. ou Python e, junto com o aprendizado da linguagem R, é o mais usado em Data Analytic. Como você possui MBA e possui 6 anos de experiência, posso assumir que você domina o Excel e que ninguém pode vencê-lo no Excel. O que eu sugiro é que você tente aprender o Tableau, pois está se tornando tão popular e é melhor ou posso dizer melhor que o Excel. Posso garantir que, depois que você começou a aprender o Tableau, você pode imaginar um mundo modificado e mais novo a partir do Excel. Aprendi o Tableau com o Coursera. Você também pode aprender a partir daí, é um passo inicial para aprender o Tableau e adorei esse curso. Por fim, se você está no campo de Big Data, há um grande número de ferramentas e tecnologias para aprender, como a palavra diz Big Data que não tem fim. Portanto, continue pesquisando e aprendendo. Você também pode seguir minha resposta anterior ao Big Data para iniciantes!resposta para Quais habilidades de big data estão sendo procuradas no mercado atual? Quaisquer dúvidas e comentários são bem-vindos, terei o maior prazer em ajudar!

 

Quais são algumas das principais ferramentas de relatórios de big data existentes?

1
Você pode experimentar o Ubiq Reporting, uma ferramenta de BI e relatórios baseada na Web que facilita a análise e o relatório de seus dados, além de compartilhá-los com outras pessoas. Interface do usuário intuitiva: analise e explore dados usando uma interface intuitiva de arrastar e soltar2. Análise poderosa: agregue, classifique, gire, filtre e faça uma busca detalhada dos dados, com apenas alguns cliques. Adicione filtros dinâmicos aos seus painéis e gráficos para filtrar dados em tempo real. Crie drill-down, up e drill-throughs para aprofundar seus dados3. Informações em tempo real: crie relatórios e gráficos em tempo real que mostrem dados em tempo real e atualizem automaticamente em intervalos regulares4. Muitas opções de gráficos: escolha entre uma ampla variedade de opções de gráficos – desde os básicos como linha, área, barra, coluna, torta e plotagem de dispersão até visualizações avançadas como funil, medidores e mapas5. Compartilhe insights facilmente: exporte relatórios e gráficos em diferentes formatos para compartilhá-los com outros, ou programe relatórios por email para distribuir automaticamente relatórios a outros. Gerenciamento avançado de usuário: personalize o acesso do usuário para cada relatório Totalmente personalizável: personalize todos os aspectos de seus gráficos e relatórios – título, cor, fonte, formatação, layout, tamanho, posição, cabeçalhos, seções e muito mais com apenas um clique. Fácil de configurar: como o Ubiq é baseado em nuvem, você pode analisar e relatar dados diretamente usando o navegador da web. Não há necessidade de baixar ou instalar nada. Basta se inscrever e começar a gerar relatórios. O Ubiq se conecta diretamente aos seus dados, sejam eles locais ou remotos, portanto, não há necessidade de mover ou modificar seus dados para que funcionem com o Ubiq. Veja um exemplo de relatório criado usando o Ubiq:

2
Você pode conferir o Ideata Analytics – Big Data Analytics | Ideata Analytics

 

Quais ferramentas analíticas de big data podem ser incorporadas e entregues no seu aplicativo SaaS?

1
Recentemente, soube de uma empresa chamada Gainsight que possui uma ferramenta realmente poderosa que você pode incorporar em um produto SaaS. É focado principalmente em dados para ajudá-lo a gerenciar o uso do cliente. Também existe uma ferramenta bastante simples e econômica chamada Keen.io, que você pode incorporar, embora exija um pouco mais de trabalho para conectá-la às coisas que você deseja rastrear em seu aplicativo.

2
O MUORO é uma ferramenta de ciência de dados que ajuda a gerar análises avançadas usando IA e aprendizado de máquina por meio do algoritmo proprietário do DataShelter. O sistema foi especialmente projetado para tornar o trabalho colaborativo uma tarefa contínua entre cientistas de dados e gerentes de negócios, tornando a análise avançada um processo sem complicações na organização. O MUORO torna a implantação de modelos de aprendizado de máquina menos demorada para um cientista de dados. http: //muoro.io-, consulte o site para obter mais informações

3
O JReport é a ferramenta perfeita para este caso de uso. O principal caso de uso está no espaço incorporado e possui muitos recursos que outros fornecedores podem não ter, como o escopo da personalização da API. Ele suporta totalmente uma variedade de fontes diferentes de Big Data, incluindo coisas como Mongo e Hive, e suporta bancos de dados mais tradicionais. Eu verificaria a página de recursos do BI incorporado para obter mais informações. Aqui estão alguns exemplos: * Divulgação completa Trabalho na Jinfonet Software.

 

Quais são algumas das maiores reclamações ou queixas sobre ferramentas de ‘big data’, como o Tableau?

1
Acho que não consideraria o Tableau uma ferramenta de ‘Big Data’. Se você está carregando milhões de registros no tableau, o desempenho diminui rapidamente e realmente se torna inutilizável nos tamanhos de ‘big data’. Se você implementar muitos cálculos no Tableau ou usar uma conexão ativa no lugar da extração otimizada – esses problemas de desempenho serão exacerbados. Assim, uma das minhas maiores queixas com muitas ferramentas de visualização de dados front-end é a dificuldade de manipular / preparar dados. Embora o tableau ofereça suporte a várias conexões de dados, construindo relacionamentos entre tabelas etc. – eles rapidamente se tornam complexos, pouco claros e podem limitar algumas funcionalidades (por exemplo, comportamento estranho com filtros e cálculos de valor de tabela). Por esse motivo, normalmente faço a preparação de todos os dados em um ambiente SQL e carrego uma única tabela plana no Tableau para facilitar o uso.

 

Qual ferramenta de Business Intelligence (ETL) possui os melhores recursos de big data?

1
Na minha humilde opinião, as ferramentas tradicionais de ETL (apesar de serem ótimos produtos com suporte à era do data warehousing convencional) não funcionam muito bem com o Big Data e não mostram sintomas significativos para acompanhar o Big Data. Na era do Big Data, o conceito de mineração de dados / processamento evoluiu para estado diferente – não monolítico. Agora, espera-se que os dados persistam em um formato bruto consumível, onde o restante da organização tenha acesso ao bruto de acordo com as políticas e protocolos de segurança. O responsável pela mineração / processamento de dados agora está em um indivíduo (um membro da equipe da organização), responsável por limpar, padronizar, transformar e processar com base no caso de uso que ele tem em mãos. O processamento direcionado é atender necessidades muito específicas tratadas por uma ou mais cadeias de tarefas (de preferência microsserviços) executadas na plataforma de big data. Esses trabalhos devem ser escritos usando uma ou mais ferramentas ou pacotes de big data para obter os resultados em escala. Conjunto de dados com curadoria, resultado do processo agora tem a maioria com público-alvo ou finalidade específicos!

2
Depende do que você deseja fazer! Se você deseja criar um data warehouse, NÃO compre uma ferramenta ETL. Tudo o que eles fazem é mover dados de A para B – eles não constroem armazéns de dados. Se você deseja criar um ODS e usar a captura de dados alterados, uma ferramenta de replicação de dados pode funcionar melhor. para BI, obtenha uma ferramenta de automação de data warehouse como Ajilius ou Attunity Compose – dependendo da sua metodologia preferida.

3
Isso depende exatamente do que você está procurando exatamente! Se você está procurando uma solução completa com backup de Big Data, recuperação automatizada de desastres e recursos de ingestão de dados, compactação, criptografia, mascaramento e arquivamento, o MLens by Knowledge Lens é o seu melhor bet.Leia as histórias de sucesso de nossos clientes aqui para ver se atendemos às suas necessidades! Ou entre em contato conosco para obter uma demonstração gratuita, para começar. Envie-nos um e-mail para sales@knowledgelens.comIndia: + 91-9739103723 | Você está em: Página Inicial> Imprensa> Notícias

 

Quais são as ferramentas de análise de big data que não exigem programação?

1
Minha resposta é um pouco fora da trilha para sua consulta, mas acredito que devo colocá-la aqui. Sem programação, você seria como um amputado no ombro de uma pessoa cega. Especialmente no caso, se seus dados tiverem algum tipo de peculiaridade, como classe minoritária, ou se você quiser medir o desempenho da classificação para um rótulo específico ou testar o desempenho de vários modelos com parâmetros ajustados. Eu vim a perceber a importância da programação depois de quase um semestre. Sugiro que você aprenda um pouco de programação, você não precisa ser um especialista nisso. Só pode usar várias estruturas de dados para obter desempenho eficiente com tipos específicos de dados e algum tipo de sql aprimorando os dados.

2
Esses não são especificamente para big data, mas você pode encontrá-los úteis: KNIME – Open for InnovationKEEL – Uma ferramenta de software para avaliar algoritmos evolutivos para problemas de mineração de dados (regressão, classificação, clustering, mineração de padrões etc.) Orange – Orange Data MiningWeka – Mineração de dados com software de aprendizado de máquina de código aberto no JavaRapidMiner – RapidMiner | # 1 Plataforma de análise preditiva de código aberto

3
O Shoodoo Analytics oferece uma plataforma de análise preditiva extremamente rápida, precisa e de baixo custo que usa o aprendizado de máquina para criar previsões perspicazes para as empresas. Nossos modelos são construídos de uma maneira que não se deteriora com o tempo, garantindo resultados constantes, mais atualizados e precisos. O uso da plataforma Shoodoo é uma ferramenta que não requer codificação, pois a maior parte do trabalho é realizada por nossa equipe.

 

Existem ferramentas ETL / ELT de Big Data de código aberto disponíveis?

1
Pentaho vem à mente, especificamente a oferta da Kettle. Um de meus antigos colegas também ajudou a trazer capitalone / Hydrograph para o mundo. Pessoalmente, costumo escrever meus próprios scripts, aproveitando o código do Github sempre que possível. As comunidades python e Go têm algumas ferramentas de manipulação de dados particularmente fortes que funcionam bem para ETL / ELT.

 

Quais são as tendências de desenvolvimento de mercado das ferramentas de mascaramento de big data e das ferramentas de segurança de big data?

1
Essa é uma boa definição de mascaramento de dados estático versus dinâmico. Outra pergunta comum é qual é a diferença entre mascaramento e criptografia de dados, pois ambas são proteções no nível da coluna. Consulte www.iri.com/blog/data-protection/data-masking-and-data-encryption-are-not-the-same-thingsPergunta Que arquitetura / ferramentas os gigantes da tecnologia como o Facebook / Amazon / Apple / Microsoft usam para análise de big data / ML?

1 Encontrei o seguinte em um artigo, link para o artigo completo: https://www.linkedin.com/pulse/b…Data analytics Arquitetura adotada pelo Facebook: O Facebook coleta dados de duas fontes. A camada federada do MySQL contém dados do usuário e os servidores da Web geram dados de log baseados em eventos. Os dados dos servidores web são coletados nos servidores Scribe, que são executados nos clusters do Hadoop. Os servidores Scribe agregam dados de log, gravados no Hadoop Distributed File System (HDFS). Os dados do HDFS são compactados periodicamente e transferidos para os clusters Production Hive-Hadoop para processamento adicional. Os dados do MySQL federado são despejados, compactados e transferidos para o cluster Production Hive-Hadoop. O Facebook usa dois grupos diferentes para análise de dados. Trabalhos com prazos estritos são executados no cluster Production Hive-Hadoop. Os trabalhos de prioridade mais baixa e os trabalhos de análise ad hoc são executados no cluster Ad hoc Hive-Hadoop. Os dados são replicados do cluster de Produção para o cluster Ad hoc. Os resultados da análise de dados são salvos no cluster Hive-Hadoop ou na camada MySQL para usuários do Facebook. As consultas de análise ad hoc são especificadas com uma interface gráfica com o usuário (HiPal) ou com uma interface da linha de comandos do Hive (Hive CLI). O Facebook usa uma estrutura Python para execução (banco de dados) e agendamento de tarefas em lote periódicas no cluster Produção. O Facebook também usa as ferramentas de Business Intelligence da Microstrategy (BI) para análise dimensional. Arquitetura de análise de dados adotada pelo LinkedIn: Os dados são coletados de duas fontes: instantâneos de banco de dados e dados de atividades dos usuários do LinkedIn. Os dados da atividade incluem eventos de streaming, que são coletados com base no uso dos serviços do LinkedIn. Kafka é um sistema de mensagens distribuídas, usado para a coleta dos eventos de streaming. Os produtores de Kafka relatam eventos para tópicos em um corretor Kafka, e os consumidores de Kafka leem os dados em seu próprio ritmo. Os dados do evento de Kafka são transferidos para o cluster ETL do Hadoop para processamento adicional (combinação, deduplicação). Os dados do cluster ETL do Hadoop são copiados para os clusters de produção e desenvolvimento. O Azkaban é usado como um planejador de carga de trabalho, que suporta um conjunto diversificado de tarefas. Uma instância do Azkaban é executada em cada um dos ambientes Hadoop. As cargas de trabalho agendadas do Azkaban são realizadas como tarefas MapReduce, Pig, shell script ou Hive. Normalmente, as cargas de trabalho são experimentadas no cluster de desenvolvimento e são transferidas para o cluster de produção após revisão e teste bem-sucedidos. Os resultados da análise no ambiente de produção são transferidos para um banco de dados de depuração offline ou para um banco de dados online. Os resultados também podem ser retornados ao cluster Kafka. O Avatara é usado para a preparação de dados OLAP. Os dados analisados são lidos no banco de dados Voldemort, pré-processados e agregados / cubificados para OLAP e salvos em outro banco de dados somente leitura do Voldemort.Análise de dados Arquitetura adotada pelo Twitter: Na infraestrutura do Twitter para serviços em tempo real, os corretores do Blender todos os pedidos que chegam ao Twitter. Os pedidos incluem a pesquisa de tweets ou contas de usuário por meio de um serviço QueryHose. Os tweets são inseridos por meio de um serviço FireHose em um pipeline de ingestão para tokenização e anotação. Posteriormente, os tweets processados entram nos servidores do EarlyBird para filtragem, personalização e indexação invertida. Os servidores EarlyBird também atendem solicitações de entrada do QueryHose / Blender. O EarlyBird é um mecanismo de recuperação em tempo real, projetado para fornecer baixa latência e alta taxa de transferência para consultas de pesquisa.Além disso, os mecanismos de assistência de pesquisa são implantados. O coletor de estatísticas no mecanismo de assistência de pesquisa salva as estatísticas em três armazenamentos na memória, quando uma consulta ou tweet é veiculado. As sessões do usuário são salvas no repositório de Sessões, as estatísticas sobre consultas individuais são salvas no repositório de estatísticas de Consulta e as estatísticas sobre pares de consultas simultâneas são salvas no repositório de co-ocorrência de Consulta. Um algoritmo de classificação busca dados dos armazenamentos na memória e analisa os dados. Os resultados da análise são mantidos no Hadoop HDFS. Por fim, o cache front-end pesquisa os resultados da análise do HDFS e atende aos usuários do Twitter. O Twitter tem três fontes de dados de streaming (Tweets, Updater, consultas), das quais os dados são extraídos. Tweets e consultas são transmitidos pela API REST no formato JSON. Assim, eles podem ser considerados como dados semiestruturados de streaming. O formato dos dados do Updater não é conhecido (fonte de dados de streaming). O pipeline de ingestão e o Blender podem ser considerados como armazenamentos de dados temporários de Stream. Tokenização, anotação, filtragem e personalização são modeladas como processamento de fluxo. Os servidores EarlyBird contêm dados processados baseados em fluxo (armazenamento de dados de fluxo). O coletor de estatísticas é modelado como processamento de fluxo. Os armazenamentos estatísticos podem ser considerados como armazenamentos de dados Stream,que armazenam informações estruturadas dos dados processados. O algoritmo de classificação executa a funcionalidade de análise de fluxo. O Hadoop HDFS que armazena os resultados da análise é modelado como um armazenamento de dados de análise de Fluxo. O cache de front-end (servindo armazenamento de dados) serve o aplicativo de usuário final (aplicativo Twitter). Referência: arquitetura de referência e classificação de tecnologias de Pekka Pääkkönen e Daniel Pakkala (facebook, twitter e linkedin A arquitetura de referência mencionada aqui é derivada desta publicação) Arquitetura de solução baseada em nuvem (ClickStream Analysis): 2 Bem, eu recentemente soube desse Tensorflow, para todas as coisas de Deeplearning e Machine Learning, o Google está usando o pacote Tensorflow desenvolvido em Python e é muito legal. Para mais informações, navegue pelo link a seguir em uma Biblioteca de software de código aberto para Machine Intelligence. Não sabe muito sobre o Facebook e outras grandes empresas.

 

Existe algum software de Big Data de código aberto disponível no momento?

1
Existem tantas ferramentas disponíveis para gerenciar o big data. Os bancos de dados Hadoop e NoSQL são estruturas e equipamentos que foram usados pela maioria das empresas de software. Existem também algumas ferramentas de inteligência de negócios que ajudam na computação e na organização dos dados em arquivos diferentes, transferindo-os. Linguagem de programação como java, c c + é usada para executar todo o sistema.Clique aqui para obter mais informações

2
Confira o Metatron Discovery, que recentemente abriu o software de análise de big data. Recentemente, analisei o software e eles são ótimos! Ele cobre quase todos os recursos para análise de dados, desde a preparação dos dados até a ligação do notebook. Verifique o site deles também pode ajudá-lo. https://metatron.app

 

Quais são as principais ferramentas de big data usadas para armazenar e analisar dados?

1
O ecossistema Hadoop é a primeira opção quando se trata de implementar uma solução de Big Data. Para armazenamento: a escolha da ferramenta de armazenamento depende de como (e para que) você vai ler / gravar os dados.Há opções como HDFS, HBase, Para o Analytics: a escolha da ferramenta / interface novamente depende muito de como (e que tipo de consultas) você estará executando. Existem opções como Hive, Spark, Impala + Kudu, etc. exatamente o que você está procurando, mas espero que esta resposta lhe dê uma orientação para começar a pensar.

 

Quais ferramentas de big data gratuitas (de código aberto) posso usar no Amazon AWS para executar análises em tempo real?

1
Você pode executar qualquer ferramenta de código aberto nas máquinas do AWS EC2. Alguns populares são: * Apache Kafka * Storm, computação em tempo real distribuída e tolerante a falhas * Apache Spark ™ – Computação em cluster ultrarrápida * Bem-vindo ao Apache Flume

 

Qual é a melhor ferramenta de big data para 2020, Apache Hadoop ou Cassandra?

1
Na minha opinião (puramente pessoal, sem base em estatísticas), nem o Hadoop nem o Cassandra podem ser considerados a melhor ferramenta de big data para 2020. Acho que o Apache Spark continua popular e será mais popular em 2020. Tem havido muitas ênfase em Inteligência Artificial e aprendizado de máquina. Com seu suporte integrado ao aprendizado de máquina e uma arquitetura que funciona bem no cluster Yarn, o Spark tem recebido muito apoio de muitas organizações que executam seus sistemas de data warehouse no Spark para apoiar seus cientistas de dados.

 

Onde posso obter bons tutoriais em vídeo para aprender as ferramentas de big data do Hadoop?

1
O DataFlair é o melhor lugar para obter um curso ao vivo ou baseado em vídeo no DataFlair. O curso deles é totalmente prático e eu também fiz o curso a partir daí, o que me ajudou a iniciar minha carreira nessa tecnologia.Pergunta Qual é a melhor ferramenta em big data e analytics?

1: Vou falar sobre as melhores ferramentas de análise de Big Data para 2018 disponíveis no mercado, que são gratuitas e interessantes de se trabalhar. Dependendo das suas necessidades, aqui estão algumas ótimas ferramentas de análise de dados com seus usos e limitações: 1. Tableau Publici. O que é o Tableau Public – Ferramentas de análise de big dataÉ uma ferramenta simples e intuitiva. Como oferece informações intrigantes por meio da visualização de dados. Limite de milhões de linhas do Tableau Public. Como é fácil usar tarifas melhores do que a maioria dos outros players do mercado de análise de dados. Com os recursos visuais do Tableau, você pode investigar uma hipótese. Além disso, explore os dados e verifique suas idéias.ii. Utilizações do Tableau PublicVocê pode publicar visualizações de dados interativas gratuitamente na Web. Nenhuma habilidade de programação é necessária. As visualizações publicadas no Tableau Public podem ser incorporadas aos blogs. Além disso, páginas da web e sejam compartilhadas por e-mail ou mídia social. O conteúdo compartilhado pode estar disponível para downloads. Isso o torna as melhores ferramentas de Big Data Analytics.iii. Limitações do Tableau PublicTodos os dados são públicos e oferecem muito pouco escopo para acesso restrito. Limitação de tamanho de dados Não pode ser conectado ao R. A única maneira de ler é através de fontes OData, é Excel ou txt.2. OpenRefinei. O que é o OpenRefine – Data Analytic Tools Anteriormente conhecido como GoogleRefine, o software de limpeza de dados. Como ajuda a limpar os dados para análise. Opera em uma linha de dados. Além disso, tenha células em colunas, bastante semelhantes às tabelas de banco de dados relacional.ii. Usos do OpenRefineLimpar dados desordenadosTransformação de dadosParar dados de sitesAdicionar dados ao conjunto de dados, buscando-o em serviços da web. Por exemplo, o OpenRefine pode ser usado para geocodificar endereços para coordenadas geográficas.iii. As limitações do OpenRefineOpen Refine não são adequadas para grandes conjuntos de dados.Refine não funciona muito bem com big data3. KNIMEi. O que é o KNIME – Ferramentas de Análise de Dados O KNIME ajuda você a manipular, analisar e modelar dados por meio de programação visual. É usado para integrar vários componentes para mineração de dados e aprendizado de máquina.ii. Os usos do KNIMED não gravam blocos de código. Em vez disso, é necessário soltar e arrastar pontos de conexão entre as atividades. Essa ferramenta de análise de dados suporta linguagens de programação. De fato, ferramentas de análise como essas podem ser estendidas para executar dados químicos, mineração de texto, python e R.iii. Limitação da visualização de dados KNIMEPoor4. RapidMineri. O RapidMiner – Data Analytic Tools O RapidMiner fornece procedimentos de aprendizado de máquina. E a mineração de dados, incluindo visualização de dados, processamento, modelagem estatística e análises preditivas. O RapidMiner escrito em Java está rapidamente ganhando aceitação como uma ferramenta de análise de Big Data.ii. Utiliza o RapidMinerEle fornece um ambiente integrado para análise de negócios e análise preditiva. Junto com aplicativos comerciais e de negócios, também é usado para o desenvolvimento de aplicativos.iii. Limitações do RapidMinerRapidMiner possui restrições de tamanho em relação ao número de linhas.Para o RapidMiner, você precisa de mais recursos de hardware que ODM e SAS.5. Google Fusion Tablesi. O que é o Google Fusion TablesQuando se trata de ferramentas de dados, temos uma versão mais legal e maior das planilhas do Google. Uma ferramenta incrível para análise de dados, mapeamento e visualização de grandes conjuntos de dados. Além disso, o Google Fusion Tables pode ser adicionado à lista de ferramentas de análise de negócios. Essa também é uma das melhores ferramentas de Big Data Analytics.ii. Utiliza o Google Fusion TablesVisualize dados de tabela maiores on-line.Filtre e resuma em centenas de milhares de linhas.Combine tabelas com outros dados na WebVocê pode mesclar duas ou três tabelas para gerar uma visualização única que inclua conjuntos de dados.Você pode criar um mapa em minutos iii. Limitações das tabelas do Google Fusion Apenas as primeiras 100.000 linhas de dados de uma tabela são incluídas nos resultados da consulta ou mapeadas. O tamanho total dos dados enviados em uma chamada de API não pode ser superior a 1 MB.6. NodeXLi. O que é o NodeXLIt é um software de visualização e análise de relacionamentos e redes. O NodeXL fornece cálculos exatos. É um software de análise e visualização de rede gratuito (não o profissional) e de código aberto. O NodeXL é uma das melhores ferramentas estatísticas para análise de dados. No qual inclui métricas avançadas de rede. Além disso, acesso a importadores de dados de redes de mídia social e automation.ii. Usos do NodeXLEsta é uma das ferramentas de análise de dados do Excel que ajuda nas seguintes áreas: Importação de dadosVisualização gráficaAnálise de gráficosRepresentação de dadosEste software integra-se ao Microsoft Excel 2007, 2010, 2013 e 2016. Abre como uma pasta de trabalho com uma variedade de planilhas que contêm os elementos de uma estrutura gráfica. Isso é como nós e arestas. Este software pode importar vários formatos de gráfico. Tais matrizes de adjacência, Pajek .net, UCINet .dl, GraphML e edge lists.iii. Limitações do NodeXLYVocê precisa usar vários termos de propagação para um problema específico.extrações em momentos ligeiramente diferentes. Wolfram Alphai. O Wolfram Alpha é um mecanismo de conhecimento computacional ou mecanismo de resposta fundado por Stephen Wolfram.ii. Usos do Wolfram AlphaÉ um complemento para o Siri da Apple Fornece respostas detalhadas para pesquisas técnicas e resolve problemas de cálculo. Ajuda os usuários corporativos com tabelas e gráficos de informações. E ajuda na criação de visões gerais de tópicos, informações sobre mercadorias e histórico de preços de alto nível.iii. O Wolfram Alpha só pode lidar com números e fatos conhecidos publicamente, e não com pontos de vista. Limita o tempo de computação para cada consulta. Alguma dúvida nessas ferramentas estatísticas para análise de dados? Por favor, comente. Operadores de pesquisa do Googlei. O que são operadores de pesquisa do GoogleÉ um recurso poderoso que ajuda a filtrar os resultados do Google. Isso instantaneamente para obter as informações mais relevantes e úteis.ii. Utilizações dos operadores de pesquisa do GoogleFiltro mais rápido dos resultados de pesquisa do GoogleA poderosa ferramenta de análise de dados do Google pode ajudar a descobrir novas informações.9. Solveri. O que é o Excel Solver O suplemento Solver é um programa de complemento do Microsoft Office Excel. Além disso, ele está disponível quando você instala o Microsoft Excel ou o Office. É uma ferramenta de programação e otimização linear no excel, que permite definir restrições. É uma ferramenta de otimização avançada que ajuda na rápida solução de problemas.ii. Utilizando o Solvert, os valores finais encontrados pelo Solver são uma solução para a inter-relação e a decisão. Ele usa uma variedade de métodos, desde a otimização não-linear. E também programação linear para algoritmos evolutivos e genéticos, para encontrar soluções. Limitações do Solver O dimensionamento ruim é uma das áreas em que o Excel Solver não existe.Pode afetar o tempo e a qualidade da solução.O Solucionador afeta a capacidade de resolução intrínseca do seu modelo. Dataiku DSSi. O Dataiku DSST é uma plataforma colaborativa de software de ciência de dados. Além disso, ajuda a equipe a construir, prototipar e explorar. No entanto, ele fornece seus próprios produtos de dados com mais eficiência.ii. Usos do Dataiku DSSDataiku DSS – As ferramentas analíticas de dados fornecem uma interface visual interativa. Assim, eles podem criar, clicar e apontar ou usar linguagens como SQL.iii. Limitação do Dataiku DSS Recursos de visualização limitados Barreiras da interface do usuário: Recarregamento de código / conjuntos de dadosInabilidade de compilar facilmente todo o código em um único documento / notebook Se você gosta da resposta, por favor, vote!

 

O que devo resolver com ferramentas de big data e o que devo resolver com business intelligence?

1
Se você estiver trabalhando, procure um problema nos projetos com os quais está trabalhando. Certamente há dados transacionais em algum lugar que você pode analisar. Você ficará surpreso com a quantidade de informações interessantes que poderá obter. Se estiver estudando, entre para um grupo de pesquisa que trabalha com big data. Se não houver grupos específicos de big data, procure por qualquer grupo de pesquisa com dados transacionais. Um bom número deles terá. Você pode analisá-los e estudá-los conforme minha sugestão acima.

 

Existe alguma ferramenta de visualização de dados de código aberto para big data?

1
O Tableau é uma ferramenta rápida de inteligência comercial e visualização de dados. É de código aberto para a academia. Oferece plataforma interativa de visualização de dados.

2
Confira nossa solução de Business Intelligence de Big Data (NoSQL), chamada Databasel. E sim, é de código aberto. Ele foi desenvolvido para desenvolver e implementar seus projetos de análise NoSQL de maneira rápida e fácil. Nossa visão é que você deve manter os dados onde estão e usar ferramentas inteligentes o suficiente para visualizar dados diretamente do banco de dados. Tudo o que você precisa para começar é apenas um navegador. Basicamente, plug and play! Se você tiver alguma dúvida, entre em contato conosco.

 

Como as empresas executam análises preditivas usando as ferramentas Hadoop / Big Data em larga escala?

1
Alguns de nós ainda usam a computação em grade (via Sun Grid Engine ou um pacote relacionado). Isso é muito simples se comparado ao código Hadoop: basta escrever scripts no estilo Unix e dividir seu trabalho em partes. Geralmente, é necessário algum script especial para lidar com as etapas de “redução”. O MPI aberto também é popular. O MPI aberto permite manter os processos em execução entre as etapas de “redução”. Isso pode ser crítico quando carregar dados repetidamente a cada iteração é muito caro. Usar o Open MPI é um pouco complicado, pois você precisa compilar seu código com o compilador Open MPI especial e usar sintaxe especial.

 

Qual é o futuro das ferramentas analíticas para big data?

1
Não prevejo grandes mudanças nas ferramentas. O domínio é muito grande e não há uma bala mágica. Atualmente, as ferramentas existentes são boas o suficiente quando usadas pelas pessoas com experiência. Haverá mais visualização e mais mecanismos de consulta difusa em tempo real. Ainda seria necessário algum trabalho manual para cavar os dados.

2
Hue é um projeto que está crescendo muito. Novas versões melhoram continuamente a integração das ferramentas de Big Data e fornecem melhores gráficos e interatividade com a ajuda do Search, Impala, Spark.

3
Não tenho dúvidas de que o Aclaro é o futuro quando se trata do mundo dos dados. Analisar o big data permite que analistas, pesquisadores e usuários de negócios tomem decisões melhores e mais rápidas usando os dados que antes eram inacessíveis ou inutilizáveis! Com eles, existe o não tenha mais medo de depender de papéis ou documentos offline, que geralmente podem ser manipulados, alterados ou alterados! Então, para mim, o Aclaro é provavelmente a ferramenta MAIS importante para QUALQUER empresa, independentemente do tamanho!

 

Quais são as ferramentas de big data do Excel para fazer uma análise predetiva de nossas eleições com bancos de dados de resultados primários e dados demográficos em municípios?

1
A resposta de Paulo é extremamente pessimista. Você pode usar o Power Pivot e o Power Query no Excel para lidar com milhões de linhas de dados com bastante agilidade, mesmo em um laptop. É verdade que provavelmente existem ferramentas melhores para esse tipo de coisa, mas se você quiser usar o Excel para isso, poderá. Existem alguns bons vídeos de visão geral do Power Pivot online. Analise primeiro os itens para ter uma ideia melhor do que é e por que é útil.

 

Quais são as 10 principais ferramentas de big data que devo usar hoje?

1
Essa é absolutamente a abordagem errada para o Big Data. Quais são suas necessidades primeiro? Depois de estabelecer o requisito, você poderá iniciar o processo de seleção para você. Em seguida, escolha a ferramenta que você deve usar para suas necessidades. Existem literalmente centenas de ferramentas. A maioria se sobrepõe à funcionalidade e todos têm concorrentes no mesmo domínio.

2
AnswerMinerTableaudatapinePower BIGoogle Data StudioQlikDataheroHadoopRCloudera

 

Quais são alguns bons recursos para aprender Hadoop, Hive e outras ferramentas de big data?

1
Existem vários recursos que ajudarão você a dominar o big data, o Hadoop e suas ferramentas. Big data são basicamente dados muito grandes para serem armazenados, processados e analisados usando métodos tradicionais. Para superar esse desafio do big data, o Hadoop surgiu. O Hadoop é uma estrutura que gerencia o armazenamento de big data de maneira distribuída e o processa paralelamente. O Hadoop possui suas próprias ferramentas, usadas para análise de dados. Tomemos o Hive como um exemplo; no Hadoop MapReduce geralmente o Java é usado para processar dados. Os usuários acharam difícil codificar, pois nem todos eram versados nas linguagens de codificação. Os usuários exigiam uma linguagem semelhante ao SQL, que era bem conhecida por todos os usuários. Como resultado, o Hive foi adotado pelo Facebook. O Hive foi desenvolvido com uma visão para incorporar os conceitos de tabelas, colunas como o SQL. O Hive é um sistema de armazém de dados usado para consultar e analisar grandes conjuntos de dados armazenados no HDFS. O Hive usa uma linguagem de consulta chamada HiveQL que é semelhante ao SQL. Você pode aprender sobre o Hive, Pig, HBase e outras ferramentas lendo blogs ou assistindo a alguns vídeos do YouTube. Em anexo, há um vídeo que eu pessoalmente acho útil para aprender o Hive.

2
Consulte estas respostas para perguntas semelhantes: Resposta de Saurabh Gupta para Quais habilidades precisamos para big data? Resposta de Saurabh Gupta para Qual é a ordem em que se deve aprender diferentes tecnologias para Bigdata e Hadoop? Happy Learning!

3
O Big Data está em todo lugar e os trabalhos de Big Data estão em todo lugar. Vamos deixar os clichês para trás e ir direto ao ponto – um profissional do Hadoop pode ganhar um salário médio de US $ 112.000 por ano e em San Francisco o salário médio pode chegar a US $ 160.000. Agora que temos toda a sua atenção, vamos nos aprofundar no que exatamente queremos dizer com um Hadoop Professional e quais são as funções e responsabilidades de um curso profissional do Hadoop Intellipaat que é uma marca reconhecida globalmente e que possui Big Data. Além disso, você obtém a certificação de conclusão do curso juntamente com o certificado de experiência de 3 meses, pois eles o fazem trabalhar em projetos industriais exaustivos durante o curso.

 

Como alguém pode viver projetos no Big Data Analytics para ter uma carreira nesse campo? Quais são as boas ferramentas de análise de big data para começar?

1
De acordo com mim, à medida que os anos precedem sua carreira, as ferramentas são alteradas. As novas ferramentas e novos pacotes mudam com muita frequência. Em vez disso, nas primeiras idades, concentra-se mais e aprende mais sobre estatística e probabilidade, distribuição de probabilidade, programação R ou Python e Álgebra linear.Se você é bom com esses tópicos, as ferramentas que serão úteis para você são: Para plotagem de dados e Estatística -Rstudio (GUI OF R) Para visualização de dados -RstudioSe você usa Python, então vá com Notebooks Jupyter e tenha pacotes )

2
O Programa de Certificação em Business Analytics do IIT Madras e o Programa GFMP Edge Data Scientist do BSE Institute permitem que os aspirantes compreendam profundamente as principais tecnologias usadas na análise, a saber. mineração de dados, aprendizado de máquina, técnicas de visualização e estatística. O programa foi desenvolvido com um cronograma que minimiza interrupções de trabalho e atividades pessoais, espalhadas por um ano (tempo parcial), com foco na visão geral do campo da análise, para que você possa tomar decisões de negócios informadas

3
Para perguntas da entrevista de Big Data e cenários de casos de uso criados a partir do Scratch, confira o conteúdo em nosso canal! Além disso, deixe-nos saber se você deseja aprender algum tópico específico ou caso de uso.

 

Por que tantas ferramentas populares de Big Data estão em execução na JVM em vez de no código nativo?

1
A JVM pode executar com mais eficiência do que o código nativo devido ao JIT, que pode adaptar sua geração de código nativo de algumas maneiras interessantes sobre as quais não posso fornecer detalhes. Ideia principal: Java e C ++ têm potencial semelhante de desempenho quando usados corretamente. A única desvantagem da JVM e da maioria dos idiomas disponíveis, exceto C ++, Rust e D, é a coleta de lixo que requer uma parada do mundo por pelo menos uma parte de seu trabalho. Isso está afetando apenas os aplicativos sensíveis à latência, e não os orientados à taxa de transferência, como toda a área de computação. Então, sim, o HBase é afetado e este é o principal ponto de venda do concorrente HyperTable. No entanto, seguindo o exemplo do HBase, a principal fonte de latência seria um hot spotting em uma região, em vez de apenas o GC. Ou cascata de compactação. Ou movendo regiões. Ou coprocessadores problemáticos. Portanto, geralmente os principais culpados de latência e indeterminismo são outras coisas além da GC, e a engenharia adequada conta muito mais que a linguagem. O Google tem isso em C ++. Mas a maioria das empresas não contrata talentos como o Google. Java é uma linguagem mais fácil e ainda oferece ótimo desempenho. Além disso, o ecossistema existente já é JVM. E uma execução virtualizada tem seus benefícios: você sempre verá uma mensagem e normalmente um rastreamento de pilha em Java, enquanto em C ++ ou Go você verá apenas “Falha na segmentação”. Uh A JVM possui o melhor ecossistema de instrumentação, você pode ter visibilidade na JVM com NewRelic, VisualVM, Java Melody e outras que não tenho certeza de que sejam possíveis no código nativo. Ah, e sobre o GC: existem maneiras Java de andar pelo GC: gerenciar seu próprio heap, como o Apache Flink e o Apache Spark estão prestes a fazer.

2
A implementação dessas ferramentas pelo Google é executada em código nativo. Especulo que, para grandes conjuntos de dados e os grandes grupos que o Google executa, o código nativo é importante. No entanto, para conjuntos de dados menores, você pode ser dominado pelo acesso à rede e à E / S do disco. Além disso, observe que o Google tem um problema legado. Pode ser que, com a chance de compilar tudo de novo, o Google possa optar por executar a JVM.

3
Você mencionou duas ferramentas: Hadoop (e seus componentes) e Cassandra. Existem alternativas como Microsoft Dryad e Greenplum, além de novas tecnologias como HyperDex (disponível em Python)

 

Qual é o melhor blog / site para se manter atualizado sobre as mais recentes big data, ferramentas e tecnologias de aprendizado de máquina?

1
Meus favoritos são os belov: r / MachineLearningMachine learningMachine Learning & BI blogAs pessoas estão na minha lista superior. Você obterá desses conhecimentos do blog sobre o Machine Learning como conceito básico e entenderá como ele influencia o mundo e também como casos de uso reais e estudos de caso de soluções de aprendizado de máquina. Isso ajudará você a entender melhor como o Machine Learning é usado no mundo real e de que tipo de problemas ele resolve.Por favor, deixe-me saber se foi útil.

2
Aqui está uma coleção dos artigos mais recentes sobre big data. Este briefing é atualizado a cada poucas horas. Isso fará com que você tenha que visitar vários sites diferentes todos os dias para atualizações.Tendências de grande volume de dados – Anders PinkAqui está o aprendizado de máquinaAprendizagem de máquina – Anders Pink

3
Análise computacional: um caminho para melhorar a análise de big datahttp: //blog.qburst.com/2014/10/c … Análise preditiva: http: //blog.qburst.com/2014/11/p

 

É possível transmitir perguntas do Quora usando qualquer uma das ferramentas de big data?

1
É possível usando raspagem na web. Existem várias bibliotecas usadas para descartar dados da web. Uma das bibliotecas de raspagem da web para python que eu uso é ‘Beautiful Soup’. Seria muito mais fácil se o Quora tivesse fornecido uma API.

 

Cassandra é uma ferramenta de grande volume de dados?

1

Sim, Cassandra é uma ferramenta de big data. O Apache Cassandra é baseado em um banco de dados NoSQL e adequado para dados transacionais online de alta velocidade. O Apache Cassandra é gratuito e oferece DBMS No-SQL distribuído de código aberto, construído para gerenciar grandes volumes de dados espalhados por vários servidores comuns, oferecendo alta disponibilidade. Algumas das empresas de alto nível que usam Cassandra incluem Accenture, American Express, Facebook, General Electric, Honeywell, Yahoo, etc.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Programação em R – Parte 9 (exibindo gráficos)

Programação em R - Aprenda Analtics, Big Data & Ciência de Dados

 

Confira todos os textos da série Programação em R:
As
funções gráficas são um componente importante e extremamente
versátil do ambiente R. É possível usar as funções para
exibir uma grande variedade de gráficos estatísticos e também para
criar tipos de gráficos totalmente novos.
As funções gráficas podem ser usadas em modos interativos e em
lotes, mas, na maioria dos casos, o uso interativo é mais produtivo.
O uso interativo também é fácil porque, no momento da
inicialização, R inicia um driver de dispositivo gráfico que abre
uma janela gráfica especial para a exibição de gráficos
interativos. Embora isso seja feito automaticamente, pode ser útil
saber que o comando usado é X11() em UNIX, Windows() no Windows e
quartz() no MacOS. Um novo dispositivo sempre pode ser aberto por
dev.new().
Uma
vez que o driver do dispositivo está em execução, os comandos de
traçado de R podem ser usados ​​para produzir uma variedade de
exibições gráficas e para criar tipos de exibição totalmente
novos.
Os
comandos são divididos em três grupos básicos:
  • As funções de traçado de alto nível criam um novo gráfico
    no dispositivo gráfico, possivelmente com eixos, rótulos, títulos
    e assim por diante.
  • As funções de traçado de baixo nível adicionam mais
    informações a um gráfico existente, como pontos extras, linhas e
    rótulos.
  • As funções de gráficos interativos permitem que você
    adicione informações de forma interativa a um gráfico existente, ou
    extraia informações, usando um dispositivo apontador, como um
    mouse.
Além
disso, R mantém uma lista de parâmetros gráficos que podem ser
manipulados para personalizar suas parcelas.
Este
manual apenas descreve o que são conhecidos como gráficos “base”.
Um sub-sistema de gráficos separado na grade do pacote coexiste com
base – é mais poderoso, mas é mais difícil de usar.

Comandos de de alto nível

As
funções de traçado de alto nível são projetadas para gerar um
gráfico completo dos dados passados como argumentos para a função.
Quando apropriado, os eixos, rótulos e títulos são gerados
automaticamente (a menos que você solicite o contrário). Os
comandos de traçado de alto nível sempre iniciam um novo plot,
apagando o gráfico atual, se necessário.

A função plot ()

Uma
das funções de traçado mais utilizadas em R é a função plot().
Esta é uma função genérica: o tipo de gráfico produzido depende do
tipo ou classe do primeiro argumento.
plot(x, y)
plot(xy)
Se x
e y são vetores, plot(x, y) produz um diagrama de dispersão
de y contra x. O mesmo efeito pode ser produzido fornecendo um
argumento (segunda forma) como uma lista contendo dois
elementos x e y ou uma matriz de duas colunas.
plot(x)
Se x
for uma série temporal, isso produz um gráfico de séries
temporais. Se x é um vetor numérico, ele produz um gráfico dos
valores no vetor contra seu índice no vetor. Se x é um vetor
complexo, ele produz um gráfico de partes imaginárias versus partes
reais dos elementos vetoriais.
plot(f)
plot(f, y)
f é
um objeto fator, y é um vetor numérico. A primeira forma gera um
gráfico de barras de f; a segunda forma produz boxplots de y para
cada nível de f.
plot(df)
plot(~ expr)
plot(y ~ expr)
df é
um quadro de dados, y é qualquer objeto, expr é uma lista de nomes
de objetos separados por ‘+’ (por exemplo, a + b + c). As duas
primeiras formas produzem gráficos distributivos das variáveis ​​em
um quadro de dados (primeira forma) ou de vários objetos nomeados
(segunda forma). A terceira forma traça y contra cada objeto chamado
em expr.

Exibição de dados multivariados

R
fornece duas funções muito úteis para representar dados
multivariados. Se X for uma matriz numérica ou quadro de dados, o
comando
pairs(X)
produz
uma matriz de diagrama de dispersão em pares das variáveis
​​definidas pelas colunas de X, ou seja, cada coluna de X é
plotada em relação a qualquer outra coluna de X e as parcelas n
(n-1) resultantes são dispostas em uma matriz com escalas de
plotagem constantes em as linhas e as colunas da matriz.
Quando
três ou quatro variáveis ​​estão envolvidas, um coplot pode
ser mais esclarecedor. Se a e b são vetores numéricos e c é um
vetor numérico ou um objeto de fator (todo o mesmo comprimento),
então o comando
coplot(a ~ b | c)
produz
uma série de diagramas de dispersão de a contra b para valores
dados de c. Se c é um fator, isso simplesmente significa que a é
plotado contra b para cada nível de c. Quando c é numérico, é
dividido em uma série de intervalos de condicionamento e para cada
intervalo a é plotado contra b para valores de c dentro do
intervalo. O número e a posição dos intervalos podem ser
controlados com given.values ​​= argumento para coplot () – a
função co.intervals () é útil para selecionar intervalos. Você
também pode usar duas variáveis ​​fornecidas com um comando
como
coplot(a ~ b | c + d)
que
produz pontos de dispersão de a contra b para cada intervalo de
condicionamento conjunto de c e d.
A
função coplot () e pares () utilizam um painel de argumento = que
pode ser usado para personalizar o tipo de plot que aparece em cada
painel. O padrão é pontos () para produzir um diagrama de
dispersão, mas fornecendo algumas outras funções de gráficos de
baixo nível de dois vetores x e y como o valor do painel = você
pode produzir qualquer tipo de plot desejado. Uma função de painel
de exemplo útil para coplots é panel.smooth ().

Exibir gráficos

Outras
funções gráficas de alto nível produzem diferentes tipos de
gráficos. Alguns exemplos são:
qqnorm
(x)
qqline
(x)
qqplot
(x, y)
Parcelas
de comparação de distribuição. A primeira forma traça o vetor
numérico x contra as pontuações de ordem normal esperadas (um
gráfico de pontuação normal) e o segundo acrescenta uma linha reta
a tal traçado desenhando uma linha através da distribuição e
quartis dos dados. A terceira forma traça os quantiles de x contra
os de y para comparar suas respectivas distribuições.
hist
(x)
hist
(x, nclass = n)
hist
(x, breaks = b, …)
Produz
um histograma do vetor numérico x. Um número razoável de aulas é
geralmente escolhido, mas uma recomendação pode ser dada com o
argumento nclass =. Alternativamente, os pontos de interrupção
podem ser especificados exatamente com o break = argumento. Se a
probabilidade = argumento TRUE for dada, as barras representam
freqüências relativas divididas pela largura do compartimento em
vez das contagens.
dotchart
(x, …)
Constrói
um pontochart dos dados em x. Em um pontochart, o eixo y dá uma
rotulagem dos dados em x e o eixo x dá seu valor. Por exemplo,
permite uma seleção visual fácil de todas as entradas de dados com
valores que estão em intervalos especificados.
image (x, y, z, …)
contour (x, y, z, …)
persp
(x, y, z, …)
Parcelas
de três variáveis. O gráfico de imagem desenha uma grade de
retângulos usando cores diferentes para representar o valor de z, o
traçado de contorno desenha linhas de contorno para representar o
valor de z e o gráfico de perseguição desenha uma superfície 3D.

Argumentos para funções de alto nível


uma série de argumentos que podem ser passados ​​para funções
de gráficos de alto nível, da seguinte maneira:
add
= TRUE
Força
a função a atuar como uma função de gráficos de baixo nível,
superpondo o gráfico no gráfico atual (algumas funções somente).
axes = FALSE
Suprime
a geração de eixos – útil para adicionar seus próprios eixos
personalizados com a função axis (). O padrão, axes = TRUE,
significa incluir eixos.
log
= “x”
log
= “y”
log
= “xy”
Faz
com que os eixos x, y ou ambos sejam logarítmicos. Isso funcionará
para muitos tipos de plots, mas não todos.
type =
O argumento controla o tipo de plot produzida, da seguinte
forma:
type
= “p”
Traçar
pontos individuais (o padrão)
type
= “l”
Linhas
de traçado
tipo
= “b”
Pontos
de listagem conectados por linhas (ambos)
type
= “o”
Coloque
pontos sobrepostos por linhas
tipo
= “h”
Traçar
linhas verticais de pontos para o eixo zero (alta densidade)
tipo
= “s”
tipo
= “S”
Parcelas
de função passo a passo. Na primeira forma, o topo da vertical
define o ponto; no segundo, no fundo.
tipo
= “n”
Não
traça nada. No entanto, os eixos ainda são desenhados (por padrão)
e o sistema de coordenadas é configurado de acordo com os dados.
Ideal para criar gráficos com funções gráficas de baixo nível
subseqüentes.
xlab
= string
ylab
= corda
Etiquetas
de eixos para os eixos x e y. Use esses argumentos para alterar os
rótulos padrão, geralmente os nomes dos objetos usados ​​na
chamada para a função de traçado de alto nível.
main
= string
Título
da figura, colocado na parte superior do plot em uma fonte grande.
sub
= string
Subtítulo,
colocado logo abaixo do eixo dos x em uma fonte menor.

Comandos de baixo nível

Às
vezes, as funções de traçado de alto nível não produzem
exatamente o tipo de plot que você deseja. Nesse caso, comandos de
traçado de baixo nível podem ser usados ​​para adicionar
informações extras (como pontos, linhas ou texto) ao gráfico
atual.
Algumas
das funções de traçabilidade de baixo nível mais úteis são:
points
(x, y)
lines (x, y)
Adiciona
pontos ou linhas conectadas ao gráfico atual. O argumento type = do
argumento () também pode ser passado para essas funções (e padrão
para “p” para pontos () e “l” para linhas ().)
text (x, y, labels, …)
Adicione
texto a um gráfico em pontos dados por x, y. Normalmente, os rótulos
são um vetor de número inteiro ou de caracteres, em cujo caso os
rótulos [i] são plotados no ponto (x [i], y [i]). O padrão é 1:
comprimento (x).
Nota:
Esta função é freqüentemente usada na seqüência
plot (x, y, type = “n”); texto (x, y, nomes)
O
parâmetro gráfico type = “n” suprime os pontos, mas
configura os eixos, e a função text () fornece caracteres
especiais, conforme especificado pelo nome do vetor de caracteres
para os pontos.
abline
(a, b)
abline
(h = y)
abline
(v = x)
abline
(lm.obj)
Adiciona
uma linha de inclinação b e intercepta a para o gráfico atual. h =
y pode ser usado para especificar coordenadas y para as alturas de
linhas horizontais para atravessar um gráfico e v = x de forma
semelhante para as coordenadas x para linhas verticais. Também
lm.obj pode ser listado com um componente de coeficientes do
comprimento 2 (como o resultado das funções de montagem do modelo),
que são tomadas como uma interceptação e inclinação, nessa
ordem.
polígono
(x, y, …)
Desenha
um polígono definido pelos vértices ordenados em (x, y) e
(opcionalmente) faça sombra em linhas de hachura ou preencha se o
dispositivo gráfico permite o preenchimento de figuras.
legenda
(x, y, legenda, …)
Adiciona
uma legenda ao gráfico atual na posição especificada. Traçar
caracteres, estilos de linha, cores etc., são identificados com os
rótulos na legenda do vetor de caracteres. Pelo menos um outro
argumento v (um vetor com o mesmo comprimento que legenda) com os
valores correspondentes da unidade de traçado também deve ser dado,
da seguinte forma:
legenda
(, fill = v)
Cores
para caixas preenchidas
lenda
(col = v)
Cores
nas quais os pontos ou linhas serão desenhados
lenda
(lty = v)
Estilos
de linha
legenda
(, lwd = v)
Largura
de linha
lenda
(pch = v)
Traçando
caracteres (vetor de caracteres)
título
(principal, sub)
Adiciona
um título principal ao topo do gráfico atual em uma fonte grande e
(opcionalmente) um sub-título sub na parte inferior em uma fonte
menor.
eixo
(lado, …)
Adiciona
um eixo ao gráfico atual do lado dado pelo primeiro argumento (1 a
4, contando no sentido dos ponteiros do relógio da parte inferior).
Outros argumentos controlam o posicionamento do eixo dentro ou ao
lado da plot e marcam as posições e os rótulos. Útil para
adicionar eixos personalizados depois de chamar plot () com o
argumento = FALSE argumento.
As
funções de traçado de baixo nível geralmente requerem algumas
informações de posicionamento (por exemplo, coordenadas x e y) para
determinar onde colocar os novos elementos do plot. As coordenadas
são dadas em termos de coordenadas de usuário que são definidas
pelo comando anterior de gráficos de alto nível e são escolhidas
com base nos dados fornecidos.
Onde
os argumentos x e y são necessários, também é suficiente fornecer
um único argumento sendo uma lista com elementos chamados x e y. Da
mesma forma, uma matriz com duas colunas também é uma entrada
válida. Desta forma, funções como locator () (veja abaixo) podem
ser usadas para especificar posições em um gráfico de forma
interativa.

Anotações matemáticas

Em
alguns casos, é útil adicionar símbolos matemáticos e fórmulas a
um gráfico. Isso pode ser alcançado em R, especificando uma
expressão em vez de uma seqüência de caracteres em qualquer texto,
mtext, eixo ou título. Por exemplo, o código a seguir desenha a
fórmula para a função de probabilidade Binomial:
text (x, y, expressão (colar (bgroup (“(“, atop (n,
x), “)”), p ^ x, q ^ {n-x})))
Mais
informações, incluindo uma lista completa dos recursos disponíveis,
podem ser obtidas a partir de R usando os comandos:
help (plotmath)
example (plotmath)
demo (plotmath)

Fontes de vetor Hershey

É
possível especificar fontes de vetor Hershey para renderizar texto
ao usar as funções de texto e contorno. Existem três razões para
usar as fontes Hershey:
  • As fontes Hershey podem produzir uma melhor saída, especialmente na
    tela do computador, para texto girado e / ou pequeno.
  • As fontes Hershey fornecem certos símbolos que podem não estar
    disponíveis nas fontes padrão. Em particular, há signos do
    zodíaco, símbolos cartográficos e símbolos astronômicos.
  • As fontes de Hershey fornecem caracteres cítricos e japoneses (Kana
    e Kanji).
Mais
informações, incluindo tabelas de caracteres Hershey, podem ser
obtidas a partir de R usando os comandos:
help (Hershey)
demo (Hershey)
help (japanese)
demo (japanese)

Interagindo com gráficos

R
também fornece funções que permitem aos usuários extrair ou
adicionar informações a um gráfico usando um mouse. O mais simples
é a função localizador ():
localizador
(n, tipo)
Espera
que o usuário selecione locais no gráfico atual usando o botão
esquerdo do mouse. Isso continua até que n (pontos 512) sejam
selecionados ou outro botão do mouse esteja pressionado. O argumento
de tipo permite plotar nos pontos selecionados e tem o mesmo efeito
que para comandos de gráficos de alto nível; O padrão não é um
gráfico. locator () retorna as posições dos pontos selecionados
como uma lista com dois componentes x e y.
localizador
() geralmente é chamado sem argumentos. É particularmente útil
para selecionar interativamente posições para elementos gráficos,
como legendas ou rótulos quando é difícil calcular antecipadamente
onde o gráfico deve ser colocado. Por exemplo, para colocar um texto
informativo próximo a um ponto periférico, o comando
text (localizador (1), “Outlier”, adj = 0)
pode
ser útil. (o localizador () será ignorado se o dispositivo atual,
como postscript, não suporta apontar interativo.)
identify (x, y, labels)
Permita
que o usuário destaque qualquer um dos pontos definidos por x e y
(usando o botão esquerdo do mouse) traçando o componente
correspondente dos rótulos próximos (ou o número de índice do
ponto se os rótulos estiverem ausentes). Retorna os índices dos
pontos selecionados quando outro botão é pressionado.
Às
vezes, queremos identificar pontos particulares em um plot, ao
invés de suas posições. Por exemplo, talvez desejemos que o
usuário selecione alguma observação de interesse de uma exibição
gráfica e, em seguida, manipule essa observação de alguma forma.
Dado um número de coordenadas (x, y) em dois vetores numéricos x e
y, poderíamos usar a função identificador () da seguinte maneira:
plot(x, y)
identify (x, y)
As
funções identificador () não executam nenhum gráfico, mas
simplesmente permite ao usuário mover o ponteiro do mouse e clicar o
botão esquerdo do mouse perto de um ponto. Se houver um ponto
próximo ao ponteiro do mouse, ele será marcado com seu número de
índice (ou seja, sua posição nos vetores x / y) traçados nas
proximidades. Alternativamente, você pode usar uma string
informativa (como um nome de caso) como um destaque, usando o
argumento de rótulos para identificar (), ou desativar a marcação
completamente com o argumento plot = FALSE. Quando o processo é
encerrado (veja acima), identifique () retorna os índices dos pontos
selecionados; você pode usar esses índices para extrair os pontos
selecionados dos vetores originais x e y.

Usando parâmetros gráficos

Ao
criar gráficos, particularmente para fins de apresentação ou
publicação, os padrões de R nem sempre produzem exatamente o que é
necessário. No entanto, você pode personalizar quase todos os
aspectos da tela usando parâmetros gráficos. R mantém uma lista de
um grande número de parâmetros gráficos que controlam coisas como
estilo de linha, cores, arranjo de figuras e justificação de texto
entre muitos outros. Cada parâmetro gráfico tem um nome (como
‘col’, que controla as cores,) e um valor (um número de cores, por
exemplo).
Uma
lista separada de parâmetros gráficos é mantida para cada
dispositivo ativo, e cada dispositivo possui um conjunto de
parâmetros padrão quando inicializado. Os parâmetros gráficos
podem ser definidos de duas maneiras: permanentemente, afetando todas
as funções gráficas que acessam o dispositivo atual; ou
temporariamente, afetando apenas uma única chamada de função
gráfica.

A função par ():

Argumentos para funções gráficas:

Mudanças permanentes: a função par ()

A
função par () é usada para acessar e modificar a lista de
parâmetros gráficos para o dispositivo gráfico atual.
par()
Sem
argumentos, retorna uma lista de todos os parâmetros gráficos e
seus valores para o dispositivo atual.
par
(c (“col”, “lty”))
Com
um argumento de vetor de caracteres, retorna apenas os parâmetros de
gráficos nomeados (novamente, como uma lista).
par
(col = 4, lty = 2)
Com
argumentos nomeados (ou um único argumento de lista), define os
valores dos parâmetros de gráficos nomeados e retorna os valores
originais dos parâmetros como uma lista.
Definir
parâmetros gráficos com a função par () altera permanentemente o
valor dos parâmetros, no sentido de que todas as futuras chamadas
para funções gráficas (no dispositivo atual) serão afetadas pelo
novo valor. Você pode pensar em definir os parâmetros gráficos
dessa maneira, definindo valores “padrão” para os
parâmetros, que serão utilizados por todas as funções de
gráficos, a menos que seja dado um valor alternativo.
Observe
que as chamadas para par () sempre afetam os valores globais dos
parâmetros gráficos, mesmo quando o par () é chamado de dentro de
uma função. Isso geralmente é um comportamento indesejável –
geralmente queremos definir alguns parâmetros gráficos, fazer algum
planejamento e restaurar os valores originais para não afetar a
sessão R do usuário. Você pode restaurar os valores iniciais
salvando o resultado do par () ao fazer alterações e restaurar os
valores iniciais quando o plot estiver completo.
oldpar

… traçando comandos …
par (oldpar)
Para
salvar e restaurar todos os parâmetros gráficos settable25 usar
oldpar

… traçando comandos …
par (oldpar)

Alterações temporárias: Argumentos para funções gráficas

Parâmetros
gráficos também podem ser passados ​​para (quase) qualquer
função gráfica como argumentos nomeados. Isso tem o mesmo efeito
que passar os argumentos para a função par (), exceto que as
mudanças apenas duram a duração da chamada de função. Por
exemplo:
plot (x, y, pch = “+”)
produz
um diagrama de dispersão usando um sinal de mais como o personagem
de traçado, sem alterar o caractere de traçado padrão para futuros
plots.
Infelizmente,
isso não é implementado de forma consistente e às vezes é
necessário definir e redefinir parâmetros gráficos usando par ().

Lista de parâmetros gráficos

As
seções a seguir detalham muitos dos parâmetros gráficos comumente
usados. A documentação de ajuda R para a função par () fornece um
resumo mais conciso; Isso é fornecido como uma alternativa um pouco
mais detalhada.
Os
parâmetros gráficos serão apresentados da seguinte forma:
nome
= valor
Uma
descrição do efeito do parâmetro. nome é o nome do parâmetro, ou
seja, o nome do argumento para usar em chamadas para par () ou uma
função gráfica. O valor é um valor típico que você pode usar ao
configurar o parâmetro.
Observe
que os eixos não são um parâmetro gráfico, mas um argumento para
alguns métodos de plot: veja xaxt e yaxt.

Elementos gráficos

As
parcelas R são constituídas por pontos, linhas, textos e polígonos
(regiões preenchidas). Existem parâmetros gráficos que controlam
como esses elementos gráficos são desenhados, da seguinte forma:
pch
= “+”
Caráter
a ser usado para traçar pontos. O padrão varia com os drivers de
gráficos, mas geralmente é um círculo. Os pontos tracejados tendem
a aparecer um pouco acima ou abaixo da posição apropriada, a menos
que você use “.” como o personagem de traçado, que produz
pontos centrados.
pch
= 4
Quando
pch é dado como um número inteiro entre 0 e 25 inclusive, um
símbolo de traçado especializado é produzido. Para ver quais são
os símbolos, use o comando
legend (locator (1), as.character (0:25), pch = 0:25)
Os
de 21 a 25 podem parecer duplicar símbolos anteriores, mas podem ser
coloridos de diferentes maneiras: veja a ajuda sobre pontos e seus
exemplos.
Além
disso, pch pode ser um caractere ou um número no intervalo 32: 255
representando um caractere na fonte atual.
lty
= 2
Tipos
de linha. Os estilos de linha alternativos não são suportados em
todos os dispositivos gráficos (e variam nos que o fazem), mas o
tipo de linha 1 é sempre uma linha contínua, o tipo de linha 0
sempre é invisível e os tipos de linha 2 e a seguir são linhas
pontilhadas ou tracejadas ou alguma combinação de ambos.
lwd
= 2
Largura
de linha. Largura desejada de linhas, em múltiplos da largura da
linha “padrão”. Afecta linhas de eixos, bem como linhas
desenhadas com linhas (), etc. Nem todos os dispositivos suportam
isso, e alguns têm restrições nas larguras que podem ser usadas.
col
= 2
Cores
a serem usadas para pontos, linhas, texto, regiões preenchidas e
imagens. Um número da paleta atual (veja? Paleta) ou uma cor com
nome.
col.axis
col.lab
col.main
col.sub
A
cor a ser utilizada para anotações de eixo, etiquetas x e y,
principais e subtítulos, respectivamente.
font
= 2
Um
número inteiro que especifica qual fonte usar para texto. Se
possível, os drivers do dispositivo providenciam para que 1
corresponda ao texto simples, 2 ao rosto em negrito, 3 ao itálico, 4
ao itálico em negrito e 5 à fonte do símbolo (que inclui letras
gregas).
font.axis
font.lab
font.main
font.sub
A
fonte a ser utilizada para anotações de eixo, etiquetas x e y,
principais e subtítulos, respectivamente.
adj
= -0,1
Justificação
do texto em relação à posição de traçado. 0 significa esquerda
justificativa, 1 significa justificação correta e 0,5 significa
centralizar horizontalmente sobre a posição de traçado. O valor
real é a proporção de texto que aparece à esquerda da posição
de traçado, portanto, um valor de -0,1 deixa um intervalo de 10% da
largura do texto entre o texto e a posição de traçado.
cex
= 1,5
Expansão
do caráter. O valor é o tamanho desejado de caracteres de texto
(incluindo caracteres de traçado) em relação ao tamanho de texto
padrão.
cex.axis
cex.lab
cex.main
cex.sub
A
expansão do caractere a ser usada para anotações de eixo,
etiquetas x e y, principais e subtítulos, respectivamente.

Eixos e marcações

Muitas
das parcelas de alto nível de R têm eixos, e você pode construir
os eixos com a função de gráficos de eixo de baixo nível (). Os
eixos possuem três componentes principais: a linha de eixo (estilo
de linha controlada pelo parâmetro de gráficos de lty), as marcas
de marcação (que marcam as divisões da unidade ao longo da linha
de eixo) e as marcas de marca (que marcam as unidades). Esses
componentes podem ser personalizados com os seguintes parâmetros
gráficos.
lab
= c (5, 7, 12)
Os
dois primeiros números são o número desejado de intervalos de
tiques nos eixos x e y, respectivamente. O terceiro número é o
comprimento desejado de rótulos de eixos, em caracteres (incluindo o
ponto decimal). Escolher um valor muito pequeno para este parâmetro
pode resultar em todos os rótulos sendo arredondados para o mesmo
número!
las
= 1
Orientação
dos rótulos dos eixos. 0 significa sempre paralelo ao eixo, 1
significa sempre horizontal e 2 significa sempre perpendicular ao
eixo.
mgp
= c (3, 1, 0)
Posições
dos componentes do eixo. O primeiro componente é a distância da
etiqueta do eixo para a posição do eixo, nas linhas de texto. O
segundo componente é a distância para as marcas de tiques e o
componente final é a distância da posição do eixo para a linha do
eixo (geralmente zero). Os números positivos medem fora da região
do plot, números negativos dentro.
tck
= 0,01
Comprimento
das marcações, como uma fração do tamanho da região de traçado.
Quando tck é pequeno (menos de 0,5), as marcas de marcação nos
eixos x e y são forçadas a ter o mesmo tamanho. Um valor de 1
fornece linhas de grade. Os valores negativos dão marcações fora
da região de traçado. Use tck = 0,01 e mgp = c (1, -1,5,0) para
marcações internas.
xaxs
= “r”
yaxs
= “i”
Estilos
de eixos para os eixos x e y, respectivamente. Com os estilos “i”
(interno) e “r” (o padrão), as marcas sempre ficam dentro
do alcance dos dados, no entanto, o estilo “r” deixa uma
pequena quantidade de espaço nas bordas. (S tem outros estilos não
implementados na R.)

Figura margens

Um
único gráfico em R é conhecido como uma figura e compreende uma
região de plot cercada por margens (possivelmente contendo rótulos
de eixos, títulos, etc.) e (geralmente) delimitada pelos próprios
eixos.
Uma
figura típica é
Os
parâmetros gráficos que controlam o layout da figura incluem:
mai
= c (1, 0,5, 0,5, 0)
Largura
das margens inferior, esquerda, superior e direita, respectivamente,
medida em polegadas.
mar
= c (4, 2, 2, 1)
Semelhante
ao mai, exceto que a unidade de medição é linhas de texto.
mar
e mai são equivalentes no sentido de que definir um altera o valor
do outro. Os valores padrão escolhidos para este parâmetro
geralmente são muito grandes; a margem direita raramente é
necessária e nem a margem superior se não é usado o título. As
margens inferior e esquerda devem ser grandes o suficiente para
acomodar o eixo e marcar marcas. Além disso, o padrão é escolhido,
independentemente do tamanho da superfície do dispositivo: por
exemplo, usando o driver postscript () com o argumento altura = 4
resultará em um gráfico que é cerca de 50% de margem a menos que
mar ou mai sejam definidos explicitamente. Quando várias figuras
estão em uso (veja abaixo), as margens são reduzidas, porém isso
pode não ser suficiente quando muitas figuras compartilham a mesma
página.

Ambiente figurativo múltiplo

R
permite que você crie uma série de figuras n em uma única página.
Cada figura tem suas próprias margens, e a matriz de figuras é
opcionalmente cercada por uma margem externa, conforme mostrado na
figura a seguir.
Os
parâmetros gráficos relativos a múltiplas figuras são os
seguintes:
mfcol
= c (3, 2)
mfrow
= c (2, 4)
Defina
o tamanho de uma matriz de múltiplas figuras. O primeiro valor é o
número de linhas; O segundo é o número de colunas. A única
diferença entre esses dois parâmetros é que a configuração de
mfcol faz com que as figuras sejam preenchidas por coluna; Mfrow é
preenchido por linhas.
O
layout na Figura poderia ter sido criado definindo mfrow = c (3,2); A
figura mostra a página depois que quatro parcelas foram desenhadas.
Definir
qualquer destes pode reduzir o tamanho da base de símbolos e texto
(controlado por par (“cex”) e o ponto do dispositivo). Em
um layout com exatamente duas linhas e colunas, o tamanho da base é
reduzido por um fator de 0.83: se houver três ou mais linhas ou
colunas, o fator de redução é 0.66.
mfg
= c (2, 2, 3, 2)
Posição
da figura atual em um ambiente de figura múltipla. Os dois primeiros
números são a linha e a coluna da figura atual; os dois últimos
são o número de linhas e colunas na matriz de figuras múltiplas.
Defina este parâmetro para saltar entre figuras na matriz. Você
pode usar valores diferentes para os últimos dois números do que os
valores reais para figuras de tamanho desigual na mesma página.
fig
= c (4, 9, 1, 4) / 10
Posição
da figura atual na página. Os valores são as posições das margens
esquerda, direita, inferior e superior, respectivamente, como uma
porcentagem da página medida a partir do canto inferior esquerdo. O
valor do exemplo seria para uma figura no canto inferior direito da
página. Defina este parâmetro para posicionamento arbitrário de
figuras dentro de uma página. Se você quiser adicionar uma figura a
uma página atual, use novo = VERDADEIRO também (diferente de S).
oma
= c (2, 0, 3, 0)
omi
= c (0, 0, 0,8, 0)
Tamanho
das margens exteriores. Como mar e mai, as primeiras medidas em
linhas de texto e a segunda em polegadas, começando com a margem
inferior e trabalhando no sentido horário.
As
margens externas são particularmente úteis para títulos em página,
etc. O texto pode ser adicionado às margens externas com a função
mtext () com o argumento externo = VERDADEIRO. Não há margens
externas por padrão, no entanto, você deve criá-las explicitamente
usando oma ou omi.
Arranjos
mais complicados de figuras múltiplas podem ser produzidos pelas
funções split.screen () e layout (), bem como pelos pacotes de
grade e rede.

Controladores de dispositivo

R
pode gerar gráficos (de diferentes níveis de qualidade) em quase
qualquer tipo de dispositivo de exibição ou impressão. Antes que
isso possa começar, no entanto, R precisa ser informado sobre o tipo
de dispositivo com o qual ele está lidando. Isso é feito iniciando
um driver de dispositivo. O propósito de um driver de dispositivo é
converter instruções gráficas de R (“desenhar uma linha”,
por exemplo) em uma forma que o dispositivo particular possa
entender.
Os
drivers do dispositivo são iniciados chamando uma função de driver
de dispositivo. Há uma dessas funções para cada driver de
dispositivo: digite help (Dispositivos) para uma lista de todos eles.
Por exemplo, emitir o comando
postscript ()
faz
com que toda a saída gráfica futura seja enviada para a impressora
no formato PostScript. Alguns drivers de dispositivos comumente
usados ​​são:
X11
()
Para
usar com o sistema windows X11 no Unix-alikes
Windows()
Para
uso no Windows
quartz()
Para
uso no MacOS
postscript
()
Para
imprimir em impressoras PostScript ou criar arquivos de gráficos
PostScript.
pdf
()
Produz
um arquivo PDF, que também pode ser incluído em arquivos PDF.
png
()
Produz
um arquivo PNG bitmap. (Não está sempre disponível: veja a página
de ajuda.)
jpeg
()
Produz
um arquivo bitmap JPEG, melhor usado para gráficos de imagens. (Não
está sempre disponível: veja a página de ajuda.)
Quando
você terminar com um dispositivo, certifique-se de encerrar o driver
do dispositivo, emitindo o comando
dev.off ()
Isso
garante que o dispositivo finalize de forma limpa; Por exemplo, no
caso de dispositivos impressos, isso garante que todas as páginas
sejam preenchidas e enviadas para a impressora. (Isso acontecerá
automaticamente no final normal de uma sessão.)

Diagramas PostScript para documentos de composição

Ao
passar o argumento do arquivo para a função de driver do
dispositivo postscript (), você pode armazenar os gráficos no
formato PostScript em um arquivo de sua escolha. O gráfico será na
orientação horizontal, a menos que o argumento horizontal = FALSO
seja dado, e você pode controlar o tamanho do gráfico com os
argumentos de largura e altura (o gráfico será dimensionado
conforme apropriado para ajustar essas dimensões). Por exemplo, o
comando
postscript (“file.ps”, horizontal = FALSE, height =
5, pointize = 10)
irá
produzir um arquivo contendo código PostScript para uma figura de
cinco centímetros de altura, talvez para inclusão em um documento.
É importante notar que, se o arquivo nomeado no comando já existir,
ele será substituído. Este é o caso mesmo se o arquivo só foi
criado anteriormente na mesma sessão R.
Muitos
usos da saída PostScript serão para incorporar a figura em outro
documento. Isso funciona melhor quando o PostScript encapsulado é
produzido: R sempre produz saída compatível, mas apenas marca a
saída como tal quando o argumento onefile = FALSE é fornecido. Esta
notação incomum decorre da compatibilidade com S: isso realmente
significa que a saída será uma única página (que faz parte da
especificação EPSF). Assim, para produzir um plot para inclusão
use algo como
postscript (“plot1.eps”, horizontal = FALSE, onefile =
FALSE,
altura = 8, largura = 6, ponto = 10)

Múltiplos dispositivos gráficos

No
uso avançado de R, muitas vezes é útil ter vários dispositivos
gráficos em uso ao mesmo tempo. É claro que apenas um dispositivo
gráfico pode aceitar comandos gráficos em qualquer momento e isso é
conhecido como o dispositivo atual. Quando vários dispositivos estão
abertos, eles formam uma seqüência numerada com nomes que dão o
tipo de dispositivo em qualquer posição.
Os
comandos principais usados ​​para operar com vários dispositivos
e seus significados são os seguintes:
X11
()
[UNIX]
Windows()
win.printer
()
win.metafile
()
[Windows]
quartz()
[Mac
OS]
postscript
()
pdf
()
png
()
jpeg
()
tiff
()
bitmap
()
Cada
nova chamada para uma função de driver de dispositivo abre um novo
dispositivo gráfico, estendendo-se por um a lista de dispositivos.
Este dispositivo torna-se o dispositivo atual, ao qual a saída
gráfica será enviada.
dev.list
()
Retorna
o número eo nome de todos os dispositivos ativos. O dispositivo na
posição 1 na lista é sempre o dispositivo nulo que não aceita
comandos gráficos.
dev.next
()
dev.prev
()
Retorna
o número e o nome do dispositivo gráfico próximo ou anterior ao
dispositivo atual, respectivamente.
dev.set
(which = k)
Pode
ser usado para alterar o dispositivo de gráficos atual para aquele
na posição k da lista de dispositivos. Retorna o número eo rótulo
do dispositivo.
dev.off
(k)
Terminar
o dispositivo gráfico no ponto k da lista de dispositivos. Para
alguns dispositivos, como os dispositivos postscript, isso imprime o
arquivo imediatamente ou complete corretamente o arquivo para
posterior impressão, dependendo de como o dispositivo foi iniciado.
dev.copy
(dispositivo, …, que = k)
dev.print
(dispositivo, …, que = k)
Faça
uma cópia do dispositivo k. Aqui o dispositivo é uma função de
dispositivo, como postscript, com argumentos extras, se necessário,
especificado por ‘…’. o dev.print é semelhante, mas o dispositivo
copiado é imediatamente fechado, de modo que as ações finais, como
a impressão de cópias impressas, são executadas imediatamente.
graphics.off
()
Terminar
todos os dispositivos gráficos na lista, exceto o dispositivo nulo.

Gráficos dinâmicos

R
não possui recursos internos para gráficos dinâmicos ou
interativos, p. nuvens de ponto rotativo ou pontos de “escovação”
(destacando interativamente). No entanto, extensas funções gráficas dinâmicas estão disponíveis no sistema GGobi da Swayne,
Cook e Buja disponíveis a partir de
e
estes podem ser acessados ​​a partir de R através do pacote
rggobi, descrito em http://www.ggobi.org/rggobi.
Além
disso, o pacote rgl fornece formas de interagir com gráficos 3D, por
exemplo, de superfícies.
Além disso, ferramentas como o Vengage permitem criar vários tipos de (info)gráficos.

Conclusão

Chegamos ao final desta série, e espero sinceramente que tenha aproveitado bastante os conhecimentos compartilhados aqui.
Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 8 (agrupamento, loops e execução condicional)

Expressões agrupadas

R é
uma linguagem de expressão no sentido de que seu único tipo de
comando é uma função ou expressão que retorna um resultado. Até
mesmo uma tarefa é uma expressão cujo resultado é o valor
atribuído e pode ser usado sempre que qualquer expressão pode ser
usada; em particular, tarefas múltiplas são possíveis.
Os
comandos podem ser agrupados em chaves, {expr_1; …; expr_m}, caso
em que o valor do grupo é o resultado da última expressão no grupo
avaliado. Como esse grupo também é uma expressão, ele pode, por
exemplo, ser incluído em parênteses e usado como parte de uma
expressão ainda maior, e assim por diante.

Declarações de controle



Execução condicional:

Execução repetitiva:

Execução condicional: declarações ‘’se’’

A linguagem possui uma construção condicional da forma
if (expr_1) expr_2 else expr_3
onde
expr_1 deve avaliar para um único valor lógico e o resultado de
toda a expressão é então evidente.
Os
operadores de “curto-circuito” && e || são
freqüentemente usados ​​como parte da condição em uma
declaração if. Considerando que & e | se aplicam a elementos de vetores, && e || se aplicam para vetores de comprimento um.
Existe
uma versão vetorial da construção if / else, a função ifelse.
Esta tem a forma ifelse (condição, a, b) e retorna um vetor do
mesmo comprimento que a condição, com elementos a [i] se a condição
[i] for verdadeira, caso contrário, b [i].

Execução repetitiva: loops for, repeat e while


também uma construção de loop na forma
for (nome in expr_1) expr_2
onde nome é a variável do loop. expr_1 é uma expressão vetorial
(muitas vezes uma seqüência como 1:20), e expr_2 é muitas vezes
uma expressão agrupada com suas sub-expressões escritas em termos
do nome. expr_2 é avaliado repetidamente como intervalos de
nomes através dos valores no resultado vetorial de expr_1.
Como
exemplo, suponha que ind seja um vetor de indicadores de classe e
queremos produzir parcelas separadas de y versus x dentro de classes.
Uma possibilidade aqui é usar coplot (), que irá produzir uma
série de gráficos correspondentes a cada nível do fator. Outra
maneira de fazer isso, agora colocando todos os gráficos no único
display, é a seguinte:
for (i in 1:length(y)) {

abline (lsfit (x [[i]], y [[i]]))
}
Aviso:
os loops são usados ​​no código R muito menos frequentemente
do que nas linguagens compiladas. O código que leva uma visão de
“objeto inteiro” provavelmente será tanto mais claro
quanto mais rápido em R.
Outras
opções de loop incluem o
repeat expr
while (condição) expr
A
declaração de interrupção pode ser usada para encerrar qualquer
loop, possivelmente anormalmente. Esta é a única maneira de
encerrar loops repetidos.
A
próxima declaração pode ser usada para interromper um ciclo
específico e passar para o “próximo”.
As
instruções de controle são mais utilizadas em conexão com funções
que são discutidas em Escrever suas próprias funções e onde mais
exemplos surgirão.

Conclusão

Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 7 (Lendo Dados de Arquivos)

Os
objetos de dados em grandes volumes geralmente são lidos como valores de
arquivos externos em vez de inseridos durante uma sessão R via teclado. As opções de entrada R são simples e seus requisitos
são bem rígidos, até mesmo inflexíveis. Existe uma clara
presunção pelos designers do R de que você poderá modificar seus
arquivos de entrada usando outras ferramentas, como editores de
arquivos, para atender aos requisitos de R. Geralmente, isso
é muito simples.
Se
as variáveis devem ser mantidas principalmente em data frames,
como sugerimos fortemente, um data frame pode ser lido
diretamente com a função read.table().

Para
obter mais detalhes sobre a importação de dados em R e também para
exportação de dados, consulte o manual R para importar/exportar dados.

A função read.table()

Para
ler um data frame completo diretamente, o arquivo externo
normalmente terá uma forma especial.
  • A primeira linha do arquivo deve ter um nome para cada variável no
    data frame (cabeçalho);
  • Cada linha adicional do arquivo tem como primeiro item um rótulo de
    linha e os valores para cada variável.
Se o
arquivo tiver um item menor em sua primeira linha do que na segunda, este arranjo é presumido como correto e os ajustes necessários são feitos automaticamente. Portanto,
as primeiras linhas de um arquivo a serem lidas como um data frame podem parecer como as seguintes:
Arquivo de entrada com nomes e rótulos de linha:
Preço Chão Área Quart. Idade Cent.heat
01
52.00 111.0 830 5 6.2 não
02 54.75
128.0 710 5 7.5 não
03 57.50 101.0
1000 5 4.2 não
04 57.50 131.0 690
6 8.8 não
05 59.75 93.0 900 5
1.9 sim

Por
padrão, itens numéricos (exceto rótulos de linha) são lidos como
variáveis ​​numéricas e variáveis ​​não-numéricas, como
Cent.heat no exemplo, como fatores. Isso pode ser alterado se
necessário.
A
função read.table() pode então ser usada para ler o data frame diretamente.
Muitas
vezes, você quer omitir, incluindo os rótulos de linha diretamente
e usar os rótulos padrão. Nesse caso, o arquivo pode omitir a
coluna da etiqueta da linha como a seguir.

Arquivo de entrada sem rótulos de linha:
Preço Chão Área Quart. Idade Cent.heat
52.00 111.0 830 5 6.2 não
54.75 128.0 710 5 7.5 não
57.50
101.0 1000 5 4.2 não
57.50
131.0 690 6 8.8 não
59.75 93.0
900 5 1.9 sim

O data frame pode então ser lido como
HousePrice = read.table(“HousePrice.txt”,header=TRUE)

onde
a opção header = TRUE especifica que a primeira linha é uma linha
de cabeçalhos e, portanto, por implicação da forma do arquivo, que
nenhum rótulo de linha explícito é fornecido.

A função scan()

A função scan() fornece um modo bastante flexível de ler arquivos.

Considere o arquivo input.txt com o seguinte conteúdo:
,t1,t2,t3,t4,t5,t6,t7,t8
r1,1,0,1,0,0,1,0,2
r2,1,2,5,1,2,1,2,1
r3,0,0,9,2,1,1,0,1
r4,0,0,2,1,2,0,0,0
r5,0,2,15,1,1,0,0,0
r6,2,2,3,1,1,1,0,0
r7,2,2,3,1,1,1,0,1

Para ler o arquivo, poderia ser feita a seguinte operação:

x
E o resultado seria o seguinte:

> x
[1] “r1,1,0,1,0,0,1,0,2”  “r2,1,2,5,1,2,1,2,1”  “r3,0,0,9,2,1,1,0,1”
[4] “r4,0,0,2,1,2,0,0,0”  “r5,0,2,15,1,1,0,0,0” “r6,2,2,3,1,1,1,0,0”
[7] “r7,2,2,3,1,1,1,0,1”

Caso não tenha percebido, a primeira linha foi omitida na “carga” do arquivo.
Alternativamente, poderia ser lida apenas uma linha do arquivo com a operação:
> x

Read 1 item
E o resultado, neste caso, seria:
> x
[1] “r1,1,0,1,0,0,1,0,2”
É possível também ler o conteúdo do arquivo e armazenar cada linha como um item de uma lista, como abaixo.
> x

[[1]]
[1] “r1,1,0,1,0,0,1,0,2”
[[2]]
[1] “r2,1,2,5,1,2,1,2,1”
[[3]]
[1] “r3,0,0,9,2,1,1,0,1”
[[4]]
[1] “r4,0,0,2,1,2,0,0,0”
[[5]]
[1] “r5,0,2,15,1,1,0,0,0”
[[6]]
[1] “r6,2,2,3,1,1,1,0,0”
[[7]]
[1] “r7,2,2,3,1,1,1,0,1”
[[8]]
[1] “”
[[9]]
[1] “”
Ou ler dados diretamente do teclado:
> x

1: 43    #input 43 from the screen
2:
Read 1 item
> x
[1] “43”
E até mesmo “colar” conteúdo de uma planilha após executar a operação abaixo:
> x
E ter o conteúdo da planilha copiada disponível para uso com o objeto x.
Muito bacana a função scan(), não é mesmo?

Acessando conjuntos de dados pré-definidos

Uma das coisas mais incríveis do R é o conjunto com cerca
de 100 “bandos de dados de exemplo” fornecidos, havendo mais alguns disponíveis em pacotes (incluindo
os pacotes recomendados fornecidos com R).  Para ver a lista de data sets disponíveis, basta executar o comando
> data()
Todos
os conjuntos de dados fornecidos com R estão disponíveis
diretamente pelo nome. No entanto, muitos pacotes ainda utilizam a
convenção obsoleta em que os dados também foram usados ​​para
carregar conjuntos de dados em R, por exemplo
> data(infert)
E isso ainda pode ser usado com os pacotes padrão (como neste
exemplo). Na maioria dos casos, isso irá carregar um objeto R do
mesmo nome. No entanto, em alguns casos, carrega vários objetos,
então veja a ajuda on-line para o objeto para ver o que é recomendado.

Carregando dados de outros pacotes R

Para
acessar dados de um determinado pacote, use o argumento do pacote,
por exemplo
data(package = “rpart”)
data(Puromycin, package = “datasets”)
Se
um pacote foi anexado pela biblioteca, seus conjuntos de dados são
incluídos automaticamente na pesquisa.
Os
pacotes contribuídos pelo usuário podem ser uma fonte rica de
conjuntos de dados.

Conclusão

As funcionalidades da linguagem R para manipulação de dados em arquivos facilitam muito a vida, principalmente depois que você armazena os dados num objeto data frame.
E você? Já usou R para leitura e manipulação de arquivos?
Ficou com alguma dúvida?

Tem interesse em treinamentos em R?

Programação em R – Parte 6 (Listas e Data Frames)

Uma
lista R é um objeto constituído por uma coleção ordenada de
objetos conhecidos como seus componentes.
Não
há necessidade particular de os componentes serem do mesmo modo ou
tipo e, por exemplo, uma lista pode consistir em um vetor numérico,
um valor lógico, uma matriz, um vetor complexo, uma matriz de
caracteres, uma função e em breve. Aqui está um exemplo simples de
como fazer uma lista:
> Lst

Os
componentes são sempre numerados e sempre podem ser referidos como
tais. Assim, se Lst é o nome de uma lista com quatro componentes,
estes podem ser designados individualmente como Lst [[1]], Lst [[2]],
Lst [[3]] e Lst [[4]]. Se, além disso, Lst [[4]] é uma matriz
subdividida em vetor, então Lst [[4]] [1] é a primeira entrada.
Os
componentes das listas também podem ser nomeados e, neste caso, o
componente pode ser referido, seja dando o nome do componente como
uma seqüência de caracteres no lugar do número em colchetes
duplos, ou, mais convenientemente, dando uma expressão no formato
> nome$nome_componente
Esta
é uma convenção muito útil, pois torna mais fácil obter o
componente certo se você esquecer o número.
Então
no exemplo simples dado acima:
Lst$nome é o mesmo que Lst[[1]] e é a string “Fred”,
Lst$esposa é o mesmo que Lst[[2]] e é a string “Mary”,
Lst$idade.crianças[1] é o mesmo que Lst[[4]] [1] e é o número 4.
Além
disso, também se pode usar os nomes dos componentes da lista em
colchetes duplos, ou seja, Lst[[“nome”]] é o mesmo que
Lst$nome. Isto é especialmente útil, quando o nome do componente
a ser extraído é armazenado em outra variável como em
> x

É
muito importante distinguir Lst[[1]] de Lst[1]. ‘[[…]]’ como
operador usado para selecionar um único elemento, enquanto ‘[…]’ é
um operador de inscrição geral. Assim, o primeiro é o primeiro
objeto na lista Lst, e se é uma lista nomeada, o nome não está
incluído. O último é uma sublista da lista Lst consistindo apenas
na primeira entrada. Se for uma lista nomeada, os nomes são
transferidos para a sublistar.
O
vetor de nomes é de fato simplesmente um atributo da lista como
qualquer outro e pode ser tratado como tal. Outras estruturas além
das listas podem, naturalmente, ser atribuídas também a um atributo
de nomes.

Construindo e modificando listas

Novas
listas podem ser formadas a partir de objetos existentes pela função list(). Uma atribuição
> Lst

configura
uma lista Lst de m componentes usando object_1, …, object_m para os
componentes e dando-lhes nomes conforme especificado pelos nomes dos
argumentos (que podem ser escolhidos livremente). Se esses nomes
forem omitidos, os componentes são apenas numerados. Os componentes
usados ​​para formar a lista são copiados ao formar a nova lista
e os originais não são afetados.
As
listas, como qualquer objeto inscrito, podem ser estendidas
especificando componentes adicionais. Por exemplo
> Lst [5]

Concatenando Listas

Quando
a função de concatenação c() recebe argumentos de lista, o
resultado é também um objeto lista, cujos componentes
são aqueles das listas de argumentos unidos em sequência.
>
list.ABC

Lembre-se
de que, com objetos vetoriais como argumentos, a função de
concatenação uniu de forma semelhante todos os argumentos em uma
única estrutura vetorial. Nesse caso, todos os outros atributos são descartados.

Data Frames

Um “quadro de dados” é uma lista com a classe “data.frame”.
Existem restrições nas listas que podem ser feitas em quadros de
dados, ou seja,
  • Os componentes devem ser vetores (numéricos, caracteres ou
    lógicos), fatores, matrizes numéricas, listas ou outros quadros de
    dados.
  • Matrizes, listas e quadros de dados fornecem tantas variáveis para
    o novo quadro de dados como eles têm colunas, elementos ou
    variáveis, respectivamente.
  • Os vetores numéricos, os lógicos e os fatores são incluídos como
    são, e, por padrão, 18 vetores de caracteres são coagidos como
    fatores, cujos níveis são os valores exclusivos que aparecem no
    vetor.
  • As estruturas de vetores que aparecem como variáveis da estrutura
    de dados devem ter o mesmo comprimento, e as estruturas da matriz
    devem ter o mesmo tamanho da linha.
Um
Data Frame pode, para muitos fins, ser considerado como uma
matriz com colunas possivelmente de diferentes modos e atributos.
Pode ser exibido em matriz e suas linhas e colunas extraídas usando
convenções de indexação de matrizes.

Criando Data Frames

Objetos
que satisfaçam as restrições colocadas nas colunas (componentes)
de um quadro de dados podem ser usados ​​para formar um usando a
função data.frame:
>
contadores

Uma
lista cujos componentes estão em conformidade com as restrições de
um quadro de dados pode ser convertida em um quadro de dados usando a
função as.data.frame ()
A
maneira mais simples de construir um quadro de dados a partir do zero
é usar a função read.table () para ler um quadro de dados inteiro
de um arquivo externo.

Trabalhando com Data Frames

Uma
convenção útil que permite que você trabalhe com muitos problemas
diferentes confortavelmente no mesmo diretório de trabalho é
  • reunir todas as variáveis ​​para qualquer problema bem definido
    e separado em um quadro de dados sob um nome adequadamente
    informativo;
  • Ao trabalhar com um problema, coloque o quadro de dados apropriado
    na posição 2 e use o diretório de trabalho no nível 1 para
    quantidades operacionais e variáveis ​​temporárias;
  • antes de deixar um problema, adicione as variáveis ​​que deseja
    manter para futuras referências ao quadro de dados usando a forma $
    de atribuição, e então desanexar ();
  • Por fim, remova todas as variáveis ​​indesejadas do diretório
    de trabalho e mantenha-o tão limpo quanto possível nas variáveis
    ​​temporárias de esquerda.
Desta
forma, é bem simples trabalhar com muitos problemas no mesmo
diretório, todos com variáveis ​​denominadas x, y e z, por
exemplo.

Conclusão


Data Frames são talvez o tipo de dado mais útil da linguagem R, e por isso mesmo vale muito a pena entender todas as facilidades que este tipo de objeto oferece.
Neste texto apresentamos apenas uma rápida noção de algumas das possibilidades ao trabalhar com Data Frames, que sequer arranham a variedade de possíveis usos deste objeto.
Por isso recomendo fortemente que se aprofunde no entendimento dos Data Frames, incluindo importar dados em Data Frames, exportar dados, Slicing de dados com Data Frames e muito mais.

Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 5 (Matrizes)

Uma
matriz pode ser considerada uma coleção de dados
do mesmo tipo, por exemplo numérico. R permite criar e
manipular matrizes de maneira simples.

Um
vetor de dimensão é um vetor de números inteiros não negativos.
Se o seu comprimento for k, a matriz é dita k-dimensional. Em geral as matrizes são bidimensionais. Mas as dimensões são indexadas de um até os
valores dados no vetor de dimensão, ou seja, você pode criar uma matriz com quantas dimensões desejar.
Por exemplo, se o vetor de dimensão para uma matriz, digamos A, é C (3,4,2), então há 3 * 4 * 2 = 24 elementos na matriz A, e os dados podem ser acessados na ordem [1,1,1], [2,1,1], …, até [2,4,2],[3,4,2].

Outras
funções como matrix() e array() estão disponíveis
para criação de matrizes e vetores (que são matrizes unidimensionais :).

Construindo matrizes com cbind() e rbind()

As matrizes podem ser construídas a
partir de outros vetores e matrizes pelas funções cbind() e rbind(). Podemos dizer que a função cbind() forma matrizes, unindo matrizes
juntadas verticalmente, ou em colunas, enquanto a rbind() faz o mesmo, porém horizontalmente, ou
em linhas.
Os
argumentos para cbind() devem ser vetores de qualquer comprimento ou
matrizes com o mesmo tamanho de coluna, que é o mesmo número de
linhas. O resultado é uma matriz com os argumentos concatenados
arg_1, arg_2, … formando as colunas.
Se
alguns dos argumentos para cbind() são vetores, eles podem ser
menores do que o tamanho da coluna de qualquer matriz presente, caso
em que elas são ciclicamente estendidas para coincidir com o tamanho
da coluna da matriz (ou o comprimento do vetor mais longo se nenhuma
matriz for dada ).

Assim, suponha a matriz m abaixo:

1 2
3 4
5 6

Suponha agora um vetor v com os elementos (1,2).

O resultado da operação cbind(m,v) é a matriz abaixo:

1 2 1
3 4 2
5 6 1

Percebeu como os elementos do vetor foram “distribuídos ao longo da matriz”?

Isso é R, meus amigos 🙂

A
função rbind() faz a operação correspondente para linhas. Neste
caso, qualquer argumento de vetor, possivelmente ciclicamente
estendido, é, naturalmente, tomado como vetores de linha.

A função de concatenação c()

Enquanto cbind() e rbind() são funções de
concatenação que respeitam os atributos dim, a função c() básica limpa objetos numéricos de todos os atributos dim e
dimnames, o que é ocasionalmente útil.

Mas o que isso significa na prática?

Simples: é uma maneira de transformar uma matriz de volta a um objeto vetorial (equivalente a usar as.vector()).
Existem
pequenas diferenças entre os dois, mas, em última análise, a
escolha entre eles é em grande parte uma questão de estilo (sendo o
primeiro preferível).

Conclusão

Matrizes são estruturas bastante úteis em determinadas situações, especialmente quando lidamos com dados homogêneos que precisam ser analisados de várias maneiras, e a linguagem R oferece diversas funções para facilitar a observação das características relevantes das matrizes.
Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 4 (Fatores)

Fatores ordenados e não ordenados

Um fator é
um objeto vetorial usado para especificar uma classificação
discreta (agrupamento) dos componentes de outros vetores do mesmo
comprimento. R fornece fatores ordenados e não ordenados.
Fatores podem ser
identificados automaticamente através da linguagem R, e servem para
“categorizar” os valores de alguma variável ou objeto.
Suponhamos, por
exemplo, que tenhamos uma amostra de informações de escolas
espalhadas pelo Brasil, com a indicação do estado em que cada
escola se localiza sendo especificado por um vetor de siglas
estaduais como abaixo
> escolas

“GO”, “MA”, “MT”, “MS”,
“MG”, “PA”, “PB”, “PE”,
“PI”, “PR”, “RJ”, “RN”, “RO”,
“RR”, “RS”, “SC”
“SE”, “SP”, “TO”, “BA”,
“SP”, “RJ”)
Observe que, no caso
de um vetor de caracteres, “ordenado” significa ordenados
em ordem alfabética.
Um fator pode ser
criado de forma semelhante usando a função factor ():
> estados

A função print ()
lida com fatores ligeiramente diferentes de outros objetos:
> estados
[1] “AC”,
“AL”, “AP”, “AM”, “BA”, “CE”,
“DF”, “ES”,
[9] “GO”,
“MA”, “MT”, “MS”, “MG”, “PA”,
“PB”, “PE”,
[17] “PI”,
“PR”, “RJ”, “RN”, “RO”, “RR”,
“RS”, “SC”
[26] “SE”,
“SP”, “TO”
Levels: “AC”,
“AL”, “AP”, “AM”, “BA”, “CE”,
“DF”, “ES”,
“GO”,
“MA”, “MT”, “MS”, “MG”, “PA”,
“PB”, “PE”,
“PI”,
“PR”, “RJ”, “RN”, “RO”, “RR”,
“RS”, “SC”
“SE”,
“SP”, “TO”
Para descobrir os
níveis de um fator, a função levels() pode ser usada.
> levels
(escolas)
[1] “AC”,
“AL”, “AP”, “AM”, “BA”, “CE”,
“DF”, “ES”,
[9] “GO”,
“MA”, “MT”, “MS”, “MG”, “PA”,
“PB”, “PE”,
[17] “PI”,
“PR”, “RJ”, “RN”, “RO”, “RR”,
“RS”, “SC”
[25] “SE”,
“SP”, “TO”

A função
tapply ()

Suponhamos que
tenhamos a quantidade de alunos das mesmas escolas em outro vetor
(valores apenas para efeito didático).
> alunos

610, 610, 610, 580, 510, 480, 650, 490, 490, 410, 480, 520,
460,
590, 460, 580, 430)
Para calcular a
média de alunos por escola para cada estado, agora podemos usar a
função especial tapply().
Primeiro vamos criar
um dataframe com todos os dados, para organizar melhor as
informações.
df

df$escolas

df$alunos

Agora, podemos
simplesmente usar a função tapply() da seguinte forma:
>
mediaalunos

resultando no vetor
de médias rotuladas pelos níveis (estados)
[1] “AC”,
“AL”, “AP”, “AM”, “BA”, “CE”,
“DF”, “ES”,
[9] “GO”,
“MA”, “MT”, “MS”, “MG”, “PA”,
“PB”, “PE”,
[17] “PI”,
“PR”, “RJ”, “RN”, “RO”, “RR”,
“RS”, “SC”
[25] “SE”,
“SP”, “TO”
[1] 800,
3000, 700, 800, 550 ((640+460)/2), 600, 590, 540
[9] 620, 690,
700, 420, 560, 610, 610, 610,
[17] 580,
510, 455 ((480+430)/2), 650, 490, 490, 410, 480
[25] 520, 520
((460+580)/2), 590
Note que apenas as
escolas cujos estados se repetem sofreram alteração no valor do
resultado, pois foi calculada a média de alunos para o mesmo estado.
Nos casos em que a a sigla estado tinha apenas uma ocorrência, o
valor resultante foi igual ao do vetor original.
A função tapply ()
é usada para aplicar uma função, neste caso a média – mean(),
para cada grupo de componentes do primeiro argumento (quantidade de
alunos), definidos pelos níveis do segundo componente (estados das
escolas), como se fossem estruturas vetoriais separadas. O resultado
é uma estrutura do mesmo comprimento que o atributo de níveis do
fator que contém os resultados.
Como exercício,
você pode imaginar outros usos da função tapply() para analisar
dados dos alunos de escolas. Experimente acrescentar novas colunas ao
data frame com informações como a região de cada estado, e obtenha
um resumo consolidado da quantidade de alunos por região do país.
A função tapply ()
também pode ser usada para lidar com indexação mais complicada de
um vetor por várias categorias. Por exemplo, talvez desejemos
dividir os alunos tanto pelo estado como pelo sexo. No entanto, neste
exemplo simples (apenas um fator), o que acontece pode ser pensado da
seguinte maneira. Os valores no vetor são coletados em grupos de
acordo com cada fator, ou seja, grupos de alunos por estado e por
sexo são considerados para os cálculos. A função é então
aplicada a cada um desses grupos individualmente. O valor é um vetor
de resultados de função, rotulado pelos níveis de cada fator.
A combinação de um
vetor e um fator de rotulagem é um exemplo do que às vezes é
chamado de uma matriz irregular, uma vez que os tamanhos da subclasse
são possivelmente irregulares. Quando os tamanhos da subclasse são
todos iguais, a indexação pode ser feita de forma implícita e
muito mais eficiente.

Fatores
ordenados

Os níveis de
fatores são armazenados em ordem alfabética, ou na ordem em que
foram especificados como fatores se fossem especificados
explicitamente.
Às vezes, os níveis
terão uma ordem natural que queremos gravar e queremos que nossa
análise estatística faça uso. A função ord() cria esses
fatores ordenados, mas é idêntica ao fator. Para a maioria dos
propósitos, a única diferença entre os fatores ordenados e não
ordenados é que os primeiros são impressos mostrando a ordenação
dos níveis, mas os contrastes gerados para eles na montagem de
modelos lineares são diferentes.

Conclusão

E então, interessante mais esse recurso da linguagem R, não é mesmo?
São tantos facilitadores que a cada dia nos surpreendemos com maneiras mais simples de realizar operações que a princípio envolveriam uma certa compexidade.
Que tal mostrar que você entendeu o conceito de fatores e colocar nos comentários o código que faz a análise dos alunos por região do país? Você consegue!


Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 3 (Entendendo e Manipulando Objetos)

@page { margin: 2cm }
p { margin-bottom: 0.25cm; border: none; padding: 0cm; line-height: 115%; text-align: left; page-break-inside: auto; orphans: 2; widows: 2; page-break-after: auto }
a:link { so-language: zxx }

Programação em R - Aprenda Analtics, Big Data & Ciência de Dados

Confira todos os textos da série Programação em R:

Objetos,
seus modos e atributos

As entidades que R opera são
tecnicamente conhecidas como objetos. Os exemplos são vetores de
valores numéricos (reais) ou complexos, vetores de valores lógicos
e vetores de cadeias de caracteres. São conhecidas como estruturas
“atômicas”, pois seus componentes são todos do mesmo
tipo, ou modo, chamados de numérico, complexo, lógico,
caractere.
Os vetores devem ter seus valores todos
do mesmo tipo
. Assim, qualquer vetor dado deve ser
inequivocamente lógico, numérico, complexo, caractere. (A única exceção aparente a esta regra é o “valor”
especial listado como NA para quantidades não disponíveis).
Observe que um vetor pode estar
vazio e ainda possuir um tipo. Por exemplo, o vetor de string de
caracteres vazio é listado como caractere (0) e o vetor numérico
vazio como numérico (0).
R também opera em objetos chamados de
listas, que são sequências
de objetos que individualmente podem ser de qualquer tipo. As listas
são conhecidas como estruturas “recursivas” e não
atômicas, pois seus elementos podem ser listas.
As outras estruturas recursivas são as
de função e expressões. As funções são os objetos que
fazem parte do sistema R, juntamente com funções escritas do
usuário.
As expressões como objetos formam uma parte avançada do R.
Pelo tipo de um objeto, queremos dizer
o tipo básico de seus constituintes fundamentais. Este é um caso
especial de uma “propriedade” de um objeto. Outra
propriedade de cada objeto é seu tamanho. As funções type() e length() podem ser usadas ​​para
descobrir o tipo e o tamanho de qualquer estrutura definida.
R permite mudanças de tipo quase em
qualquer lugar. Por exemplo, com a operação
> z

poderíamos colocar
> digitos

após o qual os digitos vão ser o
vetor de caracteres c(“0”, “1”, “2”,
…, “9”). Uma coerção adicional, ou mudança de tipo,
reconstrói novamente o vetor numérico:
> d

Agora d e z são iguais. Existe uma
grande coleção de funções para coerção de um tipo para outro. É altamente recomendado se familiarizar com estas funções.

Alterar o tamanho de um
objeto

Um objeto “vazio” ainda pode
ter um tipo. Por exemplo
> e

faz de e uma estrutura vetorial
vazia de tipo numérico. Do mesmo modo, usar a função character () cria um
vetor de caracteres vazio, e assim por diante. Uma vez que um objeto
de qualquer tamanho é criado, novos elementos podem ser
adicionados a ele simplesmente dando-lhe um valor de índice fora do
seu alcance anterior. Assim, a operação
> e [3]

faz de e um vetor de
tamanho 3, (os dois primeiros elementos têm valor NA). Isso se aplica a qualquer estrutura, desde que o tipo do(s)
elemento(s) adicional(is) concordem com o tipo do objeto em primeiro
lugar.
Este ajuste automático dos
tamanhos de um objeto é usado frequentemente, por exemplo, na
função scan() para entrada.
Por outro lado, para truncar o tamanho
de um objeto, é necessário apenas uma tarefa para fazê-lo.
Portanto, se alfa for um objeto de tamanho 10, então
> alpha

torna um objeto de tamanho 5
consistindo apenas nos elementos anteriores com índice igual. (Os
índices antigos não são retidos, é claro.) Podemos então reter
apenas os três primeiros valores por
> length(alfa)

e os vetores podem ser estendidos da mesma maneira.

Obtendo e definindo atributos

A função attr(objeto, nome) pode ser
usada para selecionar um atributo específico. Essas funções
raramente são usadas, exceto em circunstâncias bastante especiais
quando algum novo atributo está sendo criado para algum propósito
específico, por exemplo, associar uma data de criação ou um
operador com um objeto R. O conceito, no entanto, é muito
importante.
Alguns cuidados devem ser tomados ao
atribuir ou excluir atributos, uma vez que eles são parte integrante
do sistema de objeto usado em R.
Quando é usado no lado esquerdo de uma
tarefa, ele pode ser usado para associar um novo atributo ao objeto
ou para mudar um existente. Por exemplo
> attr(z, “dim”)

permite que R trate z como se fosse uma
matriz de 10 por 10.

A classe de um objeto

Todos os objetos em R têm uma classe,
relatada pela classe de função. Para vetores simples, é apenas seu tipo, por exemplo “numérico”, “lógico”,
“caractere”
ou “lista”, e “matriz”, “fator” e “data.frame”
são outros valores possíveis.
Um atributo especial conhecido como a
classe do objeto é usado para permitir um estilo orientado ao objeto
de programação em R. Por exemplo, se um objeto tiver classe
“data.frame”, ele será impresso de uma certa maneira, o
gráfico irá exibi-lo graficamente de uma certa maneira, e as
outras chamadas funções genéricas como o summary() reagirão a ele
como um argumento de uma maneira sensível à sua classe.
Para remover temporariamente os efeitos
da classe, use a função unclass(). Por exemplo, se x tiver
a classe “data.frame”, então
> x
irá imprimi-lo em forma de tabela, que é como uma matriz, enquanto que
> unclass (x)
irá imprimi-lo como uma lista comum.
Somente em situações especiais você precisa usar esta facilidade,
mas é quando você está aprendendo a aceitar a idéia de funções
de classe e genéricos.
As funções genéricas e as classes
serão discutidas mais adiante na orientação do Objeto, mas apenas
brevemente.

Conclusão

Estes conceitos relativos aos tipos de objetos utilizados em R são uma das coisas mais interessantes da linguagem, pois ao escolher o tipo de objeto que vai trabalhar na sua aplicação (data frames, por exemplo, são extremamente úteis!) você determina uma séria de facilidades que vai ter ao manipular os dados através desses objetos.
Estas facilidades vão desde poder utilizar operadores como + e * para simplificar manipulações nos dados, até o uso de funções como as utilíssimas str() e summary() que descrevem a estrutura e fornecem um “resumo” dos dados do objeto, e são sensíveis ao tipo, ou seja, vão apresentar, automaticamente, as informações no formato mais adequado e legível.
É ou não é uma linguagem incrível esse tal de R?

Ficou com alguma dúvida?
Tem interesse em treinamentos em R?

Programação em R – Parte 1 (Introdução)

Introdução

Comentei aqui recentemente sobre meu projeto de análise do mercado de criptomoedas, e um dos principais motivadores para embarcar no desenvolvimento desse projeto foi o conjunto de recursos fantásticos que a linguagem R fornece e que facilitam, mesmo para um programador limitado como eu, o desenvolvimento de coisas bem interessantes.
Por isso, resolvi compartilhar com você, através de uma série especial, as coisas mais legais que tenho aprendido sobre essa linguagem incrível.
R é um conjunto integrado de software para manipulação de dados, cálculos e exibição gráfica. Entre outras coisas, o R possui: 
  • mecanismo eficaz de manipulação e armazenamento de dados, 
  • conjunto de operadores para cálculos 
  • conjunto amplo e integrado de ferramentas intermediárias para análise de dados,
  • pacotes gráficos para análise de dados e exibição diretamente no computador ou impressão em vários formatos,
  • linguagem de programação bem desenvolvida, simples e efetiva que inclui condicionais, loops, funções recursivas definidas pelo usuário e operações de entrada e saída.

O R é um sistema totalmente planejado e coerente, ao invés de um conjunto “solto” de ferramentas específicas e inflexíveis, como é frequentemente o caso de outros softwares de análise de dados.
R é como um veículo para novos métodos de análise de dados interativos. Desenvolveu-se rapidamente, e foi ampliado por uma grande coleção de pacotes. No entanto, a maioria dos programas escritos em R são essencialmente efêmeros, escritos para uma única análise de dados.

Software e documentação

R pode ser considerado uma implementação da linguagem S que foi desenvolvida nos Laboratórios Bell por Rick Becker, John Chambers e Allan Wilks.
Há agora uma série de livros que descrevem como usar R para análise de dados e estatísticas, e a documentação para S geralmente pode ser usada com R, mantendo as diferenças entre as implementações S em mente.
Além dos livros, as ferramentas “nativas” da linguagem R são muito úteis para aprender e há até tutoriais interativos dentro do próprio Rstudio, onde você pode ver demonstrações e exemplos de código, facilitando e acelerando o aprendizado.

Além disso, há uma abundância de material gratuito disponível na web, e é possível encontrar exemplos de praticamente qualquer funcionalidade que precise no stackoverflow.

R e Estatística

Muitas pessoas usam R como um sistema de estatísticas. É um ambiente no qual muitas técnicas estatísticas clássicas e modernas foram implementadas. Algumas destas são incorporadas ao ambiente base R, mas muitas são fornecidas como pacotes. Existem cerca de 25 pacotes fornecidos no R (chamados pacotes “padrão” e “recomendado”) e muitos outros estão disponíveis através da família de sites da CRAN (através de https://cran.r-project.org) e em outros lugares.
A maioria das estatísticas clássicas e grande parte das metodologias mais recentes está disponível para uso com R, mas os usuários talvez precisem estar preparados para enfrentar um pouco de trabalho para encontrar alguns dos recursos.
Existe uma diferença importante na filosofia do R (herdada da linguagem S) e dos outros principais sistemas estatísticos. Em R, uma análise estatística é normalmente feita como uma série de etapas, com resultados intermediários sendo armazenados em objetos. Assim, enquanto o SAS e o SPSS darão uma saída abundante de uma análise de regressão ou outros métodos, R dará um resultado “resumido” e armazenará os detalhes em um objeto apto para posterior consulta através de outras funções do R.

Usando R de forma interativa

Quando você usa o programa R, ele emite um prompt enquanto espera comandos de entrada. O prompt padrão é  ‘>’, que no Linux pode ser o mesmo que o prompt do shell e, portanto, pode parecer que nada está acontecendo. No entanto, como veremos, é fácil mudar para um prompt R diferente, se você desejar.
Ao usar R em Linux, o procedimento sugerido para a primeira vez é o seguinte:
    1. Crie um subdiretório separado, digamos, trabalho, para armazenar arquivos de dados nos quais você usará R para esse problema. Este será o diretório de trabalho sempre que você usar R para esse problema específico.
                                                $ mkdir work
                                                $ cd work
      2. Inicie o programa R com o comando
                                                $ R
      3. Neste ponto, os comandos R podem ser emitidos (veja mais adiante).
      4. Para sair do programa R, o comando é
                                                > q ()
Neste ponto, você será perguntado se deseja salvar os dados da sua sessão R. Em alguns sistemas, isso abrirá uma caixa de diálogo e, em outros, você receberá um prompt de texto no qual você pode responder sim, não ou cancelar (uma abreviatura de uma só letra) para salvar os dados antes de sair, sair sem salvar, ou voltar para a sessão R. Os dados que são salvos estarão disponíveis em futuras sessões R.
As próximas sessões R serão mais simples.
    1. Crie o trabalho no diretório de trabalho e inicie o programa como antes:
                         $ cd work
                         $ R
      2. Use o programa R, terminando com o comando q () no final da sua sessão.
Para usar R no Windows, o procedimento é basicamente o mesmo. Crie uma pasta como o diretório de trabalho e defina-a no campo Iniciar em no seu atalho R. Em seguida, inicie o R clicando duas vezes nesse ícone.

Mas, vamos ser sinceros, somente alguns poucos loucos (como eu!) gostam de trabalhar na linha de comando, não é mesmo?

O meio mais fácil e produtivo de trabalhar com R é usando uma IDE adequada e, para nossa sorte, o Rstudio tem um conjunto excelente de recursos e facilita enormemente o desenvolvimento de aplicações, pacotes e scripts de todo tipo usando todo o poder do R.

Obtendo ajuda com funções e recursos

R possui uma facilidade de ajuda incorporada. Para obter mais informações sobre qualquer função específica, o comando é:
     > help(solve)

Uma alternativa é
      >?solve
Para um recurso especificado por caracteres especiais, o argumento deve ser incluído em citações duplas ou simples, tornando-se uma “seqüência de caracteres”: isso também é necessário para algumas palavras com significado sintático incluindo if, for e function.
      > help(“[[“]
Na maioria das instalações R, a ajuda está disponível no formato HTML.
      > help.start()
O comando acima iniciará um navegador que permite que as páginas de ajuda sejam pesquisadas com links. O link ‘Search Engine” e as palavras-chave na página carregada por help.start() são coisas particularmente úteis, pois contém uma lista de conceitos de alto nível que procuram por funções disponíveis. Pode ser uma ótima maneira de se orientar rapidamente e entender a amplitude que o R tem para oferecer.
O comando help.search (alternativamente ??) permite procurar ajuda de várias maneiras. Por exemplo,
       > ??solve
Experimente help.search para obter detalhes e mais exemplos.
Os exemplos em um tópico de ajuda normalmente podem ser executados por
      > example(tópico)

Comandos R, sensibilidade a maiúsculas e minúsculas, etc.

Tecnicamente R é uma linguagem de expressão com uma sintaxe muito simples. É sensível a maiúsculas e minúsculas, portanto A e a são símbolos diferentes e se referem a diferentes variáveis. O conjunto de símbolos que pode ser usado nos nomes R depende do sistema operacional e do país dentro do qual R está sendo executado (tecnicamente, na localidade configurada). Normalmente, todos os símbolos alfanuméricos são permitidos (e, em alguns países, isso inclui letras acentuadas) mais ‘.’ e ‘_’, com a restrição de que um nome deve começar com ‘.’ Ou uma letra, e se ele começar com ‘.’ o segundo caractere não pode ser um dígito. Os nomes são efetivamente ilimitados.
Os comandos elementares consistem em expressões ou atribuições. Se uma expressão é dada como um comando, ela é avaliada, impressa (a menos que seja especificamente invisível) e o valor é perdido. Uma atribuição também avalia uma expressão e passa o valor para uma variável, mas o resultado não é impresso automaticamente.
Os comandos são separados por um ponto e vírgula (‘;’), ou por uma nova linha. Os comandos elementares podem ser agrupados em uma expressão composta por chaves (‘{‘ e ‘}’). Os comentários podem ser colocados quase em qualquer lugar, começando com uma “cerca” (‘#’), tudo no final da linha é um comentário.
Se um comando não estiver completo no final de uma linha, R vai gerar um prompt diferente, por padrão, até que o comando seja sintaticamente completo. Este aviso pode ser alterado pelo usuário. Em geral, omitiremos o prompt de continuação e indicamos a continuação por recuo simples. As linhas de comando inseridas no console são limitadas a cerca de 4095 bytes (não caracteres).

Recuperar e corrigir comandos anteriores

R fornece um mecanismo para recuperar e executar os comandos anteriores. As teclas de setas verticais no teclado podem ser usadas para rolar para a frente e para trás através de um histórico de comandos. Uma vez que um comando é localizado dessa maneira, o cursor pode ser movido dentro do comando usando as teclas de setas horizontais, e os caracteres podem ser removidos ou adicionados.

Executando comandos ou desviando saída para um arquivo

Se os comandos estiverem armazenados em um arquivo externo, digamos, comandos.R no diretório de trabalho, eles podem ser executados a qualquer momento em uma sessão R com o comando
      > source (“commands.R”)
Para o Windows Source também está disponível no menu Arquivo. A função sink,
      > sink(“record.lis”)
irá desviar todo o resultado subseqüente do console para um arquivo externo, record.lis. O comando
      > sink()
restaura a saída para o console novamente.

Permanência de dados e remoção de objetos

As entidades que R cria e manipula são conhecidas como objetos. Estas podem ser variáveis, arrays de números, cadeias de caracteres, funções ou estruturas mais gerais construídas a partir desses componentes.
Durante uma sessão R, os objetos são criados e armazenados pelo nome (discutiremos este processo na próxima sessão). O comando R
      > objects()
(alternativamente, 1s()) pode ser usado para exibir os nomes da (maioria) dos objetos atualmente armazenados em R. A coleção de objetos atualmente armazenados é chamada de espaço de trabalho.
Para remover objetos, a função rm está disponível:
      > rm (x, y, z, altura, peso)
Todos os objetos criados durante uma sessão R podem ser armazenados permanentemente em um arquivo para serem usados em sessões futuras de R. No final de cada sessão R, você tem a oportunidade de salvar todos os objetos atualmente disponíveis. Se você indicar que deseja fazer isso, os objetos são gravados em um arquivo chamado .RData no diretório atual, e as linhas de comando usadas na sessão são salvas em um arquivo chamado .Rhistory.
Quando R é iniciado posteriormente no mesmo diretório, ele recarrega o espaço de trabalho desse arquivo. Ao mesmo tempo, o histórico de comandos associado é recarregado.
Recomenda-se que você use diretórios de trabalho separados para análises realizadas com R. É bastante comum que objetos com nomes x e y sejam criados durante uma análise. Nomes como este geralmente são significativos no contexto de uma única análise, mas pode ser bem difícil decidir o que eles são quando várias análises são realizadas no mesmo diretório.

Conclusão

E aí? Se interessou em saber mais?
Esta é apenas uma pequena amostra inicial das possibilidades dessa linguagem incrível, por isso recomendo que fique atento ao seu email (caso já tenha se cadastrado) ou se cadastre agora mesmo aqui abaixo pra não perder nada do que vem por aí.
Você nem imagina como é fácil (relativamente 🙂 fazer coisas muito legais com R.

Ficou com alguma dúvida?
Tem interesse em treinamentos em R?