Tendências Big Data

[Entrevista] Software Livre: Como ter Sucesso e Viajar o Mundo (50+ dicas pra usar o Open Source a seu favor!)

Tecnologia que Interessa Entrevista

 

Tenho acompanhado há algum tempo congressos online, webinars e outros eventos online sobre tendências tecnológica, especialmente Big Data.
E num desses eventos, o TDC, assisti uma palestra sobre Big Data do Bruno “Javaman” com participação do Otávio Santana. Quando o Otávio começou a falar, lembrei dos emails da lista Java Bahia, que acompanho há muitos anos e onde o Otávio divulga regularmente eventos interessantes para a comunidade de TI do nosso estado.
Pensei então que não poderia perder a oportunidade de entrevistar um profissional baiano que estava alcançando o sucesso, como forma de estimular a comunidade de TI daqui e mostrar um possível caminho pra conquistar seus objetivos, ao invés de apenas lamentar os inúmeros problemas que enfrentamos na região.
Então vamos ao que interessa!
Confira como a trajetória do Otávio pode te inspirar e ajudar a encontrar um caminho pra superar as dificuldades do mercado local.
Otávio Santana é especialista Java e considero ele um exemplo para os profissionais da região, você já vai entender porque.
A entrevista foi feita via Hangouts, quando o Otávio estava num evento em Madrid palestrando sobre Big Data (nada mal hein? Ele até me mostrou a vista do local onde estava – fantástica!).
Sem mais enrolação, vamos à entrevista em si.

Como você começou no mundo Java? Foi uma escolha, foi por inércia, o que te motivou?

Otávio – “Eu tinha uma vontade louca de aprender a programar, e o Java pareceu uma escolha bacana, pelas pessoas envolvidas (inclusive na Bahia, como o Serge do JavaBahia) e, principalmente, pela farta documentação em comparação com outras comunidades (C, C++, etc). O Java me escolheu, com seu suporte e sua comunidade ativa.”
“O profissional de TI não deve subestimar a importância de ter acesso e estudar o código fonte dos softwares complexos de hoje.”

Vale a pena estudar Java?

Otávio – “Java está ainda mais forte hoje. Na apresentação feita na Espanha, falei sobre ferramentas para Big Data como Cassandra (projeto que contribuo, e que é feito em Java), num ambiente que usava a tecnologia de containers Docker.”

Java é lento?

Otávio – “Há estudos que mostram que Java pode ser bem mais rápido que C e C++. O problema é que as pessoas não escolhem a linguagem da forma correta, ou seja, de acordo com o tipo de aplicação que a linguagem se adequa melhor.”

Quais tecnologias você acha que o profissional deve estudar hoje?

Otávio – “Eu diria que as principais são Cloud, Containers, NoSQL, Big Data e a ciência da busca de Informação (relevância).”

Como é a experiência de contribuir com um projeto de software livre? Como isso afetou a sua carreira?

Otávio – “É uma experiência super válida, não somente pelos aspectos técnicos, mas pela necessidade de desenvolver outras habilidades, como networking, inglês, escrita de artigos, apresentações em eventos.
Sem falar das oportunidades que surgem em grandes empresas, a depender do projeto que você esteja envolvido. Há ainda a oportunidade de estudar códigos de alguns dos melhores profissionais do mundo.
Importante lembrar que aprender a programar é meio como aprender música, precisa praticar, e praticar com os maiores especialistas do mundo é muito legal.”

Qual a sua experiência e impressão sobre eventos online como o TDC?

Otávio – “O cara de TI sem inglês é um excluído. Inglês é a linguagem oficial, e no mundo online isso fica muito claro. Facilita a comunicação, participação em eventos em todo o mundo, facilita o contado com palestrantes internacionais, enfim. É uma tendência que veio pra ficar, e estamos preparando eventos online (além do TDC) fora do Brasil, como o Code for Life.”

Que conselho você dá pra profissionais de TI, sejam desenvolvedores ou de infra, em relação aos conhecimentos exigidos pelo mercado?

Otávio – “Primeira coisa é gostar muito da área, porque muita gente se frustra por achar que basta concluir a faculdade pra obter o emprego dos sonhos, e isso não é verdade. Por isso é importante gostar muito da área, pra ter motivação pra estudar sempre, lidar com as mudanças frequentes do mercado.
Além disso, tem que ter inglês, pois as coisas nascem em inglês, e o profissional pioneiro é mais valorizado, então o inglês permite o acesso mais cedo às novas tecnologias.
E falando em pioneirismo, software open source é um ótimo caminho pela facilidade de obter informações detalhadas e, principalmente, acesso ao código. É importante também escrever código e artigos, até pra ser “achado” na web, seja pelo seu código publicado ou pelos seus artigos.
Pra devs, é importante ser poliglota, e principalmente saber quando não usar uma determinada tecnologia (SQL, NoSQL, e mesmo Java).
Pro cara de infra, é importante conhecer as plataformas de cloud como Amazon e Azure, Containers como Docker, conceito de DevOps, e ser um especialista-generalista, tendo uma noção básica de tudo que está ao seu redor, mas se aprofundar em alguma coisa.
Assim como um dev frontend deve conhecer um pouco do backend, o mesmo vale para o profissional de infra.”

Conclusão

Eu fico muito feliz quando tenho a oportunidade de trazer informações que possam acrescentar não apenas tecnicamente, mas também motivar as pessoas a tomarem as atitudes certas.
E acredito muito que as colocações que o Otávio fez apresentam claramente um caminho pra superar o desafio que é o mercado de TI na Bahia.
Por isso, sugiro que você arregace as mangas comece a agir. AGORA!
Eu resumiria tudo que o Otávio falou numa única atitude: COMPARTILHE!
Não perca mais tempo. Identifique um projeto de software livre do seu interesse, seja o Docker, o Cassandra ou qualquer outro, estude e, principalmente, compartilhe publicamente o que aprender, pois assim fica muito mais fácil ser localizado.
 
E lembre-se que você não precisa de um blog pra isso, pode compartilhar nas redes sociais mesmo, grupos do Facebook e LinkedIn, Whatsapp, Twitter, etc.
O importante é que você seja lembrado, e a melhor forma de garantir isso é tendo uma atitude mais ativa, ou seja, mostrando o que você sabe para o maior número de pessoas possível.
E se precisar de ajuda pra identificar projetos interessantes de acordo com o seu perfil, basta deixar um comentário aqui que te ajudo a encontrar o software livre ideal.
 
Então é isso, espero que você se sinta tão motivado quanto eu com a entrevista do Otávio.
Sucesso a todos!

Qual é o melhor software de código aberto para gerenciamento de conhecimento?

1: Acho que o usuário está certo quanto ao Evernote (produto). É um ótimo gerenciador de informações pessoais. No entanto, acho que a resposta completa é que não existe um bom software de código aberto para gerenciamento de conhecimento pessoal, porque não existe software para gerenciamento de conhecimento pessoal. O gerenciamento de conhecimento é um exercício de desenvolvimento, compartilhamento e curadoria do conhecimento. Eu uso o Evernote em conjunto com o Pinboard e o Instapaper (e também com os diários das árvores mortas) para organizar minha própria coleção de informações e dados, mas quando se trata do meu conhecimento, isso se baseia em como eu entendo esses fatos e dados. Para entender por que esse ponto é relevante, pense em dois exemplos: uma colméia de abelhas e uma equipe de pessoas trabalhando em um projeto complexo para uma empresa. As abelhas são incrivelmente estúpidas (Snookie na costa de Jersey (série de TV) é mais inteligente que uma abelha), mas através de um processo de compartilhamento de informações que os indivíduos coletaram e avaliando avaliações simples, a colméia como um todo obtém conhecimento sobre o melhor local para sua próxima abelha. local de nidificação. Todos os indivíduos do projeto acima mencionado adquiriram muito conhecimento sobre seus aspectos do projeto. No entanto, eles não sabem muito sobre o outro. Eles não podem ganhar com o conhecimento dos membros de sua equipe e aplicá-lo ao que estão fazendo, e estão em uma situação real se esse membro da equipe sair. Portanto, as ferramentas (e os métodos) de gerenciamento de conhecimento são úteis para resolver esse problema. Como indivíduo, utilizo recursos adicionais para me lembrar das coisas e de seu contexto, mas, no nível pessoal e individual, não temos um problema conceitual de gerenciamento de conhecimento. 2 O gerenciamento de conhecimento tornou-se um vasto segmento por si só, incluindo aplicativos pessoais e profissionais.Portanto, se você está procurando uma ferramenta de base de conhecimento para uso pessoal, muitos bons nomes são sugeridos aqui e eu encontrei outro link afirmando algumas boas nomes para gerenciamento pessoal de conhecimento download grátisOutra lista oferece o arquivo Knowledge Management Archives – Free Softwares Directory dividido em categorias de uso.Além disso, existem muitas soluções avançadas de gerenciamento de conhecimento disponíveis para uso profissional. Trabalhei com uma empresa que oferece uma dessas ferramentas, a KnowMax, que ajuda as empresas de telecomunicações a melhorar a qualidade de seus serviços de suporte. Isso é feito pela entrega das informações necessárias ao usuário / agente de suporte no momento desejado. Muitas outras soluções estão disponíveis assim e oferecem aplicações diferentes, como algumas que podem ser usadas em empresas e outras em um segmento da indústria diferente. Portanto, você deve escolher sua solução com base no que precisa. 3 Olá, confira aqui alguns softwares de código aberto famosos disponíveis para gerenciamento de conhecimento e seus recursos abaixo.DocumizeOpenKMPhpMyFAQDocumize: O Documize visa principalmente o gerenciamento interno de conhecimento. Isso foi criado com base em um modelo de código aberto, incentivando os usuários a contribuir com solicitações de recursos para o Documize. A idéia é que o Documize construa o produto de acordo com as necessidades do cliente sem exigir integrações caras. Ele usa uma combinação interessante de código-fonte aberto e modelos proprietários. O Documize vai um passo além do software wiki, permitindo que os usuários centralizem seus documentos internos e os compartilhem com terceiros. O que o Documize não faz é permitir que você crie uma base de conhecimento de produto com aparência profissional.PHPMyFAQ: phpMyFAQ é mais como um verdadeiro produto de base de conhecimento que se destina a hospedar conteúdo de ajuda voltado para o cliente. A equipe por trás disso parece trabalhar muito no software, e existe desde 2001. Aqui está um link para seu repositório no GitHub. O software possui perguntas frequentes, categorias, usuários e grupos ilimitados. Também inclui mais de 40 idiomas para acomodar audiências multilíngues. Foi publicado sob a Mozilla Public License 2.0. Isso significa que você garantiu o uso gratuito do phpMyFAQ, o acesso ao código-fonte e o direito de modificar e distribuir o phpMyFAQ.Para o phpMyFAQ, você ainda precisará fornecer seu próprio banco de dados para usar com o software da base de conhecimento. Como o nome sugere, está escrito em PHP e, como você pode esperar, não há suporte disponível da equipe além dos fóruns ou do twitter.OpenKM: OpenKM está disponível no diretório SourceForge, o banco de dados de software de código aberto e classificado como 4.5 estrelas de 5.OpenKM é mais uma solução de Gerenciamento de conhecimento, o que significa que, se você está procurando um conhecimento voltado para o cliente, nesse caso, o OpenKM pode não ser o ideal para você. Você normalmente o usa para hospedar arquivos internamente, como PDFs e MS Word. O OpenKM permite que você publique no fórum, a menos que você pague pelo suporte.entre a Community Edition e a Professional Edition e, se você quiser descobrir os preços, deverá entrar em contato com a equipe deles. Se você deseja suporte ao cliente, precisará pagar por um plano. Você não poderá acessar todos os recursos do OpenKM usando o Community Edition gratuito. OpenKM codificado em Java. Aqui está um link para o repositório no GitHub e sua base de conhecimento de suporte. Embora o software de código aberto tenha muitas vantagens, às vezes não é adequado para você por sua maneira de usabilidade e flexibilidade, etc. Normalmente, o software de código aberto não promove melhor Experiência do usuário em comparação com a qualidade das soluções SaaS. Pode ser mais relevante para os desenvolvedores do que para as empresas de SaaS. Você precisa alocar os recursos internos para instalar, manter e desenvolver sua base de conhecimento de código aberto. Você pode absolutamente evitar esse tipo de problema com o software de base de conhecimento baseado em SaaS.Em consideração, sugiro fortemente que o Document360 seja o melhor software de base de conhecimento baseado em SaaS para suas necessidades. Seus recursos explícitos permitem que você tenha um conhecimento super-rápido plataforma básica.Ele não requer nenhum processo de desenvolvimento e você pode personalizá-lo como quiser.Ele foi projetado de tal maneira que qualquer pessoa poderia usar e você não precisa ser especialista em tecnologia.Leia o blog Software de base de conhecimento de código aberto em comparação com a solução SaaS para entender ainda melhor.Obrigado!

Como os desenvolvedores de código aberto (individuais) ganham dinheiro?

1
Falando sobre seus projetos em entrevistas de emprego. Os projetos de código aberto podem não ser remunerados, mas isso não significa que os desenvolvedores não sejam bem remunerados. Contribuir para uma biblioteca de aprendizado de máquina de código aberto (por exemplo) prova para os empregadores que você tem conhecimento de aprendizado de máquina (que é algo que a maioria das pessoas demonstraria obtendo um doutorado ou mestrado ou um emprego anterior como engenheiro de aprendizado de máquina). A melhor parte é que você pode falar livremente sobre tudo o que fez, pois nada disso é proprietário.

2
Por vários meios. Alguns fazem isso em seu tempo livre e têm um trabalho diário mais ou menos independente. Alguns trabalham como consultores em áreas nas quais o software para o qual estão contribuindo é relevante. Alguns fornecem suporte e treinamento para software de sistema operacional, independentemente ou não. empregado por uma empresa que faz isso. Alguns são empregados por empresas ou outras instituições que dependem ou que lucram com o software. Alguns são empregados diretamente pela empresa ou instituição que desenvolve o programa. Nem todo o OSS é desenvolvido por pequenos grupos de desenvolvedores independentes. IBM, SUN, Red Hat, lembre-se …

3
Algumas maneiras: Trabalhe para uma empresa que oferece suporte ao código aberto. Muitas vezes, trabalhar nesse código é seu trabalho e você é pago pela empresa. Ocasionalmente, alguém o contratará como contratado para fazer alterações nos projetos de código aberto que eles precisam para um problema específico. Eles podem ou não se importar se as alterações foram confirmadas na linha principal, mas você ainda é pago. Se você sabe que é um committer, pode ser considerado um especialista no projeto e pode obter trabalhos de consultoria, ou até mesmo compromissos de palestras pagas, etc., se você é bom nisso e é amplamente usado.

Quais são os melhores programas de OCR de código aberto?

1
Não usei nenhum desses, mas aqui está uma lista parcial dos meus favoritos: http: //code.google.com/p/tessera…http: //mjtokelly.blogspot.com/20…http: //code.google.com/p/ocropus/

2
Eu fiz muitas pesquisas sobre ferramentas de OCR e aqui está a minha resposta: Free MODRG (KeepMicrosoft Document Imaging) do OCRGoogle e HP da HP (MODI) (assumindo que a maioria de nós estaria com um sistema operacional Windows) Microsoft One NoteMicrosoft Oxford Project API (Esta API é gratuita até algum tempo) FreeOCR (Isso é baseado no mecanismo Tesseract novamente) Python (pytesseract 0.1.6) Há muito mais, mas essas são as melhores e todas, se você estiver procurando por precisão, o Microsoft Document Imaging faz um trabalho melhor. E se você estiver procurando por conversão de ocr de texto escrito à mão, o Google Keep mantém um trabalho melhor.Produtos comerciaisAdobe Acrobat Pro (formato de arquivo RTF fornece o melhor resultado) CaptivaAbbyyInformatica OCR Plugin (baseado no Abbyy novamente) Se a precisão é apenas sua principal restrição, existe algo como Acesso a dados sem precedentes no seu serviço (captricidade), que possui 99% de precisão, pois aglomera as pessoas de origem e as faz converter textos escritos à mão sem comprometer a segurança.

3
Se você quiser algumas opções da área de trabalho, aqui estão três recomendações: tesseract-ocrOneNote OCRPDF Comunidade OCR XSe desejar opções baseadas na Web, veja a lista: google ocrOn-line OCRINVESTINTECH OCR online grátis

O que exatamente é um software de código aberto?

1
Software de código aberto é algo que você pode modificar de acordo com suas necessidades, compartilhar com outras pessoas sem qualquer ônus de violação de licença. Quando dizemos código aberto, o código fonte do software está disponível publicamente com licenças de código aberto como GNU (GPL), que permite editar código-fonte e distribua-o. Leia estas licenças e você perceberá que essas licenças são criadas para nos ajudar. A motivação para criar esses softwares é criar algo que será útil para os usuários. Quando dizemos que o código-fonte aberto é gratuito, a palavra livre não é anexada ao fator de custo. O software de código aberto pode ser pago, mas o código-fonte deve ser anexado a ele. Também uma das principais fontes de renda para esses softwares é o serviço. Ao criar esses softwares, você sempre pode cobrar por serviços. A filosofia simples do OSS é que quando compramos um veículo, é possível modificá-lo, trocar suas peças sem o consentimento do fabricante (porém, ao custo da garantia do produto), mas no mundo do software isso não era possível devido às diretrizes estritas dos EULAs, geralmente não lemos. OSS traz conceito que nos ajuda a usar o mesmo software que compramos outras coisas.

A Microsoft fará o Windows de código aberto?

1
Tornar o código-fonte aberto do Windows não teria nenhum efeito prático além da política. É muito grande e muito complicado porque é o produto de trinta anos de desenvolvimento confuso por compromissos, correções de emergência, mudanças de direção, experimentos fracassados, hacks de compatibilidade e falhas de documentação. A Borland tentou abrir o Firebird de código aberto e enquanto as pessoas adoravam a idéia, ninguém poderia fazer qualquer coisa com ele, porque tinha os problemas acima em menor escala.

Java ainda é uma linguagem de código aberto?

1
Em 2006, a Sun lançou grande parte do Java como software livre e de código aberto (FOSS), sob os termos da GNU General Public License (GPL). Em 2007, a Sun terminou o processo, disponibilizando todo o código principal do Java sob termos de distribuição de software livre / código-fonte aberto, além de uma pequena parte do código ao qual a Sun não possuía os direitos autorais.OpenJDK (Open Java Development Kit) é gratuito e implementação de código aberto da linguagem de programação Java. É o resultado de um esforço iniciado pela Sun Microsystems em 2006. A implementação é licenciada sob a GNU GPL (GNU General Public License), com uma exceção de vinculação.

2
Em 13 de novembro de 2006, a Sun lançou grande parte do Java como software livre e de código aberto, sob os termos da GNU General Public License (GPL). Em 8 de maio de 2007, a Sun concluiu o processo, disponibilizando todo o código principal do Java sob termos de distribuição de software livre / código aberto, além de uma pequena parte do código ao qual a Sun não possuía os direitos autorais. ) é uma implementação gratuita e de código aberto da linguagem de programação Java. É o resultado de um esforço iniciado pela Sun Microsystems em 2006. A implementação é licenciada sob a GNU GPL (GNU General Public License), com uma exceção de vinculação.

3
Sim, é de código aberto

Qual é a melhor solução de código aberto para implementar o preenchimento automático rápido?

1
Quando desenvolvíamos o Quora antes do lançamento, examinei as opções e decidi pelo Sphinx. Ele suporta correspondência de prefixo. Mais tarde, o abandonamos e seguimos com o nosso próprio sistema, porque era difícil manter o índice Sphinx atualizado em tempo real (ele foi realmente projetado para indexar documentos por palavra-chave, não por caracteres curtos por prefixo) e queríamos ter mais controle sobre os algoritmos usados.

2
A biblioteca de código aberto LingPipe oferece funcionalidade de preenchimento automático. É baseado em: (1) um modelo de linguagem, (2) uma pesquisa *, (3) uma árvore de prefixos. Uma coisa interessante é que ele pode corrigir erros em sequências de prefixos, como neste exemplo de preenchimento automático do Google: http : //bit.ly/cVbTJY.

3
Em uma nota relacionada: um dos meus professores, Chen Li, tem uma startup BiMaple especializada em um pacote comercial de preenchimento automático rápido. Não é de código aberto, mas você pode ler sobre isso neste artigo http://www.ics.uci.edu/chenli/p…Demos:http://bimaple.com/booksearch/ http: //ipubmed.ics .uci.edu /

Quais são algumas alternativas de código aberto ao Dropbox?

1
Um projeto recente de código aberto, o Seafile, pode ser exatamente o que você deseja. Implementa um algoritmo de sincronização automática do zero, que é competitivo com o Dropbox. Ao contrário de projetos anteriores, como o SparkleShare, ele não depende do Git. Portanto, ele não tem a sobrecarga de salvar dados duas vezes dentro do Git. Além da sincronização de arquivos, o Seafile também permite criar e ingressar em grupos e fornece muitos recursos úteis de colaboração on-line.O código está no Github: https://github.com/haiwen/seafile

2
Há também o iFolder e o ownCloud, que podem ser hospedados no seu próprio computador. O ownCloud também possui um serviço que fornece 100mb de espaço livre, se você não quiser hospedá-lo.iFolder http://www.ifolder.com/ifolderownCloud http: //owncloud.org/index.php/Ma … Há outro software chamado SparkleShare, mas ele ainda não possui nenhum lançamento.

3
O Dropbox Pro vale totalmente o preço. Percorremos o trajeto gratuito o máximo possível e realizamos nossos próprios negócios, dependendo de nossos arquivos serem sincronizados em todos os nossos computadores o tempo todo, de maneira confiável e segura. Também pagamos um extra de US $ 30 por ano pelo histórico ilimitado de desfazer. Peço desculpas por não ter respondido à pergunta.

O que são bons pacotes de aprendizado profundo de código aberto?

1
Eu votaria no Theano por causa da velocidade com que você pode começar a implementar provas de conceitos e mostrar resultados. Isso é ativado pela capacidade do Theano de calcular automaticamente a derivada e suporta expressões simbólicas de variáveis. Além disso, a integração com o kit de ferramentas Cuda e a GPU é muito fácil se você já conhece o Python. Ele não tem essa curva de aprendizado íngreme como Caffee ou Torch. Theano é frequentemente usado muito por P&D e pela academia para a criação rápida de protótipos.

2
Os melhores são tocha, theano e TensorFlow. O último ainda é jovem e tem um longo caminho a percorrer, mas é empolgante porque introduz interfaces do tipo sk-learn para aprendizado profundo. Dito isto, essas bibliotecas ajudam a modelar bem redes profundas, não a interagir com a web. O apelo deles (os dois primeiros) vem do fato de que essas bibliotecas têm funções e módulos gerais o suficiente para que você possa definir qualquer rede neural profunda que lhe vier à mente!

3
O Theano é um pacote muito bom e é a base para muitas bibliotecas de nível superior, como pyLearn2, Blocks, Keras, Lasagne e OpenDeep, para destacar algumas. (mais estão listados aqui: bibliotecas criadas no Theano).

Como alguém começa a entender uma grande base de código-fonte aberto?

1
Ao abordar uma grande base de código, geralmente uso uma abordagem combinada de subsistemas principais / mergulho profundo. Etapa 1: Entendendo os principais subsistemas O primeiro estágio para entender qualquer parte do software é entender os principais subsistemas. Geralmente, você pode ver a hierarquia de diretórios do código-fonte como um guia. Por exemplo, aqui está um navegador de código-fonte para linux: http://lxr.free-electrons.com/ Então, podemos ver a partir disso que existem alguns subsistemas, como drivers, criptografia, kernel, mm, net, fs, ipc. O estágio um é entender o que eles fazem, p. mm é gerenciamento de memória – a maneira como as páginas são alocadas, como a troca funciona etc. fs são sistemas de arquivos, ipc – comunicações entre processos. Você pode ter que ir um pouco mais além do nível superior. Por exemplo, você pode precisar procurar no kernel para ver quais são as subpartes do kernel. Da mesma forma, se você olhar para o JDK, encontrará algumas partes diferentes: você precisa entender o que são essas partes: o analisador, a máquina virtual, as bibliotecas principais, o JNI, os drivers para coisas como gráficos etc. Etapa 2: Mergulho profundoNota: Só deve ser tentada após a compreensão dos principais subsistemas. Normalmente, quando você está lendo o código-fonte, é por uma razão: você deseja fazer uma modificação, para entender um componente específico. Para que você possa rastrear o funcionamento desse componente específico. Como alternativa, se você não tem um componente específico em mente, escolha alguns exemplos de atividades: para o kernel do linux, você pode estar interessado em: como você inicia um processo? Então, você deve procurar por onde começar, que é a chamada exec () em unistd.h (http: //lxr.free-electrons.com/so …). É aqui que tudo fica interessante – na toca do coelho, você vai. É nesse momento que você precisa entender os sistemas de construção, makefiles etc. para entender como chegamos a essa ligação, até o fio desencapado. Um pouco mais de mergulho leva você ao kernel / fork.c (http: //lxr.free-electrons.com/so …). Um pouco mais de mergulho leva você ao método do_fork (http: //lxr.free-electrons.com/so …), que faz coisas como clonar o espaço da memória e passar os parâmetros. Então você entra nessa função e entende que são várias macros, e o próximo método principal é o copy_process (http: //lxr.free-electrons.com/so …). Repita até chegar ao metal puro, com as especificidades de um chip em particular. Você entendeu a ideia. Repita isso algumas vezes para outras tarefas (o que acontece quando uma chamada ipc é feita? O que realmente significa abrir () e ler () um arquivo? O que acontece quando eu chamo malloc ()?) E você começa a receber um sinta-se a vontade para o sistema de compilação, as suposições incorporadas às coisas, os padrões de codificação, os layouts etc. Essas duas etapas devem pelo menos ajudar você a começar.

Quais são alguns bons projetos de código aberto no Python para contribuir e começar a aprender Python?

1
Dê uma olhada nos projetos que foram criados no OpenHatch (http://openhatch.org/) – esses são os projetos que fazem um esforço para receber os recém-chegados e ajudá-los a começar. Você pode encontrar projetos no Python (mais precisamente, bugs com os quais começar a contribuir para esses projetos) com esta pesquisa do OpenHatch: http: //openhatch.org/search/? tou … Ambas as sugestões de Jon (Django e (C) Python em si) estão no OpenHatch, e muitos de outros também.

E se o Windows se tornasse código aberto?

1
Isso nunca vai acontecer. A Microsoft nunca permitirá que seu principal produto seja licenciado sob a GNU General Public License, versão 3, acima ou versão 2, aqui (qual é a diferença entre GPLv2 e GPLv3?). Por que? Money.Microsoft ganha muito dinheiro com Windows e M $ Office. O que eu acho que vai acontecer é que o Windows seguirá o mesmo caminho que o Mac OSX. Steve Jobs, provavelmente um dos golpes de mestre verdadeiramente geniais da arena dos computadores, colocou sua própria versão de “fermentação caseira” do BSD (mas veja aqui: Mitos – FreeBSD Wiki). Isso tornou um sistema operacional já extremamente estável, robusto e bastante seguro. Satya Nadella, a CEO da Microsoft é muito mais inteligente do que Steve Ballmer. Ballmer, o CEO que sucedeu Bill Gates, chamou o Linux de câncer (Ballmer: “Linux é um câncer”). Agora, aparentemente, Ballmer mudou de idéia, fez uma curva de 180 graus e agora diz: Ballmer: Eu posso ter chamado o Linux de câncer, mas agora eu adoro | ZDNet. E para lhe dar o devido crédito (ele não é estúpido; longe disso. Ele não é tão inteligente quanto Nadella, IMHO). Ele supervisionou a conversão de código aberto do .NET (“seria errado acreditar que o código aberto da Microsoft só começou com Nadella. Um exemplo é o código aberto do .Net, que começou três anos antes da nomeação de Nadella. Então, basicamente, acho que o grande empurrão para mover todos no Windows 7, 8 ou 8.1 para o Windows 10, a nova atualização de aniversário, a instalação do shell do Ubuntu BASH – com a Canonical, a inimiga da Microsoft em uma vida anterior , ajudando nesse esforço. A Nadella “Linuxizará” o Windows, ou seja, colocará o Linux (a parte do kernel do GNU / Linux, nome próprio do Linux) como o kernel do Windows. Agora, se você está se perguntando como a Microsoft fará isso, meu palpite é que eles desmonolizarão / desmembrarão o Windows do kernel, licenciarão * apenas * o kernel e o farão sob a GPL 3.0, mantendo o restante do Windows sob seus EULAs, portanto, problema resolvido. Atualização / Edição, Adicionado em 22-02-2019: Wim ten Brink adicionou o seguinte comentário (editado por questões de brevidade): “… A Microsoft está lançando o Windows Core usando sua própria licença, que não possui nenhuma restrição da GPL. A Microsoft está criando versões de código aberto do Windows, mas está certificando-se de que a GPL não seja compatível com ele. ”Portanto, Wim está sugerindo que o novo Windows Core OS seja de código aberto, mas da mesma forma que a Apple Corp. SO de código aberto que apenas os técnicos da Microsoft serão capazes de alterar, embora o aspecto de código aberto permita que muitas pessoas apontem falhas e bugs, sem que a Microsoft precise confiar inteiramente na equipe da Microsoft e em seu pequeno grupo de testadores beta para identificar falhas / bugs. Pode colocar o Linux como o kernel – e despejar o kernel do NT – muito atrás? Quem sabe, mas eles certamente estão se movendo, ainda que lenta e elipticamente, nessa direção. Obrigado pela A2A

2
Será pior. Haverá distribuições de aspirantes a aparecer por todo o lado com idéias de olhos estrelados de criar suas próprias janelas melhores. Ter acesso a código-fonte oferece vantagens – em uma situação em que você encontra um problema incompreensível, você tem a chance de resolvê-lo por conta própria, em vez de esperar pelo suporte técnico para resolver o problema. não se beneficie dessa chance.

3
A Oracle (empresa) criaria e venderia uma versão da marca Oracle para clientes corporativos, da mesma forma que faz com o Red Hat Enterprise Linux.

Quais são as melhores soluções de código aberto para comércio eletrônico?

1
Boas notícias para você hoje: existe um artigo completo chamado “12 melhores plataformas de código aberto para a sua empresa” dedicado à sua pergunta. Ele mostra algumas das principais plataformas que você pode escolher para o seu negócio de comércio eletrônico. Ele oferece informações úteis em plataformas como: WooCommerceMagentoOpenCartPrestaShoposCommerceSpree CommerceZen CartJigoShopDrupal CommerceVirtueMart3D MartZeusCartNão há plataforma de código aberto “tamanho único”. Mas depois de ler o artigo, você pode decidir qual plataforma se adapta melhor às suas necessidades!

2
O Spurt Commerce é uma solução de comércio eletrônico de código aberto criada no NodeJS e AngularJS. A solução vem com o código fonte completo e você pode personalizar a solução conforme sua necessidade. Tendo construído com o NodeJS, a solução pode tornar seu aplicativo da Web mais rápido e com o AngularJS, a solução pode fazer com que o aplicativo da Web tenha um front end incrível com uma boa interface do usuário / interface do usuário.O Spurt Commerce está lançando em breve sua versão 2.0, que é uma versão da comunidade e é gratuito para download. Para mais detalhes sobre a solução, você pode visitar www.spurtcommerce.com.

Quais são as vantagens dos produtos de código aberto?

1
Você obtém os erros localizados e corrigidos mais rapidamente. E você também pode obter recursos de aprimoramento adicionados e testados mais rapidamente. Essa é a hipótese de muitos olhos. Esse foi um dos principais motivos pelos quais os grupos de usuários foram iniciados e pelas primeiras listas de email e grupos de notícias. É por isso que a lista de discussão do assistente para unix foi iniciada. Na verdade, ela cria um software melhor e mais barato. Não necessariamente gratuito (como em “cerveja”), mas com menos restrições. Os algoritmos podem melhorar. E certamente ouvi todos os argumentos a favor e contra e, neste momento, os argumentos contra são fracos.

Existe um construtor de sites de código aberto?

1
Há http://www.basekit.com/. Eles oferecem sua plataforma como serviço, e sites como http://www.hostgator.com/, http://sitejam.com/ e outros estão usando. Eu acho que você pode entrar em contato com eles e ver seus preços. A plataforma deles fica assim:

2
Experimente o GrapeJs, que é gratuito e de código aberto.Link para a página do GrapeJS Github, com mais de 7 mil estrelas e 42 colaboradores, é um forte concorrente nesse domínio. Eu não tenho nenhuma relação com isso. 🙂

Por que o Google criou o Android de código aberto?

1
Joel Spolsky respondeu a essa pergunta em 2002. Ele disse que as empresas inteligentes tentam comoditizar os complementos de seus produtos porque a demanda por um produto aumenta quando o preço de seus complementos diminui. Consulte http: //www.joelonsoftware.com/ar … O principal produto do Google é o Adwords e seus complementos são tudo o que faz uma pessoa ficar on-line e clicar nesses Adwords. Ao tornar o Android (Gmail, Google Docs, Calendário, Youtube etc.) gratuito, o Google aumenta a proposta de valor de seu produto Adwords.

2
O Google percebeu que o celular era o futuro do consumo de informações e, como eles ganham todo o dinheiro com o anúncio on-line, a criação de um sistema operacional móvel foi a maneira perfeita de bloquear um enorme fluxo de usuários de pesquisa para os quais eles podem exibir seus anúncios e expandir seus negócios. . Como a receita não está na venda do sistema operacional, é por isso que eles o tornaram Open Source

3
Olá leitores, pergunta interessante. Deixe-me responder: primeiro de tudo, o Android é baseado no kernel do Linux e é de código aberto; portanto, o Google usa todos os componentes da plataforma Linux para criar versões do Android, tornando o Android de código aberto. O segundo aspecto é a popularidade do Google, nem mesmo o Android. , O Google está oferecendo tantos serviços quanto gratuitos. Muitos deles estamos usando nossas atividades diárias. Portanto, não há surpresa sobre o sistema operacional Android ser de código aberto de propriedade do Google.

Existem sistemas de reconhecimento facial de código aberto?

1
Sim, existe um, eu pessoalmente tentei negociar acordos com eles, eles são profissionais com seus serviços. você pode obter os preços por atacado do sistema de reconhecimento facial. Se precisar de mais ajuda, não hesite em perguntar nos comentários.

2
Sim, existem muitos softwares de reconhecimento de rosto de código aberto disponíveis.OpenBRFlandmarkOpenFace TrackerOpenEBTSBioenable Tech – iFaceFacePlusDeepFaceVeja aqui as melhores APIs de reconhecimento de rosto aqui

3
Confira o OpenBR | Casa para um sistema completo de reconhecimento de rosto!

Qual é o melhor sistema operacional de código aberto?

1
Tudo se baseia na sua necessidade. Se você deseja usá-lo em nível pessoal, as versões do Ubuntu são melhores, você pode baixar o código do curso e personalizá-lo de acordo com suas necessidades. Outras são as versões que dependem do seu trabalho. O KALI LINUX é um cluster de todas as ferramentas de hackers e testes de penetração.Existem várias versões como Fedora, RHEL, etc.Eu recomendo que você aprenda o idioma que melhor se adequa à sua empresa de sonho .Feliz por ajudar!!

2
Procurando o melhor sistema operacional de código aberto? Sim, que legal, Antes de compartilhar a resposta desta pergunta, eu gostaria de fazer uma pergunta aqui – por que você conhece o melhor SO de código aberto? Você está ficando entediado com o Windows OS? Se a resposta desta pergunta for sim, então aqui discutiremos aqui, em algum momento precisamos mudar – tente o mesmo que eu – tentei novos sistemas operacionais como o Windowsmy, a experiência foi incrível que eu quero compartilhar com você agora – veja abaixo o Linux. Chrome OS.FreeBSDFreeDOSillumosReactOSHaikuMorphOSEspero que estas coisas o ajudem

3
Comparação de sistemas operacionais de código aberto – Wikipedia

Qual é o software de código aberto mais útil?

1
Linux.Uso como meu sistema operacional. Além disso, tenho todos os softwares de código aberto instalados. É exatamente isso que contribui com a comunidade e o código-fonte é digitalizado por mais olhos. Você tem muito menos chances de obter bugs.Vírus de computador e outros programas maliciosos têm muito pouca chance de entrar. Portanto, todo o conceito de softwares antivírus chega ao fim. Além disso, os softwares antivírus consomem grande parte do poder de processamento. Então, agora você obtém melhor desempenho do seu mesmo sistema. Eu usei o Windows XP, Vista, 7 e MacOS.

2
De longe, o Gparted. Como um cara que gosta de mexer com computadores, às vezes não quero lidar com o incômodo de configurar um novo MBR, fazer uma nova configuração de partição que deve ser tão perfeita que acabo escrevendo números no papel porque estou em uma CLI. Além da automação de tarefas. Posso mover e redimensionar partições sem ter que ficar perto do meu computador e apenas pegar uma xícara de café enquanto espero. E a melhor parte é que eu nem preciso ter um sistema operacional instalado no meu disco interno para usá-lo. Posso inicializar a partir de um CD ou USB com ele e trabalhar em minhas partições.

3
A maioria das organizações usa servidores linux, por mais que você esteja assistindo a este post, você está usando o linux. O próprio Quora usa servidores linux. O Android é baseado no linux; os submarinos são projetados principalmente com máquinas de ordenha de vaca linux; Você está procurando por linux

Qual é a diferença entre software livre e código aberto?

1
Código aberto – você obtém um código que você pode criar, modificar e redistribuir. No entanto, você também precisa distribuir suas modificações no código fonte para o mundo. Freeware – Você não recebe o código fonte. Você só pode usar este software gratuitamente. Você não obtém o código fonte e, portanto, não pode modificá-lo.

2
Não há essencialmente nenhuma diferença no software – como uma questão de definição, os termos “software de código aberto” e “software livre” significam a mesma coisa. Isso inclui a grande maioria do software distribuído com um sistema GNU / Linux típico (por exemplo, RHEL , Ubuntu, Debian, SLES), distribuídos sob a Licença Pública Geral GNU e Licença Pública Geral Menor, a licença MIT, várias versões da licença BSD, a Licença Pública Mozilla ou doadas ao domínio público. Todas essas licenças se qualificam como código aberto e software livre. A “Definição de Código Aberto” da Iniciativa Código Aberto vem das “Diretrizes do Software Livre Debian”, com as partes específicas do Debian removidas; ambas as definições foram escritas pelo mesmo cara (Bruce Perens), que buscou e recebeu a aprovação da Free Software Foundation, que também patrocinou o início do Debian e tem sua própria e similar “Free Software Definition”. Todas as três “definições” descrevem essencialmente o mesmo conjunto de licenças de software: [Definição de Software Livre (1986)] http://www.gnu.org/philosophy/fr…[Debian Free Software Guidelines (1997)] http://www.debian.org /social_con…[Open Source Definition (1998)] http://www.opensource.org/osd.htmlNo entanto, a ênfase das pessoas que falam sobre software livre (o “movimento do software livre”) é diferente de pessoas e empresas que enfatizam “código aberto”. O “movimento” do software livre geralmente se preocupa com a “liberdade” como algo valioso por si só e por seus benefícios na construção da comunidade e no progresso da sociedade. Por outro lado, o “código aberto” foi cunhado quase para não ser um “movimento”. . As empresas que fabricam e vendem serviços em torno de software de código aberto (incluindo Red Hat, IBM, Novell, Oracle) enfatizam seus benefícios práticos, liberdade do aprisionamento de fornecedores e economia financeira.

3
Software Opensource significa que o código desse software está disponível em algum repositório, provavelmente no GitHub. Dependendo da licença do software de código aberto, você pode usar esse código para uso pessoal e comercial. Para um código gratuito, não está disponível, mas o software em si é gratuito. Projetos de código-fonte aberto provavelmente são gratuitos para usuários pessoais e comerciais.

Quais são os melhores projetos de código aberto para estudar a tecnologia blockchain em termos de simplicidade?

1

Pergunta original: Blockchain: Quais são os melhores projetos de código aberto para estudar a tecnologia blockchain em termos de simplicidade? Eu estudaria Bitcoin, Ripple e Ethereum. Entenda como cada um funciona e você estará em uma boa posição.

2
Aqui estão alguns sites que você deve considerar verificar regularmente. # 1 CoinDeskEsta é uma das principais novas fontes para entusiastas de bitcoin. Na verdade, é a maior plataforma de mídia bitcoin do mundo. O site está repleto de relatórios e ferramentas que detalham as tendências e padrões em criptomoeda. Recomendo que você verifique os relatórios na página de pesquisa. # 2 CoinTelegraphEste site está repleto de notícias diárias e opiniões de especialistas. Embora o site possa não ter tanto material sobre negociação quando comparado ao Bitcoin News, sua força está no recurso de formato longo. Quando você visita o site, verifique as opiniões de especialistas sobre obras de arte digital que mostram o Sísifo empurrando pedregulhos na encosta e comunicações de bate-papo criptografadas. # 3 Bitcoin NewsThis é sem dúvida o maior recurso para todas as coisas que usam bitcoin. As seções de notícias cobrem as últimas informações dos melhores escritores do setor de fintech. Além disso, o site está repleto de inúmeras ferramentas que ajudam os investidores a tomar decisões informadas. O que eu gosto na conveniência de encontrar tudo o que você precisa na mesma plataforma. # 4 CryptoClarifiedCryptoClarified is é um site mais novo e ainda está crescendo, por isso você pode não obter tanta informação quanto alguns dos maiores players, mas o conteúdo é ótimo e está crescendo rápido. O CryptoClarified oferece cobertura imparcial de várias criptomoedas (uma das poucas nesta lista que não está tentando vender nada ou promover moedas / ICOs específicas) Algumas das criptomoedas destacadas e sob as moedas do radar fizeram execuções significativas, geralmente logo após serem CriptoClarificado evita política e concentra-se em investimentos, estratégias de negociação e moedas subvalorizadas. A adição do lendário ex-comerciante Wall St. Hedge Fund @altcoinadvisory e os colaboradores a serem anunciados em breve tornam este novato um favorito! # 5 Cryptocurrency NewsCryptocurrency News (CCN) oferece notícias de última hora, análises, gráficos de preços e muito mais sobre as criptomoedas mais populares. O CryptoCurrencyNews é a principal fonte de notícias relevantes e diretas sobre criptomoedas. Mantenha-se atualizado sobre o espaço e tome decisões fundamentadas, combinadas com análises técnicas, para se manter atualizado neste espaço de investimento em constante mudança. O CryptoCurrencyNews oferece lojas relevantes em tempo hábil e, sem dúvida, é um dos 10 principais meios de comunicação de criptografia carregados de talento, o Cryptocurrency News possui uma coleção de alguns dos autores mais brilhantes e melhores no espaço de criptomoedas e blockchain.

3
Existe um projeto Blockchain de código aberto chamado Hyperledger Fabric que é muito fácil de configurar em seu laptop, usando docker ou vagrant para começar a aprender e codificar. O Fabric vem com todo o código-fonte, incluindo o código do protocolo, para você começar. Aqui estão os recursos para você começar: No IBM Blockchain 101: Um guia de iniciação rápida mostrará como configurar a rede blockchain (no seu laptop) onde é possível desenvolver, testar e implementar seu chaincode blockchain. mostrará como executar rapidamente uma rede blockchain Fabric em um ambiente de nuvem seguro para brincar.

Quais são alguns dos melhores aplicativos Android de código aberto?

1 Os sites a seguir possuem diretórios de aplicativos Android de código aberto, alguns ordenados por popularidade e alguns mostrando alternativas de código aberto para aplicativos populares: Droid-Break https://fossdroid.com/ Repositório de aplicativos Android gratuito e de código aberto armazenamento temporário para hospedagem de projetos do Google Code. Aplicativos Android de código aberto Lista de aplicativos móveis de código aberto – Resposta MobileGap Número 2 Existe todo um repositório exclusivo do FOSS (Software Livre, Código Aberto) em: http: //f-droid.org/Outra grande coleção é: AOpenSource. com Android Open SourceWikipedia também possui uma lista: Lista de aplicativos Android de código abertoOpenIntents (Meu favorito pessoal): http: //www.openintents.org/en/do…Sample applications: apps-for-android – Aplicativos de exemplo para o Plataforma Android – Google Project HostingO popular cliente last.fm: lastfm-androidMensagens SMS criptografadas por Moxie Marlinspike (que trabalhou anteriormente na NSA): TextSecure (agora substituído por: https: //whispersystems.org/blog / …) K -9 Mail, o popular cliente de e-mail: k9mail – O K-9 Mail é um cliente de e-mail avançado para Android – Google Project HostingPrateleiras, gerenciamento de ebook: shelves – Shelves é um aplicativo de gerenciamento de livros pessoais para Android – Google Project Hosting aplicativos de código aberto: h untergdavis (huntergdavis) · GitHubO Google Code possui muitos aplicativos Android de código aberto: Google Project HostingOs aplicativos padrão incluídos no pacote: repositórios Git para Android (veja / platform / packages / apps) The Api Demos, uma demonstração da criação de aplicativos a partir do Android oficial documentação: http: //developer.android.com/gui…XDA-Developers – tópico longo sobre aplicativos de código-fonte aberto: [Tudo-em-um] Lista de todos os aplicativos Android de código-fonte aberto Número de resposta 3 Caros amigos, desculpe pelo resposta tardia, deixe-me apresentar a você um excelente aplicativo Malayalam Image Editor feito por algumas malayalies. Eles são a mesma equipe de desenvolvedores Android da Thrissur, a saber, ‘Four Big Brothers’, que desenvolveu o aplicativo WhatsTools no ano passado e recebeu grande atenção da mídia. Este é um aplicativo completo de edição de imagens para nós. Usando este aplicativo, podemos criar saudações sazonais, imagens promocionais, trolls, comentários de fotos e assim por diante. Ele também vem com muitas fontes em malaiala e em inglês que você pode usar para escrever em qualquer imagem do telefone. Quando você começa a criar um trabalho a partir deste aplicativo, pode iniciar em três opções: 1) Escolha layouts em branco, que inclui um layout vazio, layout vazio com 2 imagens e layout vazio com 2 imagens e 2 textos.2) Escolha Modelo. Isso conterá exemplos de trabalhos (como um arquivo psd) que você pode editar e criar rapidamente imagens bonitas. Você receberá atualizações sazonais dinamicamente nesta seção para ocasiões como vishu, eid, onam, Natal… 3) Escolha uma imagem recente. Isso abrirá a imagem no editor, você pode adicionar mais camadas, cortar ou adicionar efeitos à imagem.No editor, quando você adiciona texto, imagem, ícones ou clipes, todos eles são adicionados como uma camada à imagem . Você pode adicionar quantas camadas precisar e pode redimensionar, arrastar, reorganizar e fazer outros materiais de acordo com o seu desejo de criar uma imagem impressionante a partir deste aplicativo.Existem muitas categorias em clipes, plano de fundo e modelos, que você A camada de texto, você pode usar as 10 fontes em inglês e 10 em malaiala incluídas no pacote, alterar suas propriedades como cor, fonte, tamanho da fonte, sublinhado, toque, traço (Fino e espesso) e alinhamento de texto. transparência, rotação, rotação 3d e cor de plano de fundo de todos os tipos de camadas adicionadas ao editor.Também permite escolher imagens, quantas desejar, no dispositivo, na interface de adição de imagens, onde é possível classificar por imagens recentes ou ver imagens de acordo com os nomes das pastas. Outro recurso interessante é a opção de procurar imagens populares no aplicativo usando o botão da Internet. O usuário pode procurar imagens usando parâmetros como o nome do filme ou o nome do ator para recuperar imagens populares de filmes ou políticas. A opção Adicionar ícone possui vários ícones agrupados que podem ser adicionados como uma camada. Você também pode alterar o tamanho e a cor do ícone. O quadro e as categorias de plano de fundo serão sempre atualizados dinamicamente. Você terá uma lista de categorias populares nessas seções. Depois que o usuário terminar de adicionar e editar sua camada, ele poderá usar o botão Salvar na parte inferior para mesclar todas as camadas e exportá-las como uma única imagem para o cartão SD. Depois disso, ele / ela pode compartilhar a imagem através de aplicativos populares como WhatsApp / Facebook … A imagem criada também estará disponível na galeria. O uso tem a opção de marcar a imagem criada como pública, onde ele pode escolher uma legenda e tags relacionadas e fazer upload para a guia de postagens públicas do aplicativo. Uma vez que a imagem compartilhada publicamente apareça no públicofeed de postagens, outros usuários podem marcar a imagem como favorita, semelhante à opção like no facebook, que salvará uma cópia da imagem no cartão SD dos usuários.A guia de postagens públicas também será filtrada de acordo com a preferência do usuárioO usuário pode filtrar por data para HOJE /WEEK/MONTH/ALL.Ele também pode escolher a opção de classificação MAIS RECENTES / FAVORITOS. PS:- Sou um dos co-desenvolvedores do Trollmaker.r

Quais são as melhores bibliotecas de código aberto disponíveis para iOS?

1
Chat: AppLozic / Applozic-iOS-SDK (Isenção de responsabilidade: sou da Applozic) Rede: AFNetworking / AFNetworkingText Input View: https://github.com/slackhq/Slack…MQTT: ckrey / MQTT-Client-FrameworkEncontre mais aqui : vsouza / awesome-ios

2
ASIHTTPRequele tudo relacionado a coisas da web.EGOTableViewPullRefresh Você o conhece do Tweetie 2.SFHFKeychainUtils Se você estiver trabalhando com senhas.GDataXML Me ajudou muito na análise de arquivos XML.

Por que as pessoas fazem software de código aberto?

1
O Software de Código Aberto pode atender a qualquer objetivo, objetivo, uso ou aplicativo e resolver qualquer problema computável. Uma explicação simplificada é que o objetivo do software de código fechado é ser vendido e ganhar dinheiro para seu fornecedor e pagar pelos salários do programadores e pagam impostos que o presidente precisa para tornar seu país ótimo novamente. O software de código aberto pode ser compartilhado por quem o compra e o utiliza. Ganha menos dinheiro para o proprietário no curto prazo, mas você recebe o código-fonte aberto de outras pessoas em troca.

Qual é o melhor software (código aberto / freeware) para detecção de plágio?

1
Existem muitos softwares por aí, mas apenas alguns gratuitos fazem o trabalho. Eu uso o verificador de plágio | Ferramentas de SEO gratuitas on-line para artigos e meu trabalho na faculdade. Qualquer software de plágio simplesmente usa seus dados e pesquisa no Google qualquer conteúdo duplicado. Você pode fazer isso sozinho no Google inserindo um conjunto de consulta ou parágrafo entre aspas. Por exemplo, “Primeira linha do meu artigo” e pesquise isso no Google. Se o Google corresponder a um conteúdo duplicado, ele mostrará os resultados. É melhor usar a automação fornecida acima, em vez do trabalho manual, pois economiza tempo.

2
Pesquisa de plágio de acesso aberto – Este serviço em um só pode ser integrado para fazer a verificação

3
O melhor software: De acordo com mim, existem muitas ferramentas de plágio disponíveis, vou me preparar para apenas uma ferramenta de detecção de plágio, porque essa é muito fácil de usar para todos.Verificador de plágio: sugiro que você escolha este verificador e este código-fonte aberto gratuito e o melhor software de plágio, você pode acessar facilmente com as ferramentas gratuitas de verificação de plágio, você pode pesquisar bilhões de conteúdos.

Quais são as alternativas de código aberto ao Moodle?

1
Parece que o OpenEdX pode chegar perto no curto prazo. Tudo começou como uma plataforma MOOC (EdX), mas agora eles estão descobrindo um novo modelo de negócios com a introdução (OpenEdX) – a plataforma por trás do EdX.

2
Colaboração e aprendizagem Sakai – para educadores por educatorsChamilo http://www.chamilo.org/Atutor ATutor Learning Management System: Informações: Kune kune.cc.LRN .LRN Página inicialSistema de gerenciamento de aprendizagem Claroline (LMS) Página ILIAS no WwwOLAT olat.orgOpenLMS Open Source e-Learning from Open ElmsGanesha Formação, aprendizado e condução de alteraçõesOpenMOOCA solução MOOC de código aberto totalmente abertoOpenEdXAbout OpenEdX | Stanford OnlineeFrontEnterprise Learning Management System SoftwareTelas por Instructureinstructure / canvas-lms

3
Com o Ilias, o Teachr LMS, o Dokeos, todos são os melhores e o LMS de código aberto. Junto com isso, no Teachr LMS (getteachr.com), encontrei alguns recursos fáceis e interessantes de criação de cursos, como sala de aula virtual baseada em eventos, reutilização vídeos do YouTube, avaliações e pesquisas e, além disso, a migração é um pouco mais fácil do que outros.

Quais são algumas alternativas promissoras de código aberto ao Hadoop MapReduce para mapear / reduzir?

1
O Hadoop2 possui “aplicativos” conectáveis, onde estruturas de computação alternativas podem ser conectadas ao YARN, HDFS e ao restante do “Hadoop” (também é possível conectar o HDFS). Alguns mestres populares de aplicativos são Spark, Flink. Eles também podem ser usados fora do ecossistema do Hadoop. Outras soluções geram redução de mapa sob o capô, mas permitem uma programação de nível superior: Pig, Tez, Cascading.

2
Acho que veremos algumas alternativas provenientes dos bancos de dados NoSQL. Por exemplo, o MongoDB possui uma estrutura de MR na qual você pode especificar as funções de mapeador e redutor em javascript, armazenando opcionalmente os resultados. Ótimo para trabalhos em lote, se você já estiver armazenando dados no Mongo. Provavelmente mais fácil de configurar do que um cluster Hadoop. Eu acredito que o CouchDB tem algo parecido? MR também está no roteiro de Cassandra, mas eles estão pensando em usar o Hadoop para isso, acredito.

3
Riak é um dos novos participantes mais interessantes. É “sem mestre”, pois seu primeiro nó faz tudo o que é necessário para operar, e os nós subsequentes adicionam automaticamente redundância e capacidade. Ele está escrito em erlang, que tem prós e contras, mas os recursos nativos do MapReduce e o modelo de armazenamento fazem com que seja um espetáculo.

Quais são algumas bibliotecas de código aberto que todo desenvolvedor de iOS deve conhecer? Podemos criar um wiki de respostas com esse esforço.

1
Estou surpreso que ninguém tenha mencionado o RestKit. A versão mais recente do RestKit é um pequeno invólucro interessante do AFNetworking (para comunicação em rede) e também fornece mapeamento de dados pela integração com o Core Data. Também uso frequentemente o MBProgressHUD para exibir os indicadores de progresso. Eu acho que é um substituto melhor do que qualquer outro spinner de código aberto por causa das mais variedades e opções com ele.

2
Cocoapods (Mãe de todas as bibliotecas, basicamente, um gerenciador de dependência do xcode) RestKit (Para trabalhar com APIs Rest) SDWebImage (Downloader de imagem assíncrono com suporte a cache) SSKeychain (Wrapper para funcionalidade de chaveiro do OS X e iOS) MagicalRecord (Uma maneira muito mais simples e melhor de implementar a funcionalidade CoreData) ShareKit (como o nome sugere compartilhar coisas em qualquer plataforma social)

Qual é o melhor software de código aberto?

1
Em termos de importância, o kernel Linux é o melhor e mais importante software de código aberto já criado. Ele mantém a maior parte da Internet funcionando e representa uma porcentagem muito alta de servidores, o que mantém a Internet funcionando e atende a bilhões de pessoas. Essa é a razão pela qual digo que o kernel do Linux é o melhor OSS.

2
Aqui estão alguns dos melhores softwares de código aberto (com aqueles pagos que podem ser substituídos por outros): 1. O Audacity é um editor de áudio digital e aplicativo de software de computador de gravação.Os principais recursos incluem a gravação de áudio de várias fontes, o pós-processamento de todos os tipos de áudio, incluindo podcasts, adicionando efeitos como normalização, corte e desbotamento. alternativa de código aberto para: Apple LogicPro, FL Studio Producer EditionSistema operacional suportado: Windows, OS X e Linux2. O CADBRL-CAD é um poderoso sistema de modelagem sólida de plataforma cruzada que inclui edição interativa de geometria, traçado de raios de alto desempenho para renderização e análise geométrica, um conjunto de benchmark de análise de desempenho do sistema, bibliotecas de geometria para desenvolvedores de aplicativos Substitui: AutoCAD (preço> 400 rúpias) SO suportado: Windows, OS X e Linux3. LibreOfficeCategory: Produtividade do OfficeLibreOffice oferece os mesmos tipos de software que seu antecessor, com alguns recursos e extensões adicionais. Existe um gráfico útil em seu site que o compara ao Microsoft Office. A melhor alternativa de código aberto para: Microsoft Office (US $ 71,88 por usuário por ano e acima) SO suportado: Windows, OS X e Linux4. PDFCreatorCategory: PDF ToolsPDFCreator cria um arquivo PDF a partir de qualquer aplicativo que possa imprimir. Também inclui os recursos de assinatura digital e criptografia, mas não possui alguns recursos de criação de formulários do Acrobat.A melhor alternativa de código aberto: Adobe Acrobat (US $ 381,65) SO suportado: WindowsAlguns outros softwares de código aberto são: Firefox – navegador de código abertoVLC – código aberto alternativa ao Windows Media PlayerGIMP – Alternativa de código aberto ao PhotoshopVirtualBox – Monitor de máquina virtual de código aberto (VMM) Navegador Tor – Pacote de anonimato de código abertoubuntuApache HTTP serverAndroidMySQLPython (Veja: Bem-vindo ao Python.org) Algumas informações adicionais: o que é software de código aberto? : refere-se a software que é desenvolvido, testado ou aprimorado por meio de colaboração pública e distribuído com a ideia de que deve ser compartilhado com outras pessoas, garantindo uma colaboração futura aberta. ”Ou simplesmente podemos liberar software de versão completa ou software para download gratuito. você deve escolher alternativas de código aberto? dar-lhe total liberdade sem termos e condições obscuros. o código está prontamente disponível para quem quiser, para que qualquer pessoa possa usá-lo, compartilhá-lo, modificá-lo de acordo com suas próprias necessidades e estudá-lo. Os principais sistemas operacionais e ferramentas pagos rastreiam seus usuários.Em alguns casos, eles oferecem recursos ou benefícios de desempenho que superam seus equivalentes comerciais.Finalmente, com boa relação custo-benefício – sem taxas ocultas, completamente grátis.Espero que ajudou … faça votos positivos se você gostou … Veja meu perfil para mais respostas: Keshav Kabra

3
O Odoo ERP é um dos softwares de código aberto amplamente utilizados. Os projetos modulares do Odoo são a interface amigável da loja de aplicativos para não desenvolvedores. Mesmo o usuário não é um programador ou desenvolvedor especializado ou não tem conhecimento de codificação. lidar com suas tarefas com facilidade.Odoo fornece instruções fáceis e rápidas sobre quais são as próximas etapas a serem seguidas. Funcionalidade de pesquisa no Odoo- Você pode pesquisar facilmente na tela, também pode criar uma pesquisa avançada conforme sua necessidade. Implementação de baixo custoOdoo é amigável à API e fácil de integrar com.ScalabilityEasier para atualizar o software.

Quais são algumas alternativas de código aberto ao Zapier?

1
Ainda não existem alternativas de código aberto com um número igual de tipos de conexão para o Zapier. De acordo com o AlternativeTo (http: //alternativeto.net/softwar …), o Bipio (https://bip.io/) é a única alternativa de código aberto. No entanto, também encontrei outras alternativas gratuitas, como IFFFT (https://ifttt.com/), e praticamente gratuitas, como elastic.io (http://www.elastic.io/), Cloudwork (https://cloudwork.com / planos), FoxWeave (https: //grandcentral.cloudbees.c …). Aqui está um bom blog sobre o assunto: Trazendo ETL para as massas com APIsEspero que isso ajude!

2
O StackStorm está sendo comparado ao IFTTT ou Zapier, mas de código aberto e para a empresa. Também descrito como operações orientadas a eventos. Tem a capacidade de ouvir eventos e executar ações. É de código aberto Apache. Diferentemente desses outros, inclui fluxo de trabalho, importante para vincular eventos com lógica condicional. O StackStorm pode começar ingerindo seus scripts. E / ou você pode usar integrações e padrões operacionais (OPS) existentes da comunidade em Community | StackStorm

3
O Zapier é ótimo quando você precisa dobrar e torcer os dados um pouco mais. Verifique o DSYNC. Você pode definir funções de regras. Você pode até conectar APIs que não estão no sistema DSYNC. Conectar vários sistemas. Então, aqui está um “termo” interessante que categoriza o estilo do IPAAS … chamado “Integração do cidadão”, onde cidadãos, em vez de engenheiros, podem implantar processos de fluxo de dados e automatizar funções. De nossa experiência, existe um número bastante grande de integradores de cidadãos por aí.

Existem gateways de API de código aberto?

1
Tyk – Gateway de API de código aberto, plataforma de gerenciamento de API, portal do desenvolvedor e análises – TykTyk é um gateway de API de código aberto e fornece uma plataforma de gerenciamento de API totalmente gratuita. A API Analytics, o Portal do desenvolvedor e o API Dashboard estão prontos para o uso e são apresentados no Gartner MQ.Usado pela Cisco, USA Today, AXA Insurance, Sky TV, Capital One e muitas outras empresas globais. , Plataforma de gerenciamento de API, portal do desenvolvedor e análise – Tyk ou acesse Github: TykTechnologies / tyk

2
Kong é o melhor gateway de API de código aberto. Com a documentação perfeita, é fácil fazer Kong ficar diante da API para segurança e limitação de taxa.Com a versão 0.14.x mais recente do Kong, eles descontinuaram o front end, disponível apenas para a edição empresarial. instalação aqui Guia de instalação do Kong API Gateway para iniciantes – Os plugins Turbolab TechnologiesFor Kong, como Autenticação e limitação de taxa, são explicados aqui “Plug-ins de autenticação chave e de limitação de taxa da Kong na API Flask”

3
O DreamFactory é completamente de código aberto e oferece uma excelente instalação de gerenciamento de API e gateway de API no local. A versão de código aberto tem uma enorme quantidade de valor – como MongoDB, conectores MySQL, armazenamento de arquivos etc. Também oferece APIs REST instantâneas em vez de precisar construí-los. Você pode criar scripts muito facilmente em Node.js, Python, V8.js e PHP. A plataforma em si é construída no Laravel do PHP e possui vários recursos. Aqui está o Github. Usamos a versão corporativa em nossa empresa depois de mudar da Mulesoft e tornou os ciclos de desenvolvimento significativamente mais fáceis. Mas a versão do OSS é obviamente gratuita e é a mesma coisa sem limitar, registrar ou tantos conectores.

Qual é a melhor estrutura CSS de código aberto?

1
Como claro pelo nome, o SASS (folha de estilo sintaticamente impressionante) é uma incrível estrutura CSS, principalmente devido aos seus recursos de aninhamento, GUMBY é uma estrutura CSS muito flexível e responsiva, que é alimentada pelo SASS.

2
Aqui está um artigo de 2008 com uma referência a 12 estruturas CSS diferentes: http: //speckyboy.com/2008/03/28 / …. Uma comparação mais detalhada pode ser encontrada em http://net.tutsplus.com/ tutorial …. Destas, eu já vi YUI, Blueprint e 960 na maioria dos sites, mas não estou qualificado para julgar os méritos de cada um.

3
Eu realmente gosto do Sint (Syntactically Awesome Style Sheets) por seus recursos de aninhamento e mixins, bem como por suas pequenas estruturas de extensão de terceiros como: Bourbon: uma biblioteca de mixins comuns, como animações, fonte, quadros-chave e transformação e Algumas variáveis de conveniência, como família de fontes: $ helvetica; Bourbon Neat: uma estrutura de grade semântica leve; Bourbon Bitters: estilos predefinidos para tipografia, listas e formulários criados para aumentar a velocidade e facilitar a mudança

Quais são as mais poderosas ferramentas de análise de sentimentos de código aberto?

1
A seguir, é apresentada uma lista de poucas ferramentas de análise de sentimento de código-fonte aberto. Tutorial: Início rápido) Localizador de opiniões (OpinionFinder | MPQA) Clips pattern.en (pattern.en | CLiPS) Dicionário ou recursos de código abertoSentiWordNetBing conjuntos de dados liu (mineração de opinião, análise de sentimentos, extração de opinião) (Recursos MPQA) Efeito Wordnet (domínios do WordNet)

2
Você pode usar o opennlp para tokenizar frases. Em seguida, jogue fora palavras de parada como (o, é) etc. tente combinar cada palavra com o dicionário de palavras + ve / -ve. Se a contagem positiva de palavras for maior que a contagem negativa, o sentimento será positivo e assim por diante. O dicionário depende do campo de estudo – jurídico, financeiro etc. Este é um exemplo muito simples de análise de sentimentos. A análise avançada de sentimentos pode usar a lematização e partes do discurso, etc. A análise de sentimentos não é uma ciência exata. Às vezes, você obtém respostas erradas do seu exercício.

3
Como utilizo a Análise de sentimentos para fins de negociação, usei o TwiPy e o TwitterAPI para análise de sentimentos. Não tenho certeza sobre os mais poderosos, mas estes foram imensamente úteis. Aprendi sobre eles no curso de Análise de Sentimentos de Quantra e tenho certeza de que será capaz de guiá-lo caso você tenha alguma dúvida, pois eles oferecem constantes Espero que isso ajude você. Muito bem sucedida!

O que significa na prática que Swift é open source?

1
O código aberto fomenta a inovação No mundo da programação, novas idéias, ferramentas e arquiteturas freqüentemente começam como código aberto. Linguagens inovadoras como JavaScript, PHP, Clojure e Haskell têm mecanismos de código aberto que atraem codificadores. O Node.js, por exemplo, trouxe JavaScript para o servidor, graças a mecanismos JavaScript de código aberto, como V8 e Rhino. Se você deseja compartilhar o espírito, o mecanismo mais simples é publicar o código livremente em um site de compartilhamento de código como o GitHub ou o Sourceforge e espalhá-lo o mais amplamente possível. Os desenvolvedores irão migrar para ele, expandindo seus recursos e alcançando

2
Sim, você pode compilar o Swift em qualquer plataforma, para começar com (no lançamento) as intenções da apple de oferecer suporte ao iOS, OSX e Linux. O código aberto inclui o compilador e a biblioteca padrão.

Existe alguma plataforma de gamificação / emblema de código aberto disponível?

1
Existe um mecanismo de gamificação de código aberto bastante legal em https: //github.com/ActiDoo/gamif …. Você pode definir regras para metas com recompensas e até cabeçalho em uma interface administrativa baseada na Web. Outras aplicações acessam a API via REST. É muito flexível, rápido e gratuito! Mesmo comercial (Licença MIT)! Se você precisar de suporte, é oferecida consultoria aqui: www.gamification-software.com.

2
O repositório público do github da Agora Games tem algum código interessante https://github.com/agoragames/, embora este não seja um PaaS. Eles também têm um sistema de classificação: https: //github.com/agoragames/le … (Ruby), https: //github.com/agoragames/py … (Python)

3
Sim! 🙂 Quero apresentar GetBadges – plataforma de gamificação para desenvolvedores de software. A versão completa gratuita para OpenSource está disponível para todos os repositórios públicos no GitHub.Esta plataforma também pode integrar seu Trello, Slack, Jenkins e muitos outros em um jogo semelhante ao RPG. os membros de sua equipe de TI avançam no desenvolvimento de um projeto, desenvolvem seu caráter de jogo, ganham pontos de experiência, distintivos, conquistas e lutam contra monstros.

Qual é o melhor rastreador da web de código aberto muito escalável e rápido? E porque?

1
Também existe o Scrapy (baseado em Python), que é mais rápido que o Mechanize, mas não tão escalável quanto o Nutch ou o Heritrix, o que significa que ele não deve ser usado para rastrear toda a Web, mas é bom rastrear muitos sites (mais de 5000) , mesmo enormes como a Amazon.Mais informações em: http://scrapy.org

2
Os dois mais conhecidos são Nutch e Hetrix (http://crawler.archive.org/). Eu usei o Nutch para alguns rastreamentos de pequena escala e funciona bastante bem.

3
O Python Scrapy é o melhor por aí, o rastreamento Scrapy é mais rápido do que qualquer outra plataforma, pois usa operações assíncronas (além do Twisted). O Scrapy tem suporte melhor e mais rápido para analisar (x) html em cima da libxml2. O Scrapy é uma estrutura madura com unicode completo, manipulação de redirecionamento, respostas compactadas com gzip, codificações ímpares, cache http integrado etc.

O que é uma alternativa de código aberto ao wit.ai?

1
Eu tenho procurado algo semelhante. Atualmente, pelo que entendi, não há opção de código aberto que faça o que a inteligência ou a API. ai do que é uma combinação de reconhecimento de padrões e aprendizado de máquina. Também estou procurando algo nessas linhas. Por favor, informe-me se houver algo semelhante. Quais são as opções sugeridas por Marcus L Endicott em sua resposta abaixo são todos os serviços on-line, o que significa que você não pode trabalhar com nenhuma instituição que valorize seus dados, o que é uma desvantagem significativa do uso de qualquer uma das opções mencionadas por ele.

2
Aqui está um projeto de código-fonte aberto no qual estou trabalhando agora: alfredfrancis / ai-chatbot-framework: estrutura de chatbot de IA com entendimento de linguagem natural e inteligência artificial. É semelhante a wit e api. ai Você pode criar histórias (tarefas) e treiná-las para o entendimento da linguagem natural.Eu estou usando uma mistura de aprendizado de máquina de última geração e algoritmos de PNL.Mais especificamente, classificadores lineares, classificadores CRF, PCFGs, distância de levenshtein, etc. as seguintes capturas de tela

3
talvez isso esteja relacionado a uma NLU: ferramenta bot de código aberto para entendimento da linguagem natural em python

Qual é o melhor teste de personalidade de código aberto?

1
O inventário IPIP Big Five foi desenvolvido por psicólogos de pesquisa altamente respeitados e foi dedicado ao domínio público: IPIP NEO-PI, Informações Introdutórias

2
Existem muitos vídeos e blogs disponíveis quando você está realmente ansioso para saber mais sobre sua personalidade. Aqui, estou compartilhando alguns vídeos que considero mais precisos. E, se não forem suficientes, basta digitar teste de personalidade no Google e você. vai receber milhares daqueles ..

3
Existem vários tipos de teste de personalidade. O MindFrames é um teste de personalidade com uma diferença … ele não apenas fornece informações valiosas sobre 10 fatores de personalidade, como também fornece testes de personalidade. informações sobre como elas afetam o desempenho de uma pessoa no trabalho.Vá para este site http://www.psychometrica.ae/

Por que a Apple abriu o software Swift?

1
Por quê? Por que não? As pessoas esquecem os importantes esforços de código aberto que vieram da Apple, incluindo o webkit, no qual o Chrome e quase todos os navegadores móveis modernos são construídos.A maioria das coisas do seu grupo de compiladores tem código aberto: LLVM, Clang, C Blocks, libdispatch, OpenCL. Estes são todos grandes negócios malditos no mundo do compilador. Clang / LLVM está substituindo o GCC em todo o setor. O OpenCL forneceu uma maneira aberta de calcular a GPU, e o libdispatch é uma maneira de alto desempenho para lidar com o paralelismo. A Apple realmente teve uma história de código aberto bastante forte.

2
Eu diria que grande parte da razão pela qual a Apple está criando o Swift 2 de código aberto é a demanda dos clientes. Puro e simples, o FOSS é mais à prova de futuro que o software proprietário, e a natureza proprietária do Swift 1.x e a disponibilidade de plataforma única não o agradaram ao conjunto de desenvolvedores que valorizam a prova de futuro. Ao abrir o código, a Apple garante que, mesmo que o iOS saia do mapa amanhã, os codificadores Swift poderão portar seu código para uma nova plataforma com poucos problemas.

3
O Swift foi criado desde o primeiro dia para a estrutura do compilador LLVM de código aberto (também o lar do compilador de código aberto Clang C / C ++ da Apple). Portanto, faz sentido que uma vez que o idioma seja estabilizado (algo que, segundo todas as contas é verdade no Swift 2), eles começarão a enviá-lo de código aberto, provavelmente sob a mesma licença BSD do LLVM e Clang.

Quais são as melhores ferramentas de visualização de dados de código aberto?

1 Gostaria de acompanhar R. R é uma das linguagens de programação mais populares e confiáveis para visualização de BI. Não é como outras ferramentas. Tudo o que você precisa é ter algumas habilidades de programação para executar a visualização de BI no R. Além disso, o R oferece alguns pacotes para executar a visualização de BI com mais eficiência. 2 Ordenado com base no meu gosto e popularidade. 1. D3.js [D3.js – Documentos orientados a dados] Esta é a biblioteca de visualização de dados mais básica e melhor existente. Ponto positivo, completamente personalizável e você pode definir seus próprios gráficos, se desejar. Mas, a biblioteca é bastante básica e você precisará dominá-la se quiser gráficos personalizados. Dimple.js [Uma API de gráficos simples para visualizações de dados do d3] Isso é construído no D3.js, abstrai você dos detalhes do d3.js. Use-o se você quiser obter soluções rápidas e padrão. 3. Rickshaw.js [shutterstock / rickshaw] O rickshaw é novamente construído sobre o d3.js. Considere isso como na camada superior da pirâmide de Dimple JS. Fornece boa personalização também. HighCharts Gráficos JavaScript interativos para sua página da webBiblioteca de gráficos extremamente impressionante, você pode se interessar se deseja visualizar dados de estoque. A única desvantagem é que ele é gratuito para desenvolvimento e não para produção; portanto, se você deseja apenas visualizar dados para análise exploratória de dados, pode usá-lo. FusionCharts JavaScript Charts for Web, Mobile & Apps – FusionCharts Outro concorrente do HighCharts, eu não o usei, mas parece promissor. 6. Gráfico JS Gráficos HTML5 de código aberto para o seu sitePros: Simples, rápido e pronto para uso.7. Plot LY Plotly Uma ferramenta incrível projetada para cientista de dados para análise exploratória de dados.Há também algumas outras que ainda não tentei8. Datawrapper [para não desenvolvedores] 9. RAW Raw [baseado em D3.js.] 10. Linhas de tempo JS Linhas de tempo lindamente criadas, fáceis e intuitivas de usar. 3 Muitos leitores verão “o que fazer” e “que ferramentas implementar”. Existem várias maneiras de criar belas visualizações: Use os gráficos internos do Excel para fazer alguns gráficos regulares. Complexos avançados, como gráficos dinâmicos, a triagem de gráficos pode ser obtida escrevendo VBA. Através da linguagem de análise de dados, como R e Python, o pacote de funções de gráfico é chamado para apresentar os dados visuais e a análise de dados é comumente usada. plugins visuais de código aberto, como Echarts, HighCharts, D3.js., código incorporado, desenvolvido como um pacote de plug-ins, engenheiros visuais e desenvolvimento de front-end comumente usados.O cenário mais prático para visualização é fazer o relatório. Como esse tópico é visual, o Xiaobian hoje falará sobre como fazer relatórios visuais interessantes. Quais são os gráficos de visualização básicos e avançados? Qual é o desenvolvimento do código? Como funciona a tela grande? A ferramenta representativa FineReport, introduziu anteriormente as cenas de uso e as funções do FineReport. Se você não estiver familiarizado, pode compará-lo com o Excel. Você usou o Excel, mas não sei se existe um artefato “FineReport”. Isso é muito mais eficiente que a ferramenta de planilha do Excel, é uma pena que você não tenha Gráfico básico + tabelaOs gráficos de colunas, gráficos de linhas, gráficos de pizza, gráficos de bolhas, gráficos de dispersão etc. podem satisfazer as estatísticas convencionais dos dados. Depois de obter os dados, analise as várias dimensões a serem exibidas, que tipo de gráfico usar e várias exibições de gráfico.Gráfico avançadoOs gráficos avançados são baseados no gráfico básico para desenvolver alguns novos recursos.Classe de gráfico de torta: gráfico de arco de arco igual, desigual arco rosa gráfico … Classe de gráfico de colunas: gráfico de colunas empilhadas, gráfico de colunas empilhadas em porcentagem … Classe de gráfico de barras: gráfico de barras empilhadas, gráfico de barras empilhadas em porcentagem … Classe de gráfico de linhas: gráfico de linhas empilhadas, gráfico de área … Painel classe: painel com vários ponteiros 360 graus, painel com vários pontos 180 graus, painel com anel de porcentagem, painel com slot de escala percentual, painel de tubos de ensaio … Classe do gráfico de radar: gráfico de radar comum, gráfico de radar de colunas empilhadas … Classe do gráfico de bolhas: gráfico de bolhas ordinário, gráfico de bolhas mecânico, gráfico de bolhas de quadrante cruzado … Classe de mapa: mapa regional, mapa de pontos, fluxo de big data para mapear … Há também várias combinações de figuras, como “gráfico de colunas – gráfico de linhas, coluna” gráfico – gráfico de área, caractere de coluna empilhada gráfico de linhas t, mapa personalizado “… Outros incluem gráficos de funil, gráficos de Gantt, nuvens de palavras, mapas de quadros e muito mais.Estes números estão prontamente disponíveis no FineReport. Em outras ferramentas ou outros cenários de uso, ele pode ser desenvolvido por um engenheiro visual. A fim de integrar altamente o processo de análise de dados, entenda melhor o significado comercial por trás dos dados. Além do formulário e da parte de exibição dinâmica do gráfico visual, ele é chamado de visualização dinâmica.Exemplo: Perfuração e vinculação de mapasNo passado, esses efeitos dinâmicos e interativospropriedades foram escritas no desenvolvimento de código. Isso foi empacotado em funções no FineReport, além de escala de gráfico, atualização automática e prompts de dados. O ponto mais complicado é definir os parâmetros dinâmicos mais o hiperlink. Desenvolva com plugins de código aberto É usar ferramentas de visualização de dados de código aberto no mercado, como Highcharts, D3.js, Baidu Echarts, Ant King AntV, GoogleCharts, Raphael. js, Sigma.js, three.js, etc. Por exemplo, o mapa 3D do panorama da cidade abaixo, o autor usa a biblioteca de código-fonte aberto Echart-GL e o MapBox, combinados com o mapa, com base em mapas reais e dados básicos de construção para construir um grande cenário da área metropolitana, adequado para departamentos governamentais, cadeias de empresas, provedores de LBS, etc. Usuários sensíveis à latitude e longitude reais e ao alcance da área de exibição. Na parte inferior do plug-in está o WebGL (Web Graphic Library), uma API JavaScript para renderizar gráficos 3D em qualquer navegador da Web compatível. Os programas WebGL consistem em código de controle escrito em JavaScript e código shader em OpenGL Shading Language (GLSL), que é semelhante ao C ou C ++ e pode ser executado na GPU.

Quais são alguns projetos simples de código aberto em C ++ no GitHub para iniciantes?

1
Obrigado pela A2AI, gostaria de mencionar que a maioria dos projetos de código aberto não seria simples; pelo contrário, eles combinariam alguns conceitos da linguagem de programação. Alguns dos projetos populares em C ++ seriam: tensorflow / tensorflowelectron / electronapple / swiftnwjs /nw.jsBVLC/caffegoogle/protobufrethinkdb/rethinkdbopencv/opencvbitcoin/bitcoinfacebook/hhvmSe você puder contribuir com esses projetos, é uma coisa muito importante e seria motivo de orgulho. Feliz codificação!

2
Alguns projetos famosos de código-fonte aberto em C ++ são: 1) Projetos do Gnome como evince (visualizador de pdf). Eles até têm bugs de amor do Gnome para iniciantes que são fáceis de resolver e para você começar. GNOME2) VLC. Ele tem tarefas para pessoas que usam idiomas diferentes.VLC media playerPara procurar mais projetos, você pode filtrar por mais projetos no melange.As organizações aceitas para o Google Summer of Code 2014

3
O software gráfico Seamly2D (https://github.com/fashionfreedom/seamly2d) é um projeto C ++ que usa o Qt IDE para facilitar a edição do código, criando a GUI e adicionando funcionalidade gráfica aos widgets Qt. O Qt facilita o ambiente de desenvolvimento e permite o desenvolvimento de várias plataformas no Windows, Mac OSX e Linux.

Quais são os projetos de código aberto mais interessantes em inteligência artificial e aprendizado de máquina? Em quais projetos as pessoas devem prestar atenção e estudar?

1
Estou extremamente surpreso que ninguém tenha mencionado o Apache Mahout http://mahout.apache.org/. O Mahout é construído sobre o Hadoop para escalabilidade e possui muitos ótimos exemplos e bibliotecas para começar. Além disso, o Sr. Job do Yelp é útil para cálculos de larga escala de uso geral usando a redução de mapa. http://www.readwriteweb.com/clou…EDIT: Acabei de me lembrar disso – http://pybrain.org/

2
O Theano (http: //deeplearning.net/software …) é um compilador de CPU e GPU para expressões matemáticas em Python. Ele combina a conveniência do NumPy com a velocidade da linguagem de máquina nativa otimizada. Para algoritmos de aprendizado de máquina baseados em gradiente (como treinar um MLP ou uma rede convolucional), o Theano é de 1,6x a 7,5x mais rápido que as alternativas da concorrência (incluindo aquelas em C / C ++, NumPy, SciPy e Matlab) quando compiladas para a CPU e entre 6,5x e 44x mais rápido quando compilado para a GPU. Você pode ler mais sobre isso neste artigo do SciPy 2010: http: //www.iro.umontreal.ca/lis …

3
GraphLab (uma nova estrutura paralela para aprendizado de máquina): http://graphlab.org/Vowpal Wabbit (aprendizado on-line rápido): http://research.yahoo.com/node/1914scikits.learn (aprendizado de máquina de uso geral em Python ): http: //scikit-learn.sourceforge….Caixa de ferramentas de aprendizado profundo: http://deeplearning.net/software…Quais são algumas bibliotecas de software para aprendizado em larga escala?

Quão recompensador é o código aberto para a carreira de um programador? Se o software de código aberto fosse menos proeminente, como isso afetaria a carreira do programador? A possibilidade de não ter que trabalhar para outra pessoa seria igualmente gratificante?

1
Sem o código aberto, ainda estaríamos programando em um ambiente semelhante ao Windows-95. Você pode não perceber, mas o código aberto beneficia os programadores em primeiro lugar. Os usuários finais raramente se beneficiam diretamente do código aberto. Vamos considerar o que torna a programação gratificante: para ganhar dinheiro, você precisa de bons produtos. Para criar bons produtos, você precisa de boas ferramentas. O código aberto oferece boas ferramentas aos programadores, facilitando assim suas vidas. Sem código aberto, a programação seria menos gratificante, porque os programadores não terão as ferramentas necessárias. Nenhuma boa ferramenta -> nenhum programador feliz – > produtos ruins. O Google e o Facebook não seriam possíveis sem o código aberto. A infraestrutura do Mac também depende muito do código aberto.

Existe algum projeto de código aberto para o sistema de recomendação?

1
Existem vários: Apache Mahout: aprendizado de máquina escalável e mineração de dadosLensKit: LensKit Recomendender ToolkitPrediction. io: Prediction.ioSeldon .io: Mecanismo de aprendizado e recomendação de máquina de código abertoScikit-learn (precisa de desenvolvimento extra): scikit-learn: aprendizado de máquina em PythonJá usei algum deles? Não, eu criei meus próprios algoritmos de filtragem baseados em conteúdo e colaborativos do zero, porque queria entender como eles funcionam. Em breve, vou abrir o algoritmo de filtragem colaborativa de código-fonte com o Theano. Vou atualizar esta resposta.

2
Há uma lista atualizada regularmente de sistemas de recomendação disponíveis na página do Github de Graham Jenson. Inclui uma seção sobre sistemas de código aberto. Os que possuem uma comunidade de desenvolvimento razoavelmente ativa incluem: PredictionIOMahoutLenskit, para citar alguns. Você também pode encontrar alguns pacotes para o mais moderno material de aprendizado profundo de código aberto: GRU4Rec – algoritmo de recomendação baseado em RNN com unidades recorrentes fechadas, implementação Theano. Também é indicado ao Radar da Inovação da UE PrizeSpotlight – modelos de recomendação profunda usando o PyTorch.

3
Esses dois sites apresentam 10 sistemas de recomendação de código aberto.TOP 10 – Blog de Bill – CSDN – Sistemas de CSDN.NETRecomendador, Parte 1: Introdução a abordagens e algoritmosSistemas de recomendação, Parte 1 2: Introdução aos mecanismos de código aberto

A Amazon contribuiu para a comunidade de código aberto?

1
Carbonado (http://carbonado.sourceforge.net/) é a única biblioteca que eu sei que a Amazon tem código aberto. A Amazon tem uma política estrita de não contribuir publicamente para projetos de código aberto. Sempre fomos instruídos a usar nossos endereços de e-mail residencial, se precisássemos corrigir um bug em um projeto de código aberto. Ouvi dizer que havia uma contribuição significativa para o ActiveMQ, mas não tenho certeza de quão oficial era.

2
Também existem AWS e AWS Labs no GitHub: aws (Amazon Web Services) · GitHubawslabs (Amazon Web Services)

3
Não sei se isso conta, mas o TUPL de código aberto da Amazon, Brian O’Neill (https://github.com/cojen/Tupl), um substituto do BDB. Não tenho certeza se ele fez isso como um projeto pessoal ou enquanto trabalhava, mas ele certamente teve que obter aprovação da Amazon para liberá-lo na natureza.

Qual é a melhor solução gratuita de comércio eletrônico de código aberto para o ASP.NET?

1
O nopCommerce é a plataforma de comércio eletrônico mais popular baseada no ASP.NET (foi baixada mais de 3.000.000 de vezes). Possui uma variedade de recursos para criar uma loja online gratuitamente. Encontre mais vantagens para trabalhar no nopCommerce aqui

2
Checkout Virto Commerce, é um ecommerce de código aberto baseado em .net Enterprise ASP.NET plataforma de nuvem de ecommerce de código aberto e possui integração com Umbraco e Orchard CMS. Ele também está disponível gratuitamente para lojas menores. Você pode ler a introdução do código no codeplex sobre a plataforma e seus benefícios: Admin WEB modular usando ASP.NET MVC e AngularJS. Possui uma extensibilidade extensível incorporada e suporta temas, vários catálogos, vários preços, várias lojas e muito mais funcionalidade.

3
A seguir, estão algumas das soluções de comércio eletrônico do ASP.NET que você pode considerar. NopCommerce2. Kentico3. AspxCommerce4. Znode5. VirtoCommerce6. UmbracoVocê pode ter uma comparação detalhada entre NopCommerce, Kentico e Umbraco aqui.1, análise de soluções de comércio eletrônico – NopCommerce vs Umbraco2. Análise da solução de comércio eletrônico – NopCommerce vs KenticoPS: nem todos são de código aberto.

Quais são alguns dos projetos C ++ de código aberto mais populares?

1
O GitHub possui algumas ferramentas para analisar os projetos mais populares no GitHub: https://github.com/popular/watchedVocê também pode diminuir a popularidade por idioma: https://github.com/languagesPor exemplo, aqui estão algumas das mais Projetos C ++ populares e populares no GitHub: https://github.com/languages/C++Claro, isso só é útil para projetos que estão no GitHub, mas é uma heurística útil para a popularidade geral.Uma outra ferramenta útil chamada Ohloh categoriza e resume as contribuições para toneladas de projetos FLOSS: http://www.ohloh.net/

2
Além do impulso óbvio, GCC, qt, et all … e deixando de fora as bibliotecas C1. Apache xerces e xalan2. Libeigen (biblioteca de matrizes, material muito bom) 3. Moeda ou (pesquisa operacional, otimização, diferenciação automática) 4. MySQL ++ 5. ACE6. Luabind7. Cppunit8. Mongodb

3
FfmpegChromiumV8Node.jsWebKitFirefox

Por que o Google criou o navegador Chrome de código aberto?

1
O Chrome é baseado no Chromium, que é baseado no Webkit, que é baseado no KHTML, que é um componente html do Linux de código aberto usado no navegador KDE no Linux. Bom trabalho, garotos KHTML, mas você nunca vê nenhum elogio sendo atribuído a eles. A Apple fugiu e fingiu que criou um navegador, enquanto o núcleo realmente era apenas uma imitação do KHTML. Mas sua licença de código aberto os forçou a criar o webkit de código aberto. O Chromium usa o Webkit e também é forçado a mantê-lo de código aberto.

2
Porque o navegador Chrome coleta informações sobre você e as envia de volta ao Google. Eles monetizam essas informações disponibilizando algumas derivadas delas como parâmetros de segmentação para anunciantes. Lembre-se de que, se você obtém um produto ou serviço gratuitamente, não é o cliente. O acesso a você e informações sobre você é o produto que está sendo vendido para outra pessoa.

3
A2A: Por que o Google não apenas torna o navegador Chrome de código aberto como o navegador Chromium? O Google disse no passado que a base de código do Chromium é a mesma que a base de código do Chrome. O Chromium existe para atender aos requisitos de licenciamento, em vez de qualquer serviço público, e provavelmente qualquer componente de rastreamento é compilado no momento da compilação, para que você não veja nada diferente se puder comparar as bases de código.

Existe uma plataforma de mercado de serviços de código aberto para serviços C2C?

1
Você provavelmente seguiu em frente na vida, iniciou algo vendido desde que publicou esta pergunta, mas ainda assim … Se você está falando de serviços, e não de um mercado de produtos, é um pouco complicado. Um mercado de serviços exigiria gerenciamento de impostos, retenção de taxas sociais etc. Estamos construindo essa plataforma na Mancx. Verifique isso. Tem a correspondência que você está procurando. Ainda não estamos prontos para compartilhar a plataforma, mas estou feliz em conversar.

Existe algum bom clone de código aberto do Kickstarter?

1
Existe catarse: catarsea self starter: Selfstarter

2
Fundraiser – O poderoso e personalizado script de financiamento coletivo da NCryptedFundraiser é o script Kickstarter Clone da NCrypted para criar seu próprio site de financiamento coletivo ou de captação de recursos, onde você pode reunir patrocinadores e arrecadadores de fundos para angariar fundos para o projeto de angariação de fundos. Os apoiadores são investidores que doam fundos para o projeto em seu interesse. O táxi das comissões deve ser definido predeterminado ou com base no projeto (número do projeto administrado) pelo administrador do local do Fundraiser

3
Indiegogo, gofundme, fundbyme, gogetfunding, crowdfunder, existem muitos clones do kickstarter disponíveis no mercado …. não podemos dizer que todos são concorrentes do kickstarter bcoz, alguns deles estão direcionados a uma região ou indústria específica … E o kickstarter empresas de clonagem estão vendendo mais softwares TheFourHertz

Quais são alguns projetos fáceis de código aberto no GitHub para contribuir em Java?

1
Eu também sou muito novo em código aberto e desenvolvi alguns aplicativos simples em Java, como o Editor de Texto, o Gerenciador de Downloads e também trabalhei em projetos simples de outros. Você pode visitar meus repositórios de perfil e fork do GitHub e começar a trabalhar neles. link www.github.com/supercool276Happy Coding !!

2
Existem muitos projetos de código aberto criados na pilha da primavera. Você disse que conhece a primavera certo! Mesmo no Spring, existem projetos como o Spring Social e seus subprojetos, Spring Boot, Spring Data Projects etc. Você pode contribuir com esses projetos se quiser se aprofundar nos padrões de design seguidos no Spring Development. Alguns outros projetos pequenos incluem Spring-Loaded, Spring-Petclinic etc. Caso contrário, você também pesquisa no Google e Github.

3
Projeto Java em tempo real

Qual é o melhor gateway de SMS de código aberto / gratuito?

1
way2sms.com

2
O problema se você criar seu próprio gateway de sms é que nenhuma operadora receberá sua mensagem. Eles rejeitarão todos eles, exceto se você pagar bem com eles, mas difícil de lidar com todas as operadoras, certo? Portanto, não construímos nosso próprio gateway, mas usamos o mais famoso Twilio. Porque o Twilio é um gateway / sms na nuvem, precisa de uma ferramenta / software para enviar e receber mensagens. O iMarketing Center é a melhor escolha aqui.

3
Não há realmente nada oferecido gratuitamente se você deseja um bom serviço de SMS. Embora o iSMS Australia forneça 10 créditos SMS gratuitos, seu principal objetivo é permitir que você experimente a qualidade do serviço SMS.

Como os grandes mantenedores de projetos de código aberto ganham a vida?

1
Muitas pessoas usam o software de código aberto para ganhar a vida, o Linux é possivelmente o software mais usado que existe. A filosofia do código aberto é uma narrativa maior, software aberto, hardware, academia e fala. Muitas empresas de software de código aberto quando se torna muito caro manter, no entanto, os desenvolvedores são um recurso limitado e geralmente pagam aos programadores para contribuir. Então, sim, é possível ganhar a vida com software de código aberto

Como as empresas de software de código aberto ganham dinheiro?

1
Alguns modelos básicos de receita para projetos / empresas de código aberto Fornecendo serviços em torno do projeto (Hadoop, Cassendra, MongoDB, etc) Promovendo conteúdo em seus softwares (Mozilla e Opera – Default Search Engine) Fornecendo modelo pago hospedado de seu código aberto ImplementationDonationsDual Licensing and selling commercial commercial license Fornecer acesso ou informações anteriores à sua versão mais avançada do Money (Android – discutível) – também conhecida como tie-ups corporativos

Quais são alguns bons projetos de código aberto em Java para contribuir e começar a aprender Java?

1
Você pode conferir o git hub e contribuir com muitos projetos de código aberto. Mas eu recomendaria que você desenvolvesse um bom comando sobre os conceitos básicos de Java antes de pular para projetos de código aberto. Sites como o chef de código, o melhor programador, o hacker Earth e o ranking de hackers fornecerão amplas perguntas para você praticar. Boa sorte.

2
Isso depende principalmente de seus interesses e conhecimentos. Depois de saber isso, você pode procurar o Sourceforge, talvez eles devam oferecer alguns parâmetros de pesquisa adicionais, como contagem de colaboradores ativos, linhas de código etc. Isso deve mostrar algumas oportunidades.

Quais são as alternativas de código aberto ao HipChat?

1
Embora eu esteja definitivamente inclinado aqui, eu sugiro o Mattermost.Mattermost é uma alternativa ao Slack de código aberto no local. Oferece mensagens e compartilhamento de arquivos em PCs e telefones, com arquivamento e pesquisa. Foi desenvolvido por ex-engenheiros do Microsoft Office. Além disso, o GitLab – a principal alternativa do GitHub no local, de código aberto, usada por mais de 100.000 organizações – oferece o Mattermost como a opção de mensagens padrão em seu instalador de ônibus. Mais informações aqui: Lista de recursos | Mais importante

2
KandanApp é uma alternativa de código aberto ao HipChat. O código fonte está hospedado no github – kandan

3
Se você está preocupado com a privacidade (ao contrário do preço gratuito), pode experimentar uma versão em nuvem privada do Unison – oferece bate-papo em grupo, texto 1: 1 / voz / vídeo.

O que é um bom sistema de cobrança de código aberto?

1
O Vulcano é uma excelente opção de código aberto para cobrança única e recorrente: https://github.com/volcano/billingTem um design de API e inclui um painel de controle fácil de usar também.O projeto está em desenvolvimento ativo e seu wiki tem muita documentação útil.

2
Coletar dinheiro dos clientes deve ser a parte mais fácil dos seus negócios, mas um sistema de cobrança com baixo desempenho pode tornar a vida desnecessariamente difícil para os CIOs. Eles são um sistema de software de cobrança de código aberto baseado na Web e podem ser estendidos e integrados para atender a necessidades específicas .AgileBillAgileBill foi lançado como um produto comercial em 2004 e, em seguida, foi aberto pelo seu criador Tony Landis em 2008. O AgileBill é um aplicativo de cobrança e faturamento adequado para o tipo de associação / assinatura do modelo de negócios, incluindo empresas de hospedagem na Web, ISPs e provedores de VoIP. Sistema de cobrança da Amberdms O sistema de cobrança da Amberdms (ABS) é um sistema de cobrança que também fornece várias funções úteis de contabilidade e gerenciamento de negócios. O ABS possui aplicativos para faturamento, gerenciamento de serviços, RH e manutenção de tempo, e é projetado para pequenas e médias empresas, bem como pequenos ISPs e empresas de TI. OitrusDBCitrusDB é um sistema de cobrança desenvolvido com PHP e MySQL que também pode ser usado para acompanhar de informações do cliente (CRM), serviços, produtos, faturas e cartões de crédito e informações de suporte. O objetivo do projeto é fornecer uma solução de cobrança e atendimento ao cliente de código aberto que possa ser usada em diversos setores de serviços, como ISPs, consultoria e telecomunicações.

3
Existem alguns sistemas de cobrança de código aberto, como: KillBillOpen Source BillingjBillingO principal problema com essas soluções é porque são de código aberto, a maioria não está ganhando dinheiro. Isso equivale a nenhum suporte (ou muito pouco), nenhuma importância na melhoria do produto (adição de novos recursos, melhoria da interface do usuário etc.) e, em seguida, o fato de que você precisa dar suporte / manter a plataforma internamente – o que tira o seu núcleo Como co-fundador de uma solução de carrinho de compras que oferece um sistema de cobrança integrado, deixe-me apresentar-lhe o PayKickstart. O PayKickstart é uma ótima opção para as necessidades do seu sistema de cobrança por várias razões. como pagamentos baseados em assinatura Integre facilmente gateways de pagamento populares como PayPal, Stripe, Braintree, Autorizar (.) net, etc.Crie e envie faturas editáveisOferece pago e avaliações gratuitas Mantenha o abandono do carrinho no mínimo com a ajuda de pop-ups com intenção de saída e e-mails de abandono de carrinho. Garantindo que você tenha suporte sólido, segurança e um motivo para manter em mente seu melhor interesse melhorar o produto é MUITO importante.Espero que isso tenha sido útil. Muito bem sucedida!

Quais são alguns dos melhores LMS de código aberto?

1
Felizmente, há uma variedade de diferentes sistemas de gerenciamento de aprendizado de código aberto (LMSs) que podem oferecer a plataforma dinâmica e flexível de eLearning de que você precisa, sem precisar repassar seu orçamento de eLearning. Moodle2. Chamilo3. Abra o edX4. Totara Learn5. Tela6. Forma7. Effectus8. ILIAS9. OpenOLAT10. Se você está procurando Desenvolvimento LMS, entre em contato com especialistas da IDS Logic.

2
Felizmente, existe uma variedade de diferentes sistemas de gerenciamento de aprendizado de código aberto (LMSs) que podem oferecer a plataforma dinâmica e flexível de eLearning necessária, sem que você ultrapasse seu orçamento. Aqui estão as 8 principais soluções LMS de código aberto que você pode querer considerar. Moodle2. Teachr3. Eliademy4. Forma LMS5. Dokeos6. ILIAS7. Opigno8. Fonte do conteúdo OpenOLAT: eLearnCommunity

3
Moodle é provavelmente o mais popular. É baseado em PHP e é usado por muitas escolas, embora a interface provavelmente possa ser um pouco melhorada. Felizmente, ele foi projetado para ser extensível e personalizável.

Existe um software de gerenciamento de reservas de hotéis de código aberto que você recomendaria?

1
Sim, querido, de maneira aberta, existe um melhor site que oferece esse tipo de serviço, como o Reservation Software e muitos outros. Este nome de site é meetinghub e é um site muito bom, ideal para o software de reservas on-line.

2
Eu não vi um, e acredite, eu tenho procurado.

Quais são alguns projetos de código aberto JavaScript bem projetados?

1
Bem projetado e javascript são mutuamente exclusivos.

2
AngularJS: poderosa estrutura de interface do usuário. https://angularjs.org/Backbone.js: estrutura do modelo. http://backbonejs.org/lodash: a biblioteca de utilitários sem a qual você não pode viver. https://lodash.com/Webdriverio: estrutura de automação da interface do usuário bem projetada. https://github.com/webdriverio/w…Bluebird: sem dúvida a melhor implementação do Promise (melhor até que a nativa). https://github.com/petkaantonov/…Intern: abordagem interessante da herança. https://github.com/theintern/intern

3
O Angular Material rectangular / material é um dos melhores projetos de código aberto, que está entre a estrutura de componentes de interface do usuário da mais alta qualidade disponível para o AngularJS, que implementa a maioria dos princípios de design de materiais de maneira elegante, fornecendo componentes plug-and-play fáceis de usar para criar aplicativos e experiências criativas, bonitas e sofisticadas!

Existe uma alternativa de código aberto ao Blackboard?

1
O Sakai, que é o programa que minha universidade usa, parece estar sob uma licença de código aberto, com uma associação opcional em nível institucional. Geralmente, acho que é mais flexível e mais limpo que o Blackboard, como me lembro do ensino médio. Também posso configurar um site como espaço de trabalho como aluno, o que foi ótimo para organizar grupos de atividades estudantis.http: //www.sakaiproject.org/ http: //www.sakaiproject.org/foun …

2
Além do Moodle e Sakai, há o Canvas by Instructure. Quando eu trabalhava no escritório da Western Washington University, estávamos descontinuando o Blackboard em favor do Canvas. Quase todo mundo usa o Canvas como SaaS, mas eles têm um Github e o código é AGPL. Infelizmente, nenhum dos meus instrutores o utilizou, então não pude experimentá-lo como estudante. Minha demonstração me deu uma ótima impressão e o modelo de negócios deles visa basicamente as consideráveis fraquezas da Blackboard.

3
Lançamos recentemente o Swiftwit – Organize sua educação. como concorrente do Blackboard. É gratuito e gerenciado socialmente pelos alunos.

Qual é o melhor servidor de anúncios de código aberto?

1
Minha empresa GreenRobot lançou um servidor de anúncios de fonte aberta auto-hospedado e habilitado para API.Tem contas no Adsense e LifeStreetmedia para seu site ou aplicativo do Facebook? Gire-os usando este servidor de anúncios PHP Laravel de código aberto. O servidor de anúncios se conecta ao Google Adsense e à Lifestreetmedia para calcular qual rede ganhará mais dinheiro e escolherá qual anúncio será exibido com base nisso. O servidor de anúncios também funciona com outras redes de anúncios, embora você precise definir o RPM manualmente.greenrobotllc / adserver

2
Não há muitos servidores de anúncios de código aberto, os mais populares são: Revive Adserver – O servidor de anúncios de código aberto gratuito anteriormente conhecido como OpenX SourceNginAd OpenRTB Servidor de anúncios de código aberto

3
Eu recomendo que você vá com o servidor Revive Ad. Porque é um software de código aberto onde você pode fazer o download no site oficial do servidor de anúncios revivido. Mas o servidor de anúncios revivido contém apenas apenas recursos limitados, portanto, você precisa comprar os plug-ins pagos do provedor de plug-ins pagos, como o Plugins for Revive Adserver com a versão mais recente 4.0.2. Além disso, se você estiver procurando a solução de etiqueta em branco, poderá usar o Adserver Software, o Ad Server Solutions para agências, editores e anunciantes: dJAX Adserver, porque eles constroem sua própria plataforma de veiculação de anúncios na parte superior servidor.

Qual é a melhor maneira de monetizar um produto de software de código aberto?

1
As formas típicas são: suporte, complementos e personalização. O WordPress e seu ecossistema geram enormes somas de dinheiro em todos os três. Todo o setor de Linux é o mesmo. Se você deseja criar uma comunidade em torno de um produto de código aberto, é claro que precisa de algo muito extensível para que os produtos possam ser construídos em torno dele.

O Google abrirá o AlphaGo de código-fonte?

1
Eles não anunciaram nenhum plano de fazê-lo. Como o AlphaGo é um software em desenvolvimento contínuo apoiado pelo Google, o DeepMind provavelmente possui todos os recursos necessários para melhorar e finalizar suas pesquisas. No entanto, existem esforços no github para replicar o AlphaGo. Pode ser encontrado em: https: //github.com/Rochester-NRT …

2
Não, porque não seria interessante fazer isso, na verdade poderia ser. Mas porque depende de tantas outras tecnologias do Google que a fonte do AlphaGo seria completamente inútil, e as dependências são tão profundas que o código aberto Muito mais importante é que, depois de algum tempo, haverá um artigo em uma revista ou conferência científica que descreva como funciona em detalhes e permitirá que outros os implementem em outras tecnologias subjacentes .

3
Provavelmente não, pois gastaram 400 milhões de libras (US $ 600 milhões) em 2014 comprando a empresa. Embora as equipes tenham sido autorizadas a publicar uma visão geral de alto nível em Nature: Mastering the Game of Go com redes neurais profundas e pesquisa de árvores

Existe uma alternativa de código aberto ao Geckoboard?

1
De fato, existem alguns projetos no Github como StatusPanic (https://github.com/ajb/statuspanic) ou este painel de status (https: //github.com/exoplatform/s …), mas como David disse, se seu objetivo é criar um painel 100% personalizado, criar seu próprio com alguns php e highcharts … ou se apaixonar por Geckoboard que eu recomendo;)

2
Embora não seja de código aberto, estamos iniciando o http://trailerboard.com para lidar com o alto custo dos painéis hospedados existentes – confira – estamos financiando através do kickstarter agora! Para criar sua própria API, eu recomendo a UI do JQuery (arrastar e soltar) e algo como Highcharts ou, para uma implementação mais simples, o plug-in piedade realmente legal para o jquery http: //benpickles.github.com/peity/ Estamos usando o redis como armazenamento de dados para dados registrados, mas o SQL deve funcionar bem em um único site.

3
O gridster.js é um plug-in jQuery que criamos para o Ducksboard, que permite criar layouts arrastáveis e intuitivos a partir de elementos que abrangem várias colunas. É licenciado pelo MIT, para que você possa basear seu próprio painel. Os painéis do Shopify e do Fitbit usam o Gridster para o layout do widget. Se você deseja mostrar dados de serviços externos, experimente o Libsaas. É nosso outro projeto OSS feito para diminuir o tédio da interface com SaaS diferentes – você pode usá-lo para alimentar o back-end da sua placa.

Existe alguma plataforma de m-commerce de código aberto?

1
Olá, você pode experimentar o MobStac se inscrevendo aqui: Portal do MobStac for Developers.Depois de se inscrever, siga as instruções na página Início rápido e instale a extensão Magento do MobStac. A extensão cuida da sincronização de dados entre o Desktop e o Mobile – você pode visualizar o catálogo (produtos, categorias) em um modelo da web responsivo. Enquanto isso, também estamos trabalhando em um SDK do iOS para acelerar o desenvolvimento de aplicativos e expor APIs para serviços de checkout e carrinho. Sinta-se à vontade para entrar em contato caso tenha alguma dúvida, rahul@mobstac.com.

Qual é a melhor ferramenta de design UML de código aberto?

1
Testei o Modelio (http://www.modelio.org), que é de código aberto. É fácil de usar e pode ser estendido através de vários módulos. Apreciei as extensões Java e Web Document Publisher.

2
Umple não é tão sofisticado graficamente quanto outras ferramentas, mas permite modelar textualmente e gera código para máquinas e associações de estado que possui vantagens sobre o que a maioria das outras ferramentas oferece. Você também pode integrar seus métodos em outros idiomas diretamente ao Umple, ou vice-versa. O que é umple?

3
Aqui estão as melhores ferramentas de design de UML de código aberto e seus sites para uma leitura mais detalhada.1-) BOUML – uma caixa de ferramentas UMLBOUML é uma caixa de ferramentas UML 2 gratuita que permite especificar e gerar código em C ++, Java, Idl, Php e Python2-) Modelio Open Source CommunityModelio é um ambiente de modelagem de código aberto. A Modelio oferece uma ampla variedade de funcionalistas baseados em padrões para desenvolvedores de software, analistas, designers, arquitetos de negócios e arquitetos de sistemas. (GPL) 3-) O PapyrusPapyrus tem como objetivo fornecer um ambiente integrado e consumível pelo usuário para editar qualquer tipo de modelo EMF e, principalmente, oferecer suporte a UML e linguagens de modelagem relacionadas, como SysML e MARTE. (EPL) 3-) Umbrello – O UML ModellerUmbrello UML Modeller é um programa de diagrama da Linguagem de Modelagem Unificada para o KDE. (GPL) 5-) UML Designer O UML Designer fornece um conjunto de diagramas comuns para trabalhar com os modelos UML 2.5. A intenção é fornecer uma maneira fácil de fazer a transição da UML para a modelagem específica do domínio. (EPL) 6-) Umple: mesclando modelagem com programaçãoUmple é uma tecnologia para programação orientada a modelo. Ele adiciona abstrações como associações UML, atributos e máquinas de estado a linguagens de programação orientadas a objetos, como Java, PHP e Ruby. (MIT) Atenciosamente

Quais projetos de código aberto estão procurando ativamente colaboradores?

1
Todos eles.Eu poderia tentar baixar uma lista inteira de projetos do Github e publicá-la aqui, mas acho que seria um pouco longo para ser útil. A pergunta que você provavelmente está perguntando é: “Como faço para encontrar um projeto de código aberto para contribuir? “. Existem duas respostas para isso, e ambas resultam da mesma coisa: arranhar uma coceira. Pense no software que você usa. Não é perfeito, porque o software nunca é perfeito. Escolha algo que realmente o incomode e (suponha que o projeto seja de código aberto) o conserte. Em segundo lugar, às vezes simplesmente não há nada que faça exatamente o que você deseja. Então faça isso! E, como o compartilhamento é cuidadoso, por favor, abra o código-fonte.

2
Bem, eu não acho que você possa categorizar projetos de código aberto de acordo com a necessidade de colaboradores. Todos esses projetos, desde o Kernel Linux industrialmente crucial, o Apache Hadoop, até os relativamente pequenos, especializados, exigem colaboradores. Esse é um ponto-chave por trás dos projetos de código aberto, certo ..? Embora eu possa listar algumas áreas-chave onde os colaboradores podem se encaixar. Eles podem ser: Codificação / Desenvolvimento: lida com a principal tarefa da programação.Testes / Garantia de Qualidade: Lida com erros caça, triagem de bugs, envio de relatórios etc. Uma boa maneira de começar se você achar difícil começar a codificar.Ligação comunitária: mantenha as pessoas envolvidas. Ajude as pessoas, especialmente os recém-chegados ao IRC, Mailing Lists etc.Designing (geralmente em grandes projetos como o Fedora etc) Geralmente exigido por grandes projetos. No que diz respeito a encontrar projetos de código aberto, há muitos deles para listar aqui. Basta pesquisar no Google ou usar o Quora para encontrar aqueles que são do seu interesse.

3
Eu tenho que rir porque a resposta é “todos eles”. Apenas para jogar meu chapéu no balde, o Fórum de Máquinas Simples (SMF) está sempre procurando colaboradores talentosos dispostos a fazer a diferença. Consulte o site http://simplemachines.org e a página do Github http://github.com/simplemachines

Qual é o melhor software de vigilância por vídeo de código aberto?

1
para código aberto, você pode considerar o zoneminder —> ZoneMinder: Linux Home CCTV e Câmera de Segurança com Detecção de MovimentoSpy -> https://www.ispyconnect.com/ OpenVSS -> Open Platform Video Surveillance Systemfor comercial, existem mais do que dezenas

2
A maioria dos sistemas livres descritos em respostas está morta. Há um que foi desenvolvido e ainda mantido e aprimorado por mim e meu amigo. Sistema de vigilância por vídeo IPÉ gratuito, eu o uso como prova de minhas idéias, é bastante poderoso e de código aberto. Além de fácil de usar, porque sou preguiçoso

3
Você está pesquisando software de vigilância de vídeo de código aberto para PCs com Windows. Aqui estão alguns softwares que podem usar o Blue Iris.iSpy.WebcamXP.Shinobi.É o software mais popular que oferece ampla variedade de segurança. Se pretender adquirir este software de videovigilância, visite a videonetics.

Qual é o objetivo do código aberto?

1
Há muitas razões para isso, algumas delas são: Acelerar o desenvolvimento de um produto típico, pois os desenvolvedores de todo o mundo estão contribuindo. Normalmente, o objetivo de um projeto de código aberto é resolver um problema que muitos desenvolvedores enfrentam, então Em vez de cada desenvolvedor criar sua própria solução, os desenvolvedores cooperam para criar a solução perfeita para um problema comum. Reconheça !, muitos desenvolvedores definem sua identidade nos projetos para os quais estão contribuindo. É bom ajudar os desenvolvedores em todo o mundo, como bem como dar acesso a fontes gratuitas para todos.

2
As comunidades de código aberto atuam como uma plataforma excelente para desenvolvedores iniciantes e experientes, a fim de aprimorar suas habilidades técnicas e realizar várias experiências em código. Eles podem facilmente aprender e ganhar experiência contribuindo para as comunidades de código aberto. Antes de iniciar as comunidades de código aberto, eles devem estar cientes do que são projetos de código aberto e de como podem contribuir para isso, lendo toda a documentação.

3
Qual é o objetivo do código aberto? Na verdade, esse é um termo muito político. Alguns dizem que essa é uma versão diluída do movimento do software livre. O movimento do software livre, em parte, acredita que o código-fonte deve ser trocado. Assim como você compartilha receitas com um membro da família que o modifica, o código deve ser o mesmo.Existem várias expressões.Quatro Liberdades – FSFO Manifesto GNUO Manifesto Comunista A definição de código aberto vem de Bruce Perens (K6BP). Documentário Revolution OS Linux 2001: Filme completo

O que são projetos de código aberto?

1
Como esta pergunta não foi marcada como “Programação”, assumirei que você também não tem conhecimento de programação de computadores. Os programas de computador são criados escrevendo-se o código-fonte em um formato muito rigoroso, semelhante às linguagens naturais (exceto, como eu disse, mais rigoroso). O código-fonte pode ser interpretado por um programa de computador especial e transformado em um formato que o processador do computador possa entender naturalmente (chamado de binário ou executável). Quando os programas são escritos por empresas de software por dinheiro, eles geralmente mantêm o código-fonte em segredo e somente liberam os arquivos executáveis para que as pessoas não possam alterar o código-fonte para burlar as medidas de segurança ou anti-falsificação. Os projetos de código-fonte aberto, por outro lado, liberam o código-fonte para o público, para que qualquer pessoa possa estudá-lo, ver como ele funciona, e altere e redistribua-o, se quiserem. Os programas lançados sob esses termos são conhecidos coletivamente como “Software de código aberto / gratuito” ou F / OSS.Você sabe que “Contrato de licença de usuário final” é sempre necessário concordar para instalar o software? Com o tempo, a comunidade de código aberto desenvolveu várias licenças padronizadas que enumeram as diferentes combinações de direitos que os usuários têm do software. Algumas licenças são mais permissivas que outras, e várias organizações discordam sobre o que, exatamente, constitui “código aberto”. Por exemplo, algumas licenças ainda permitem vender o software por dinheiro, outras restringem a forma como diferentes programas podem ser combinados, dependendo da licença de outro programa, etc. Algumas organizações acreditam que o software não é de código aberto, a menos que esteja sob algum tipo de “copyleft”, ou seja, software derivado deve ser lançado sob uma licença equivalente. No entanto, a maioria deles pelo menos concorda que simplesmente liberar o código-fonte não é suficiente para ser de código aberto. O usuário deve ter permissão para fazer alterações e redistribuir o software.

2
Resumindo: é um projeto em que o código fonte é aberto a todos e todos podem e podem participar, seja escrevendo correções de erros, grandes mudanças … A maioria dos produtos comerciais claramente não se enquadra nessa categoria, visto como eles estão em casa e o código é acessível apenas aos desenvolvedores dessa empresa. O Github, no entanto, é preenchido com projetos que o são. Tudo o que você precisa é puxar um projeto, criar uma ramificação e começar a codificar. É claro que, se você chegar à mesma página que os mantenedores, as chances de suas alterações serem mescladas na ramificação mestre serão maiores. exemplo bem conhecido de um projeto de código aberto: sistemas operacionais Linux.Você encontrou um bug? vá em frente e conserte. Posteriormente, você pode adicionar sua correção ao próprio sistema operacional.

3
Olá! Geralmente, código-fonte aberto refere-se a um programa de computador no qual o código-fonte está disponível ao público em geral para uso e / ou modificação em seu design original. O código-fonte aberto é normalmente um esforço colaborativo, no qual os programadores aprimoram o código-fonte e compartilham as mudanças na comunidade, para que outros membros possam ajudar a melhorá-lo. (Wiki) Como um bom exemplo de uma plataforma de código aberto, você pode conferir a Kaa Open Source IoT Platform. Eles o apresentaram com recursos como notificações, eventos, reconfiguração, etc. Poderia ser usado para gerenciamento de dispositivos gratuitamente. Realmente boa opção. Aqui está o link para o Guia de programação que descreve como usar esses recursos Guia de programação. Atenciosamente, Ana

Quais são alguns projetos de código aberto escritos em C ++ moderno?

1
Você pode tentar olhar para os seguintes projetos FOSS: -Boost libraries: – Boost C ++ LibrariesKDE: – Experience Freedom! Mlpack: – Uma biblioteca de aprendizado de máquina escalável em C ++ Tenho certeza de que haverá muito mais, mas realmente depende do seu interesse. Encontre seu interesse e tente encontrar um projeto relevante. Isso ajudaria você a manter o foco em uma organização e a fazer um bom trabalho por lá. Se você está apenas procurando um projeto baseado no idioma e não no interesse, é muito provável que você saia – um dia ou outro. Por isso, eu enfatizaria novamente que encontre um projeto que você realmente goste. Se algo estiver estranho ou errado, tente melhorá-lo.

2
Alguns projetos C ++ realmente impressionantes que usam C ++ moderno são: 1. http://pointclouds.org/ – Lida com o processamento de imagem 3d / processamento da nuvem. Grande programação orientada a eventos em C ++, usa muito o BOOST. 2. ns-3 – Simulador de rede. Código C ++ limpo e elegante. Bom uso de padrões de design. Uma Biblioteca de Aprendizado de Máquina C ++ Escalável – Uma biblioteca de aprendizado de máquina. Ainda na infância. Grande uso de modelos e STL.

3
Além da resposta de Aditya Aggarwal, outros projetos populares são: VLC Media Player, Qt, GNU Compiler Collection. etc.Você pode encontrar muitos outros em aplicativos C ++ e fazer uma pesquisa no GitHub, Sourceforge ou OpenHatch.

Por que as pessoas contribuem para projetos de código aberto?

1
As pessoas contribuem para projetos de código aberto porque1. Eles são incríveis2. Eles realmente amam a codificação3. Eles apreciam o valor de se ajudarem e apreciam a ajuda de outras pessoas4. Eles querem ganhar experiência em codificação5. Eles realmente acreditam no código aberto como uma cultura O que impulsiona a contribuição do código aberto é a idéia de construir uma comunidade unificada; um que entende os benefícios de apoiar um ao outro – mais olhos, economiza tempo, melhor manutenção, o que leva a melhores softwares e, é claro, todas as grandes mentes em um só lugar.

2
Eles adoram codificação. As contribuições de código aberto são a única coisa que você pode colocar em seu currículo, onde pode se gabar do que realmente faz. (Como a maioria das empresas possui NDAs com seus funcionários para não divulgar o que fizeram.) O código aberto oferece outras vantagens, como participar de competições como GSoC, Outreachy etc. O amor da comunidade. O código aberto é aberto e diversificado. Não importa a faculdade em que você se formou, se você é um estudante ou um desenvolvedor experiente, suas idéias serão sempre respeitadas e consideradas.

3
As respostas em que consigo pensar: elas simplesmente gostam de voltar ao mundo em geral. Uma motivação de caridade, juntamente com uma paixão pelo que estão fazendo, são pagos por um empregador ou cliente. Muitos softwares desenvolvidos para o benefício de organizações específicas são contribuídos para a comunidade de código aberto por vários motivos. Eles querem usar a contribuição para promover a si mesmos para o avanço ocupacional, como serem contratados ou promovidos, ganhar o respeito dos colegas ou encontrar clientes.

Existem projetos de código aberto baseados em node.js e expressjs?

1
https://github.com/cliftonc/calipso O Calipso é um sistema de gerenciamento de conteúdo simples, baseado no Express. Tenho certeza de que existem muito mais projetos, mas esse é possivelmente um dos mais famosos do mercado.

2
Acho que qualquer coisa de TJ Holowaychuk se qualificaria, pois ele é o autor original do aplicativo Express.jsScreenshot é um exemplo: https: //github.com/visionmedia/s… Aqui está outro que descobri recentemente por Alex Alessio que é um aplicativo Express que incorpora Backbone.js e Require.js e vários outros módulos que seriam padrão em um projeto de produção maior.http: //github.com/alessioalex/Cl …

3
Ei, passei muito tempo nessa questão por diversas razões. Acabei construindo uma lista de aplicativos nodejs interessantes (não pacotes): sqreen / awesome-nodejs-projectsSinta-se livre para contribuir.

Quais são alguns mecanismos de análise de sentimentos de código aberto?

1
As soluções variam de extração de informações, aprendizado de máquina, PNL, conjuntos de treinamento etc. Aqui estão algumas: Gate (+ Annie) – http://gate.ac.uk/LingPipe – http://alias-i.com/lingpipeWEKA – http://www.cs.waikato.ac.nz/ml/w…OpenNLP – http://incubator.apache.org/open…JULIE – http://www.julielab.de/

2
Eu me deparei com este [1] belo post de blog que lista todas as ferramentas de mineração de texto e PNL de código aberto. Quando você se refere às ferramentas de análise de sentimento de código-fonte aberto, presumo que essa ferramenta seja sempre projetada usando uma das ferramentas de código-fonte aberto listadas no post [1]: http: //www.searchenginecaffe.com …

3
Você pode usar o serviço da web / API gratuito em http: //text-processing.com/docs / …

Existem projetos de código aberto baseados em node.js e expressjs?

1
https://github.com/cliftonc/calipso O Calipso é um sistema de gerenciamento de conteúdo simples, baseado no Express. Tenho certeza de que existem muito mais projetos, mas esse é possivelmente um dos mais famosos do mercado.

2
Acho que qualquer coisa de TJ Holowaychuk se qualificaria, pois ele é o autor original do aplicativo Express.jsScreenshot é um exemplo: https: //github.com/visionmedia/s… Aqui está outro que descobri recentemente por Alex Alessio que é um aplicativo Express que incorpora Backbone.js e Require.js e vários outros módulos que seriam padrão em um projeto de produção maior.http: //github.com/alessioalex/Cl …

3
Ei, passei muito tempo nessa questão por diversas razões. Acabei construindo uma lista de aplicativos nodejs interessantes (não pacotes): sqreen / awesome-nodejs-projectsSinta-se livre para contribuir….

O Linux realmente falha porque é de código aberto?

1
O Linux falhou miseravelmente. Quando falamos em “Linux”, estamos falando sobre o uso do Linux como um computador de mesa / computador pessoal. Na última análise independente independente publicada em dezembro de 2018, os desktops Linux possuíam apenas 0,9% do mercado de usuários de desktops. Após 27 anos de desenvolvimento gratuito e de código aberto, o Linux possui apenas 0,9% (aproximadamente) do uso mundial de computadores desktop portanto, por definição, temos que considerar uma falha. Ao perguntar aos “usuários médios” (ou seja, 99,1% do público geral de computação) ao longo dos anos por que eles não usam o Linux, as respostas mais comuns são: A maioria dos usuários nunca ouviu falar do LinuxLinux. não possui uma abordagem de marketing focada, com recursos suficientes para apoiar esse plano. Pode-se argumentar que o Linux não possui recursos e nenhum plano. Os usuários acham o processo de selecionar apenas uma distribuição assustador, se não impossível. Há mais argumentos do que consenso, com a comunidade Linux sobre qual distribuição é melhor para uma distribuição. novo usuário, portanto, é impossível para um novo usuário tomar uma decisão.Se uma distribuição for selecionada de alguma forma, às vezes a instalação continua e o usuário pode inicializar em um sistema em funcionamento, mas muitas vezes a instalação apresenta um problema grave. Não espere e eles não querem problemas, apenas querem usar o computador sem se preocupar com isso. O Suporte NightmareLinux depende de fóruns (para distribuições que não têm suporte comercial, que por definição não é para usuários comuns) para a grande maioria Os fóruns são um pesadelo assustador para o usuário médio, que geralmente é atacado por fazer perguntas para iniciantes, sem saber como fazer uma pergunta corretamente, sem procurar a resposta corretamente Algumas distribuições têm um mecanismo de atualização / atualização que funciona principalmente, mas a maioria não o faz para que o usuário médio esteja selecionando uma distribuição aleatória, esperando que tenha selecionado bem, apenas para descobrir que há falhas ou que o processo de atualização Os usuários comuns nunca querem ouvir falar da linha de comando, mas a maioria dos fãs de Linux, em algum momento ou outro, faz questão de mostrar o quanto eles são orgulhosos e dependentes da linha de comando, isso na verdade afasta a média do usuário. Os principais softwares, como suítes de escritório, são dolorosos para as pessoas comuns aprenderem a usar ou se adaptar, e essas suítes ainda têm falhas com as quais as pessoas comuns não querem lidar. Todo o restante do software é facilmente disponível. para Windows e macOS não existem no Linux. Quando os fãs do Linux defendem a capacidade de escrever seu próprio software ou até de montar as ferramentas gratuitas e de código aberto que já estão disponíveis, o usuário comum fica impressionado porque, na verdade, não pode escrever software.JogosO ambiente de jogo do Linux é ruim. Embora tenha sido aprimorado recentemente, ele ainda não consegue manter a experiência de jogo do Windows. O SolutionLinux não resolve nenhum problema que seja resolvido por 99,1% do que os usuários de computadores de mesa em todo o mundo desejam resolver. Eles não veem nenhum recurso no Linux que não possam executar no Windows / macOS (com o que se preocupam). Não pagar por uma licença do Windows não é um problema para o usuário comum, eles compram um computador e o custo da licença é já instalado, para que não seja um problema. O usuário comum, na verdade, não deseja construir seu próprio computador, não quer aprender como o sistema operacional funciona, não é divertido reparar ou mesmo brincar com o sistema operacional, o um usuário comum deseja que seu sistema operacional funcione o tempo todo sem que se preocupe com ele, o que o Linux não fornece….

Quais são os melhores projetos de código aberto para os quais posso contribuir?

1
http://openhatch.org/ fornece diretrizes decentes para contribuir com projetos de código aberto.

2
Pacotes de código aberto do Python e DjangoDjango-CRM: Customer Relationship Management baseado no Djangohttps: //github.com/MicroPyramid/…Django-blog-it: Blog personalizado do Django pronto para usar https://github.com/MicroPyramid/. ..Django Web Packer: Uma ferramenta de compressor de django que agrupa arquivos css, js em um único arquivo css, js com webpack e atualiza seus arquivos html com o respectivo caminho de arquivo css, js. https://github.com/MicroPyramid/…To Para ver mais pacotes, visite: https://github.com/MicroPyramid/

3
Eu tenho um projeto de banco de dados de código aberto chamado concurso e estou procurando colaboradores em Java.

Qual é o projeto de código aberto mais bem-sucedido até agora e por quê?

1
Em termos de software: – GCC- Gnu / Linux- Apache – Firefox, nessa ordem, mas seguido de perto por várias linguagens, bibliotecas e vários pacotes decentes de usuário final.Mas o projeto mais bem-sucedido foi a invenção / definição de “free” software “/” código aberto “/” cultura aberta “em si. A própria idéia de que tal coisa é possível e a coisa certa a fazer. O que gerou um legado em todos os outros projetos, não apenas em software, mas em hardware, do Arduino ao RepRap e ao Open Village Construction Set para centenas de projetos de financiamento coletivo, todos comprometidos em doar seus esquemas de software e design. Nos anos 80, era meio “óbvio” que o software seria (grande) negócio e a computação seria cara. Mesmo que houvesse “computação em casa”, isso seria prejudicado pelas licenças que o forçariam a comprar uma cópia do preço integral do software para todos os computadores em que rodavam. E por dongles, proteção contra cópias, etc. Com pacotes de software doméstico sérios que custam várias centenas de dólares e até software básico de negócios chegando aos milhares, a maioria das pessoas só tenta usar alguns pacotes. Os indivíduos podem piratear, mas isso não foi é uma opção para empresas legítimas. Então, lembremos que, sem o Linux e outras ferramentas de software livre, empresas como Google e Facebook teriam nascido “encadeadas”. Pagando um imposto do sistema operacional por servidor à Microsoft ou à Sun. E com a Microsoft determinando mais ou menos o que eles poderiam fazer. (O Google seria capaz de competir quando o Bing saísse chamando APIs não documentadas no Windows Server?) Nesse sentido, precisamos adicionar a forma da Web hoje aos créditos de código-fonte aberto. Quase todo serviço bem-sucedido (grande ou pequeno) conseguiu esse usando o software livre para garantir sua liberdade de qualquer provedor de plataforma específico. (BTW: a próxima geração de aspirantes a gigantes terá que reaprender esta lição e obter sua liberdade da Apple, Google, Facebook, etc., adotando protocolos de comunicação, canais de distribuição, gratuitos e abertos). O software de código aberto é o projeto de maior sucesso da FLOSS. E a Licença Pública Geral GNU da FSF foi uma parte crucialmente importante para espalhar essa ideia. A GPL era um artefato concreto. Tão importante quanto a Constituição Americana. Isso levou as pessoas a conversar, pensar e discutir sobre a liberdade de software e se o código deveria ser compartilhado ou acumulado. Mesmo quando rejeitaram a licença por ser muito rigorosa, muitas pessoas tiveram que fazê-lo a partir de uma compreensão enriquecida do que estava em jogo. Para alguns, era mera conveniência. Mas muitos adotaram a GPL como um emblema de orgulho: uma bandeira para sinalizar que eles também defendiam a liberdade e contribuíam para a riqueza comum de redes compartilhadas. Hoje, é difícil encontrar desenvolvedores de software sérios que não confiam nele, e reconhecer o valor de tais bens comuns e sentir que algum aspecto dele deve ser respeitado e protegido (mesmo quando eles têm modelos de negócios específicos que estão em conflito com ele) . Essa é uma extraordinária mudança de mentalidade nos últimos 30 anos e uma vitória extraordinária.

O Quora está planejando o LiveNode de código aberto?

1
No momento, nossa principal prioridade é criar o aplicativo Quora e tirá-lo do papel, por isso é difícil dizer algo sobre coisas que não estão diretamente avançando nisso.Fizemos um esforço para manter o código de infraestrutura isolado do código do aplicativo parcialmente tão aberto fornecer o código seria mais fácil, mas ainda assim seria muito trabalhoso separar o LiveNode de todo o resto, para que provavelmente não aconteça muito em breve.

Quais são as desvantagens do código / software de código aberto?

1
Se você está disponibilizando seu software de código aberto: Código aberto significa mais esforço e também custos envolvidos. Como o retorno do investimento pode ser feito é uma preocupação. Se você estiver usando código-fonte aberto: o tipo de licença é importante. Se o licenciamento não for apropriado, você poderá pagar por uma licença ou até mesmo seu produto precisar ser retirado do mercado.

2
Só porque algo é rotulado de código aberto, isso não é impressionante. Um número de estruturas e software de código aberto foi abandonado. Não são apenas os garotinhos que abandonam as coisas. Para todo o sucesso da consulta, o jquery UI e o jquery Mobile são abandonados neste momento. Como você gostaria de criar um projeto nesses produtos. O que você faz agora? Seu aplicativo é baseado em uma estrutura que foi abandonada. Mais trabalho que você não esperava. Só porque algo é de código aberto, que de alguma forma magicamente não melhora as coisas.

Quais são alguns bons projetos React JS de código aberto?

1
Aqui está uma recente que foi divertida – o cliente Soundredux – Soundcloud. Usa React + Redux andrewngu / sound-redux

2
Confira esta lista de código-fonte aberto criado pela Avocode: Avocode – Projetos de código-fonte aberto, kits de interface do usuário e bibliotecasHá bibliotecas de código-fonte aberto para React.js úteis para renderização no servidor, gerenciando atalhos, permitindo uma área de arrastar e soltar, criando visualizações de lista e muito mais.

3
Aqui está uma pequena lista: Por que somos fornecedores abertos Nosso mais recente projeto de reação | Plataforma rápida de gerenciamento de conteúdo hospedado no LeftCloud, API-First CMS (parcialmente de código aberto) gatsbyjs Acho que provavelmente veremos um grande aumento em breve.

Qual é o melhor código de código aberto C ++ a ser lido para melhorar as habilidades de codificação?

1
Leia QUALQUER código publicado por Donald Knuth, principalmente em apoio aos esforços que ele envidou para “Programação alfabetizada”. O LaTex é um bom exemplo, mas o CWEB é muito menor e, como tal, é mais fácil de entender em termos de funcionalidade mais rapidamente. Mas garoto, qualquer coisa que Knuth escreveu foi uma verdadeira alegria de ler. E eles foram eficientes. Eles apenas voaram! Você quer aprender a escrever código como um mestre, você lê o código escrito por um mestre…

2
O projeto Chromium é um ótimo começo. Sugiro que você siga o guia de estilo do Google C ++. As regras aqui também podem ser usadas em outros projetos e contêm algumas práticas bem definidas em geral [1]. Você pode obter o código a partir daqui [2]. Além disso, o projeto Boost também contém um bom código C ++ revisado por pares [ 3] 1 – http: //google-styleguide.googlec…2 – http://dev.chromium.org/develope…3 – http://www.boost.org/

3
Muito obrigado pelo A2AFirst, o código C ++ de código aberto do Google é bastante alto e é revisado por pares (diferente de algum código de código aberto). Também está bem documentado. Você pode ler os projetos de código-fonte aberto, como: google / googletest Buffers de protocolo | Google DevelopersChromium – The Chromium ProjectsAlguns outros repositórios de código aberto que eu recomendo seriam: tensorflow / tensorflow – Deep learning.electron / electron – Cross Platform App Developmentapple / swift – O idioma do iOSscylladb / seastarcapnproto / capnproto

Como posso melhorar minha biblioteca de código aberto? O que um desenvolvedor precisa fazer para criar uma comunidade em torno de um projeto Android de código aberto?

1
A maneira de melhorar seu código é sempre ver o código de outras pessoas, bibliotecas populares com padrões bem conhecidos, etc. Também peça e receba feedback. A leitura de livros ajuda, mas a parte mais importante é praticar. Nós, como desenvolvedores, somos como qualquer outra pessoa executando sua profissão e um dos melhores exemplos para mim, somos músicos: eles praticam muito com seu instrumento, mesmo tendo estudado música. Sobre a criação de comunidades em torno de bibliotecas de código aberto … apenas espalhe o mundo: faça palestras, participe de outras comunidades, mostre o que você fez.

2
Certifique-se de que esteja bem escrito. Certifique-se de que esteja bem documentado. Responda a todas e quaisquer perguntas que você receber, pelo menos a princípio. Fale sobre isso em encontros e conferências. Esteja preparado para críticas, construtivas e outras. Esteja preparado para estar errado. Reconheça um bom feedback ao recebê-lo e faça algo com ele. Mas mais importante do que qualquer um desses … Verifique se o seu projeto é útil. Demonstre isso.

3
O primeiro e mais importante é que seu código deve resolver algum problema que possui uma solução paga ou não tem solução. Se você apenas tentar replicar algo que já tem centenas de soluções de código aberto disponíveis, não acho que muitas pessoas estejam dispostas a gaste tempo lendo e atualizando seu código. As práticas de descanso são as mesmas, documente, mantenha-o limpo, continue atualizando-o e sim, você deve liderar de frente e deixar o resto seguir.

Como um novo desenvolvedor pode se envolver em projetos de código aberto?

1
Comecei escolhendo um projeto que eu usava todos os dias: GNOME. Fui ao seu rastreador de erros (https: //bugzilla.gnome.org/brows …), escolhi um aplicativo que eu usava regularmente (acho que o primeiro foi o Rhythmbox) e encontrei um bug que eu queria corrigir. software que você escolher, baixar a fonte, procurar, pedir ajuda no IRC, listas de discussão etc. e enviar patches. Acho que seria muito gratificante ajudar a melhorar o software usado regularmente.

2
Alguns dos projetos maiores têm faixas iniciantes. O Linux possui o site “Kernel Newbies”: http://kernelnewbies.org/LibreOffice possui “Easy Hacks” http: //wiki.documentfoundation.o …

3
O Github.com é um ótimo começo, mas isso fornece código e nem sempre direção. Muitos projetos carecem de boa documentação, comentários e todas as coisas não relacionadas a códigos que facilitam o manuseio de um projeto. Portanto, se você está preso, muitas vezes encontra ajuda no IRC (o Freenode geralmente é bom). eles geralmente recebem ajuda e o apontam no lugar certo.

Qual é a melhor ferramenta ETL de código aberto para começar a trabalhar?

1
Pentaho DI é minha recomendação. A melhor coisa com o Pentaho é que há suporte disponível no mesmo. Você paga pelo suporte de acordo com o pacote necessário. O MS BI é outra opção, novamente não gratuita, mas relativamente barata. O MS SSIS é uma ferramenta ETL muito poderosa e, a menos que você esteja trabalhando com mais de 20 GB de dados, pode atender a todas as suas necessidades.

Onde posso encontrar colaboradores de código aberto?

1
Uma empresa vem à mente – a Provectus, conhecida por sua experiência em design, oferece grande valor por um preço razoável. Minha experiência é que eles oferecem os designers que você quer em menos de uma semana. E sim, Dribbble é um ótimo lugar. Drible – Provectus.

2
Se você encontrar desenvolvedores para seus projetos em andamento, eu tenho uma boa solução para a mesma solução. Coreway é a melhor escolha para seus projetos e você pode entrar em contato conosco através do link abaixo http://www.corewaysolution.com/

3
Os incríveis colaboradores gitter.Linksies: http: //github.com/metadevfoundat …

Quais são as melhores ferramentas de código aberto para um cientista de dados?

1
Embora ‘cientista de dados’ possa parecer um novo termo para muitos, a prática existe há muito tempo usando identificadores de domínio específicos. Existem muitas ferramentas excelentes disponíveis. Assim como nas linguagens de programação, a ‘melhor’ ferramenta depende da natureza dos problemas que você está tentando resolver, da forma dos dados, do histórico do (s) desenvolvedor (es), da infraestrutura disponível e de outras variáveis. Sem conhecer esses detalhes, o conselho geral seria examinar R, SciPy e Hadoop, considerando o exposto acima.

2
Na minha opinião, o The R Project for Statistical Computing e seu ecossistema, consistindo em uma infinidade de pacotes para todas as análises sob a luz do sol, sua comunidade instruída e responsiva e uma riqueza de todos os tipos de documentação e recursos para todos os níveis de habilidades e experiência. Embora o artigo a seguir não seja abrangente (se possível), ele apresenta um bom ponto de partida para o raciocínio em direção a uma estrutura de valorização e adoção de R (o termo é meu): http: //www.econometricsbysimulat ….

3
A partir dos resultados da pesquisa de software do KDnuggets 2016 do ano passado – que eu gosto porque tende a ter uma melhor distribuição geográfica, o ecossistema R é seguido de muito perto pelo ecossistema Python (incluindo o scikit-learn), e é possível que o Python possa superar R em no futuro próximo. No entanto, os dois não são equivalentes – portanto, pode ser um caso de ambos, e não de qualquer um. Nossa equipe considera R (e Shiny) bom para prototipagem e análise estatística, enquanto o Python funciona melhor em um ambiente de produção. Isso também é consistente com os resultados – o crescimento do Python pode ser uma função da evolução natural de uma equipe de ciência de dados, desde experimentos e trabalhos ad-hoc até uma integração mais estreita com o software da empresa.

Por que o software de código aberto é gratuito?

1
Depende do que você quer dizer com grátis. Agora a maioria das pessoas fica confusa com isso, mas é por isso que a comunidade de código aberto fala sobre livre como em libre (liberdade) e livre como em cerveja.O software de código aberto é sobre libre, mas muitas vezes isso também significa que não custa qualquer coisa também, no entanto, isso nem sempre é o caso. Você pode ter licenças de código aberto que permitem a venda do software.

2
Pode ser.Em seguida, novamente, também pode ser um pacote de software comercial.O código aberto é uma maneira de vários desenvolvedores trabalharem juntos em um projeto para aprimorá-lo, sem ter que passar por todo o incômodo de RH, contratação, … O proprietário do produto inicia um projeto. As pessoas podem participar voluntariamente do desenvolvimento e, quando terminar, o proprietário pode decidir liberar o software ou vender licenças.

3
“Código aberto” não é um software em si, mas geralmente é gratuito, sim. Código aberto significa apenas que temos acesso ao código fonte. Assim, ser capaz de fazer coisas que não foram originalmente feitas. O que é código aberto?

Quais são as ferramentas de BI mais simples para começar? Estou procurando principalmente uma solução de código aberto / gratuito com um tutorial de introdução.

1
Você deve conferir o Pentaho. Eles têm um conjunto abrangente de produtos e não acho que demore mais de uma semana para implantar seu primeiro relatório. Sou consultor da Microstrategy e devo admitir que geralmente é mais eficaz usar o Excel do que qualquer outra coisa, especialmente quando o usuário já é um especialista. Isso, combinado com boas ferramentas de colaboração, pode criar um ambiente de BI bastante decente. O problema é que, assim que você começa a adicionar necessidades diferentes, você começa a olhar também para um panorama mais complexo. Para realmente impulsionar uma iniciativa completa de BI, você precisa considerar esses fatores: Gerenciamento de usuários e acesso fácil à WebServiços completos de distribuiçãoSuporte a uma ampla variedade de conectores de banco de dadosDesenvolvimento rápido para painéis e documentos de negóciosCapacidades de dados e análise preditivaSe eu, você experimente Pentaho e Microstrategy lado a lado. A Microstrategy é gratuita se seu objetivo é apenas gerar relatórios (você deve conferir o site deles). Geralmente funciona “fora da caixa”. Esteja ciente de que existem muitas soluções por aí; portanto, você deve experimentá-las (verifique se elas estão disponíveis para download).

2
Excel. Alugue a versão Pro-Plus do Office 365 por cerca de US $ 12 / assento / mês. Você poderá trazer dados de várias fontes e criar relatórios dinâmicos em pouco tempo. Existe uma curva de aprendizado, mas há muitos tutoriais online. O Excel recebe muita reação porque as pessoas tendem a ter problemas ao usar dados brutos sem aplicar adequadamente as regras de negócios. Se você conhece bem seus dados, isso é menos problemático. Para aqueles com um conhecimento iniciante de dados organizacionais, é melhor que o departamento de TI crie uma camada de abstração para organizar e higienizar seus dados. Isso pode ser qualquer coisa, desde algumas visualizações baseadas em SQL até um data warehouse completo. É assim que o BI é feito corretamente. Um problema hoje em dia é que muitas ferramentas são vendidas como soluções completas. Eles são mais como uma caixa de ferramentas com os 7 componentes de software que você mencionou como ferramentas na caixa de ferramentas. A habilidade necessária para usar as ferramentas depende do que você está tentando construir. Excel não é diferente. É apenas barato e universalmente aceito. Espero que ajude.

3
Olá, eu já vi essa pergunta surgir várias vezes. Eu sei que as respostas “depende” e “tamanho único não serve para todos” e “grátis não é grátis” não ajudam, mas infelizmente o BI está na cabeça das pessoas e não do software. A maioria dos pacotes de software de BI pode praticamente fazer a mesma coisa. Então, fornecerei alguns links que você pode investigar, compreender e permitir que você contemple no seu próprio ritmo. No final do dia – “fácil” é subjetivo, portanto, será necessário algum esforço de sua parte para investigar minuciosamente. Confira: http://sandbox.pentaho.com/ http://www.pentaho.com/livedemo/ http: //blog.pentaho.com/2011/09/…http: //blog.pentaho.com/2011/01 / … http://sandbox.pentaho.com/?GTTa…and Deixe me saber como você faz. O objetivo é tornar as suas listas de afazeres em uma coisa prática e fácil.

Qual é a melhor alternativa de código aberto para o Lunascript?

1
O Meteor (plataforma Javascript) é uma solução completa que oferece os mesmos benefícios que o Luna e é de código aberto. Aqui está uma comparação entre os dois. Frameworks de aplicativos da Web: Quais são as diferenças entre o Meteor e o Luna?

2
Confira links http://groups.inf.ed.ac.uk/links/É uma espécie de idéia semelhante ao lunascript.Professor Philip Wadler, da Universidade de Edimburgo, constrói-o com sua equipe com base em sua experiência com XML, Java e Haskell Aqui estão algumas demos http: //groups.inf.ed.ac.uk/links …

3
https: //github.com/mauricemach/z … parece bem próximo do que o Lunascript pode fazer. Junte-se à serialização entre o backbone.js e o Zappa, será bastante poderoso. Se você estiver realmente interessado em como a serialização entre o backbone e o nodejs pode ser feita, leia este: http://andyet.net/blog/ 2011 / fev / …

Por que o código aberto é ‘bom’?

1
A filosofia do código aberto é que todos possam contribuir para fazer um projeto melhor. Isso significa que é mais acessível e mais confiável, pois, às vezes, você pode ter dezenas de especialistas trabalhando em um projeto, garantindo qualidade e segurança. E o fato de uma pessoa ou equipe supervisionar tudo significa que não haverá discrepâncias ou conflitos com a visão geral. Isso garante que você tenha um ótimo produto sem restrições de propriedade.

Existe uma solução de código aberto para criar um Meme Generator?

1
Desculpe pela resposta curta, ou talvez por uma pergunta, mas alguém já consultou esta? Meme Generator APISeem promissor. Eu acho que você deve poder trabalhar com JSON.

2
Sim, existe uma solução de código aberto no github, como criar seu próprio site gerador de memes, onde as pessoas podem fazer upload de fotos e adicionar textos nele. Você pode baixar o código-fonte aberto github.com.Se você conhece pouco sobre a linguagem de programação do servidor php e phpmyadmin, deve instalá-lo sem dificuldades. Ainda assim, se você deseja instalá-lo em algumas etapas, aqui está a documentação para fazê-lo.Depois da instalação, o site será semelhante a esta DEMO.

3
Você pode usar minha solução: GPL’d: Exemplo de saída de classe PHP de gerador de meme aqui: HauFotka – Zatrzymaj czas swojego psa!

O que é um bom modelo de negócios para projetos de código aberto?

1
O licenciamento duplo é uma maneira de os clientes em potencial estarem dispostos a comprar a licença proprietária. A licença do sistema operacional pode ajudar na penetração do mercado, fornecendo essencialmente uma versão de avaliação flexível do seu produto. Encontrei “O Modelo de Negócios de Código Aberto Comercial de Fornecedor Único”, de Dirk Riehle, uma boa leitura: http: //dirkriehle.com/publicatio …

2
Veja o que a Red Hat está fazendo, para iniciantes. No momento, eu diria que eles são o grupo de código-fonte aberto mais bem-sucedido do mundo. Faça o que eles estão fazendo e o tio de Bob. O melhor é que eles são uma empresa pública, de modo que os documentos da SEC estão disponíveis [1] para estudo, e você pode entender muito sobre como uma empresa trabalha estudando aqueles arquivamentos. [1]: http: //www.sec.gov/cgi-bin/brows …

3
Consulting.Build software que se torna amplamente utilizado, em seguida, cobrar sua experiência. Muitos projetos de código aberto são suportados dessa maneira.

Quais são alguns sites para código-fonte aberto?

1
Olá, Construa um software melhor, juntos (GitHub) EDIT – Parece que existem muitos outros sites de hospedagem / código-fonte de projeto, como os seguintes: Hospedagem de código-fonte gratuita para Git e Mercurial por BitbucketDownload, Desenvolva e publique software de código aberto gratuitoGoogle CodeOpen Source Web Design O CodehausLaunchpadCodePlexWelcome [Gna!] Hospedagem de Projetos do Google

2
Bem, talvez você precise do seguinte: mecanismo de pesquisa de código-fonteEste mecanismo de pesquisa de código se baseia em alguns sites de projetos de código-fonte aberto, como: 1. Hospedagem de código fonte gratuita para Git e Mercurial por Bitbucket2. Google Code3. CodePlex4. Baixe, Desenvolva e Publique Software Livre de Código Aberto Página Inicial do Projeto Fedora Além disso, você pode pesquisar o código-fonte aberto nesses sites acima pelo nome do projeto, aproveite. :-p

3
SourceForge.Google Code.FossHub.But, se você não está procurando por projetos completos, apenas um código inspirador, o Stack Overflow (site) é incrível.

Por que o Google abriu o TensorFlow? O que há para eles?

1
Se você revisasse o código-fonte do Tensorflow quando ele foi lançado (Versão 0.5), entenderia que havia muito trabalho para poder trabalhar com a biblioteca de maneira simplificada. Depois de muitos meses de melhorias e lançamentos de interfaces otimizadas Pode-se dizer que o uso do Tensorflow é muito mais direto, e a estrutura em si é muito mais poderosa. Alcançar esse status pode ter sido provado quase impossível, mesmo para a capacidade cerebral do Google, porque exigiu a ajuda de talvez milhares de testadores trabalhando em centenas de problemas. Isto é o que a comunidade forneceu gratuitamente.

2
A Amazon obtém mais lucro com seus negócios na nuvem do que com as compras online. O Google também quer ganhar dinheiro fornecendo serviços em nuvem. Se uma empresa cria seus serviços no TensorFlow, eles têm um incentivo para usar a nuvem do Google em vez da nuvem da Amazon, porque o Google possui ASICs do TensorFlow.

[Infográfico] Cientista de Dados – o caminho mais curto para a carreira do século XXI!

Resultado de imagem para site:blog.tecnologiaqueinteressa.com

No infográfico a seguir você encontra respostas para as questões mais importantes sobre a carreira em cientista de dados!

  • O que é Big Data?
  • Big Data vs Ciencia de Dados
  • O que é um cientista de dados?
  • Quais são os conhecimentos necessários para um cientista de dados?
  • Qual é o salário médio de um cientista de dados?
  • O que é o Hadoop?
  • Que grandes empresas adotaram o Big Data?
  • Onde estudar para se tornar um cientista de dados?
  • Quais certificações são mais reconhecidas pelo mercado para o Data Scientist?

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Ferramentas como o Vengage permitem criar vários tipos de (info)gráficos.

Carreira de Cientista de Dados, Inteligêcia Artificial e Big Data: 50+ Dúvidas Respondidas!

Dúvidas Big Data

A carreira de Cientista de Dados, Inteligência Artificial e Big Data é uma das mais badaladas dos últimos anos, e neste texto você encontra dicas para encontrar o caminho mais curto para trilhar essa carreira tão promissora.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Há alguns anos fiz uma pesquisa junto os leitores do Tecnologia que Interessa!, sobre suas dúvidas e desafios em relação a Big Data e Ciência de Dados.

Agora, resolvi atualizar este levantamento e complementar a lista de dúvidas respondidas com uma compilação que fiz de dúvidas comuns postadas em fóruns especializados e outros sites.
O resultado foi a lista enorme de perguntas e respostas que você vai ter acesso agora.
Mas antes, uma rápida análise sobre as informações coletadas no levantamento junto aos leitores do blog.
Será que muita coisa mudou de lá pra cá? O que você acha?
Algumas observações preliminares sobre as respostas:
  1. A pesquisa solicitava informar se o respondente estava empregado e sua área de atuação, e com isso foi possível perceber algumas peculiaridades dos perfis. Enquanto desenvolvedores e engenheiros de software estavam mais interessados em entender como funciona a tecnologia, exemplos e projetos, analistas e técnicos de suporte queriam saber “tudo”, já que a maioria não tinha praticamente nenhum conhecimento sobre o assunto, assim como alguns gestores. Outros gestores estavam interessados na aplicabilidade da tecnologia, por onde começar, e como adotar em pequenas e médias empresas. Vamos tentar endereçar tudo isso nas próximas linhas.
  2. O nível de importância da tecnologia foi de aproximadamente 6, variando de 1 a 10, o que demonstra que, de forma geral, os profissionais reconhecem a importância de aprender sobre a tecnologia em termos de mercado e carreira.
  3. Foram 75 respondentes, sendo a maior parte composta de Gestores de TI, seguidos de perto pelos Analistas de Suporte e, mais longe, dos Desenvolvedores. Pode parecer estranho, mas isso reflete o perfil dos leitores do blog (mais infra e gestão, menos dev);
  4. A fonte de informação mais comum nas respostas foi do tipo portais de notícias, seguida por sites de vídeo e blogs, praticamente empatados. Entendi o recado, e pretendo escrever ainda mais e gravar vídeos sobre o tema em breve.
  5. A rede social mais usada é o Facebook, seguido de longe pelo LinkedIn e, mais longe ainda, o Google+.
Vamos às dúvidas, enfim.

1 – Por Onde Começar?

A resposta, ainda que óbvia, revela uma “pegadinha”. Embora a melhor opção pra começar seja estudar, eu não recomendo a leitura exclusivamente de blogs e sites.
Como assim, Christian? Você tem um blog!
A resposta pode parecer estranha, mas a verdade é que, para entender “direito” uma tecnologia, é necessário buscar conhecimento estruturado, e não apenas informações soltas, parciais, ainda que úteis.
Há muito mais conteúdo aqui no blog sobre o tema, mas se você está partindo do zero, é necessário seguir uma sequência lógica para um melhor entendimento do assunto.
E este é o grande defeito dos blogs, as informações ficam, por padrão, organizadas cronologicamente, e não são agrupadas por tema e estruturadas
Tentando resolver essa questão, aqui está a sequência lógica que entendo ser mais interessante pra que você possa obter o máximo dos conteúdos sobre o tema aqui no blog.
  1. Confira os números do mercado para Big Data neste infográfico;
  2. Aprenda o que é Big Data, seus conceitos básicos, veja casos de uso e exemplos no Guia do Consumidor;
  3. Entenda como determinar quanto é Big, ou seja, o que pode ser considerado Big Data, clicando aqui;
  4. Aprenda sobre Hadoop, uma das principais ferramentas para Big Data, bem como sobre HDFS e Map Reduce, seus principais componentes, aqui e aqui;
  5. Descubra o que fazer para trilhar uma carreira de sucesso como Cientista de Dados neste guia e neste infográfico;
  6. Por fim, fique antenado com as novidades da tecnologia através desses grupos do LinkedIn e Facebook. E, claro, acompanhando o blog! 🙂
  7. BÔNUS – se quiser ir além, você ainda pode conhecer técnicas e ferramentas específicas aquiaquiaquiaqui e aqui.

2 – Como Aplicar Big Data, Inteligência Artificial e Ciência de Dados em Empresas de Pequeno e Médio Porte?

O melhor caminho pra começar um projeto Big Data é perguntando qual a utilidade da tecnologia para a sua empresa.A resposta não é fácil, pois depende de um embasamento mínimo que permita identificar um caso de uso válido.

IBM lista 6 passos pra iniciar um projeto Big Data, começando pela identificação de um problema a ser resolvido na organização, seleção de pessoas de negócio e TI, definição de arquitetura, escolha de ferramentas, parceiros, etc.

Talvez o início seja a parte mais difícil, pois encontrar um problema relevante para o negócio e que dependa de análise de dados é complicado.

Ainda que a solução para quase todos os problemas de uma empresa hoje envolva algum tipo de análise de dados, encontrar um problema relevante, cuja solução vai impactar na organização a ponto de impulsionar avanços na adoção da tecnologia, pode ser um grande desafio.

O mais importante é encarar o desafio com a certeza de que há alguns facilitadores. O acesso a conhecimento na tecnologia é fácil e barato, e vários fornecedores como IBM, AmazonMicrosoftClouderaHortonworksMapr e outros oferecem cursos gratuitos (obviamente, voltados para suas soluções – ainda assim muito úteis!).

Há também uma série de parceiros, alguns com conhecimento multi-fornecedor, que podem ajudar a identificar um caso de uso e apoiar na implantação de um projeto piloto. A carência de profissionais especializados faz com que as empresas forneçam um nível maior de apoio aos clientes, e isso deve ser aproveitado com sabedoria.

3 – Preciso ser um Cientista de Dados?

Projetos de análise de grandes volumes de dados têm, por natureza, uma característica mutidisciplinar, exigindo, com frequência, equipes compostas de profissionais com perfis diversos.De acordo com a Pentaho, uma “equipe ideal” teria executivo patrocinador, usuário de negócio, especialista de negócio, cientista de dados, engenheiro de software/dados, jornalista de dados e arquiteto de sistemas/plataforma.

Evidentemente, a complexidade do projeto vai determinar o tamanho e diversidade de perfis da equipe, mas, respondendo objetivamente a pergunta: não necessariamente você precisa ser cientista de dados pra participar de projetos de Big Data e Ciência de Dados.

Entretanto, ser um cientista de dados garante a sua participação em qualquer projeto 🙂

4 – Onde (e o quê) Estudar para trabalhar com Inteligência Artificial e Big Data?

Já mostrei aqui o caminho a trilhar para se tornar um Cientista de Dados neste Infográfico.
Em resumo, estes são os assuntos mais importantes:
  1. Estatística e Matemática;
  2. Programação (Python, Java, R, Scala);
  3. Bancos de Dados (SQL e NoSQL);
  4. Visualização de Dados e Relatórios;
  5. Sistemas Distribuídos (Hadoop, Spark);
No outro texto sobre a Carreira de Cientista de Dados, relacionei os seguintes cursos no Brasil:
Especialização da Universidade Presbiteriana Mackenzie em Ciência de Dados (Big Data Analytics), com custo de 12 x R$ 1159,00 + 9 parcelas a definir.
MBA Analytics em Big Data, da FIA, com custo de R$ 28 mil.
MBA em Big Data (Data Science), da FIAP, a partir de 24 x R$ 950,00.
No exterior há muito mais opções, inclusive cursos em português.
Coursera (em inglês)
Big Data University (IBM – em inglês)
Udemy (vários cursos em português!)
Udacity (os famosos nano-degrees têm opções em português!)
E há também as opções de cursos, mas é importante ter cuidado.
Não recomendo os cursos do IGTI, por exemplo, tive referências ruins deles.
Já a Data Science Academy oferece alguns cursos gratuitos, e tem ótimas referências.
Agora, se você busca custo/benefício, então só há uma alternativa.

5 – Quais as principais ferramentas?

E aí, assustou?
Pois é.
O ecossistema Big Data é tão grande que já há quem diga que cresceu demais!
Mas não se desespere.
Comece pelas linguagens de programação, pois o tratamento dos dados é a etapa mais importante.
Eu sou fã do R, mas há quem defenda Python com unhas e dentes e Scala vem ganhando popularidade. E tem o Java, claro.
Hadoop Spark são requisitos obrigatórios pra qualquer profissional que busque uma formação completa.
A partir daí, as ferramentas a serem usadas dependem do objetivo.
Escalar seu DW usando o Hive;
Migrar os dados estruturados do SQL pro Hbase;
Analisar dados em tempo real com o Storm;
Consultar dados não estruturados usando SQL com Drill;
Indexar dados estruturados ou não com o Solr/Lucene;
Enfim… a lista de possibilidades é infinita.

6 – Como integrar Big Data, Inteligência Artificial e SGBDs/DW/BI tradicionais?

Essa pergunta é interessante e importantíssima para qualquer organização, afinal toda empresa tem seu legado, seus sistemas tradicionais, de uso essencial para sua operação. Muitas têm BI e já fazem análises mais sofisticadas dos dados dos sistemas transacionais.

Percebendo esta realidade, os fornecedores de soluções para Big Data Analytics e Ciência de Dados criaram a abordagem denominada Data Lake, em que o objetivo é estruturar um conjunto de dados que permita enriquecer e ampliar as análises tradicionais já realizadas.

Com isso, é possível utilizar ferramentas como Hadoop, Spark, R e muitas outras para coletar, tratar e integrar dados de fontes diversas, estruturados ou não, ao ambiente de análise de dados da empresa, ao seu DW/BI por exemplo.

Um exemplo prático disso é a possibilidade de usar R pra coletar dados de sites na web e redes sociais com notícias e comentários sobre a empresa, fazer um trabalho de análise de sentimento e armazenar o resultado no DW, integrando posteriormente com o ERP através do BI. Isso permitiria relacionar a opinião do mercado com os resultados financeiros da empresa e determinar o grau de impacto que uma notícia ruim pode ter nos lucros, por exemplo.

Imagino que a Volkswagen precisou fazer um trabalho desse tipo (caso já não tivesse) para lidar com o escândalo da falsificação dos resultados da emissão de poluentes, que arranhou gravemente sua imagem em 2015.

Algumas Considerações

A tecnologia está amadurecendo rápido.

O ecossistema de soluções é gigantesco.

São infinitas possibilidades de aplicações.

Isso tudo assusta.

Por isso escrevo tanto sobre este assunto aqui no blog.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Voltemos às dúvidas!

Como devo me preparar para uma entrevista com cientistas de dados no Facebook?

1
Outro ponto a ser observado: lembra-se da escola quando você faz um exame e estuda as anotações do professor porque provavelmente haverá perguntas palavra por palavra com base nas anotações dele? Imagino que algumas entrevistas possam ser assim. Falar com um ou dois entrevistadores e funcionários recentes por suas habilidades e conhecimentos no LinkedIn pode não ser uma idéia terrível.

2
Juntamente com as sugestões de outras pessoas, você pode tentar descobrir o que o Facebook de P&D está fazendo e tentar contribuir de alguma forma. Ter competência é boa, mas não suficiente, tente criar alguns casos de uso / projetos pessoais que o ajudem a abrir portas no Facebook. Conecte-se com as pessoas que estão por aí e entenda quais compromissos seu papel precisa dos indivíduos.

3
Não apenas no Facebook, você pode se preparar para todas as entrevistas de ciência de dados em qualquer campo. Para obter mais informações, entre em contato com o Data Monk para obter entrevistas de emprego sem problemas, além de ler esses livros que ajudarão você a entender as necessidades de uma entrevista. .in: Kindle Store5 Entrevistas reais completas sobre ciência de dados Q e A eBook: TheDataMonk: Amazon.in: Kindle Storehttps: //www.amazon.in/dp/B07QW3NBLW

Preciso de um diploma para me tornar um cientista de dados?

1
Em teoria, você pode aprender tudo o que precisa saber sem precisar ir à escola. Mas, realisticamente, você não conseguirá um emprego em ciência de dados sem um diploma.

2
Sim. Toda indústria precisa de alguma credibilidade de que você é um cientista de dados. Isso só pode ser cumprido por um diploma. Para uma pessoa normal ter uma base em ciência de dados, é necessário um diploma. A outra abordagem é tediosa e demorada. trabalho na indústria, especialmente no campo de TI.Saiba Big Data on-line por conta própria (embora seja difícil organizar o que estudar porque o big data é um campo enorme). Depois de algum tempo, procure trabalhos internos em big data e dê um salto em sua organização .

3
Analisei 350 descrições de cargo com o título “Data Scientist”, publicado principalmente em Bay Area, para descobrir a resposta a esta pergunta: “O mercado determina quem é um cientista de dados”

Os cientistas de dados ganham um ótimo salário, mas deve haver uma desvantagem. Qual é a desvantagem de ser um cientista de dados?

1
Dois grandes riscos: com algumas raras exceções, os empregadores não sabem para que serve a ciência de dados – ou que oportunidades podem ter com os cientistas de dados. Além disso, com algumas raras exceções, a disponibilidade e a qualidade dos dados costumam ser insuficientes para produzir valor ciência de dados. Qualquer uma das alternativas acima ou acima dificultará sua taxa de sucesso como cientista de dados, transformando-a em um trabalho ingrato. Nem todo mundo tem a sorte de trabalhar em um ambiente do tipo Google ou Facebook e você precisará estar pronto para criar sua descrição de trabalho, tanto quanto executá-la.

Quais são as melhores certificações de cientista de dados?

1
O DexLab Analytics é um instituto que fornece treinamento decente e orientado para a indústria em ciência de dados. Eles têm aulas on-line e off-line e têm faculdades experientes. O DexLab é conhecido por seu ambiente de sala de aula interativo e horários flexíveis. Eles também estão dando descontos para estudantes universitários interessados em aprender ciência de dados em seus centros de Gurgaon e Pune. Todos os detalhes sobre esta promoção podem ser encontrados na página do Facebook. Definitivamente, eu recomendaria este instituto se você quiser ser um cientista de dados bem-sucedido.

Quais são algumas das perguntas de quebra-cabeças / quebra-cabeças feitas em uma entrevista de cientista / analista de dados?

1
Aqui está um quebra-cabeça que me foi perguntado em uma de minhas entrevistas para o perfil de analista. Em um país em que as pessoas só querem meninos, toda família continua tendo filhos até ter um menino. Se eles têm uma menina, eles têm outro filho. Se eles têm um menino, eles param. Qual é a proporção de meninos para meninas no país? Dica: Tente responder a essa pergunta intuitivamente e depois prove sua resposta matematicamente.

É melhor ser um cientista de dados pesados de “banco de dados / programação” OU um cientista de dados pesados de “estatística”?

1
Resposta a curto prazo – Programação pesada. A maior parte do trabalho atualmente no mercado está em Data Munging. De qualquer projeto de ciência de dados, cerca de 60% a 70% dos esforços atualmente são dados Munging. Com ferramentas como datameer, platfora e várias outras, amadurecendo. Estamos passando da idade da pedra de Data munging para a idade do ferro. A necessidade está mudando para a solução de problemas de análise. Resposta a longo prazo: Equilibre os itens acima com uma grande dose de conhecimento do domínio e uma mentalidade analítica. Consulte mais pensamentos aqui Como posso me candidatar a um emprego no Data Scientist sem ter um doutorado?

Eu quero me tornar o melhor cientista de dados. O que devo ler? Quais são os melhores livros?

1
Para um iniciante completo, recomendo: Data SmartPython Machine Learning

2
O objetivo deste artigo é apresentar os principais conceitos e ferramentas para o desenvolvimento de um projeto de arquitetura de dados, com o objetivo de otimizar o tempo de execução dos projetos, otimizando o tempo de execução e otimizando o tempo de execução. livro muito bom, com o nome “OpenIntro Statistics”, de Diez, Barr e Çetinkaya Rundel.3. Encontrei uma publicação muito útil no Analytics Vidhya, compartilhando abaixo o link.15 Livros de leitura obrigatória para empreendedores em ciência de dadosHá 15 livros listados com explicação detalhada. Espero que ajude. Aprendizado feliz!

Qual é o pior pesadelo de um cientista de dados?

1
Meu pior pesadelo é não técnico. É ter pessoas que dizem que amam dados, mas na verdade não sabem como usá-lo, dizendo que os dados estão errados porque “eles sabem”.

2
O pior pesadelo não é realmente sobre dados – eu gosto de lidar com todos os tipos de problemas de dados, incluindo situações em que não temos dados suficientes.Em vez disso, é sobre como as pessoas usam seus resultados de maneira inadequada – talvez exagerem incorretamente o resultado para atacar seus clientes. oponentes (política do escritório); ou talvez eles não entendam / apreciem o processo científico, mas só querem usar a ciência de dados para empacotar suas ideias.

3
Quando os dados não seguem uma DISTRIBUIÇÃO NORMAL … (Os que trabalham no Google Analytics poderão entendê-los;): P)

Um cientista de dados é considerado um cientista ‘real’?

1
Enfim, o que é um cientista? Se você é pago para criar modelos, projetar e conduzir experimentos, publicar resultados na literatura revisada por pares, orientar estudantes e pós-docs, solicitar subsídios etc., não tenho nenhum problema com você se chama cientista. A maioria das posições de “cientista de dados” não possui um componente de pesquisa, publicação ou orientação; você está fazendo uma mistura de programação, estatística e matemática aplicada. Existem alguns cientistas de dados que pesquisam, mas, para uma primeira aproximação, você é um programador ou, possivelmente, um analista.

2
Alguns são. Alguns não são. Procurei propositadamente posições mais orientadas para a pesquisa, a fim de permanecer na ciência a maior parte do meu trabalho. O estatístico bayesiano é provavelmente mais preciso que o cientista, mas eu faço um monte de desenho de estudo, além de análises. No entanto, estou em uma unidade de negócios de operações e já ocupei unidades de negócios em posições anteriores, em vez de equipes de tecnologia.

Quais são os cursos recomendados para cientistas de dados?

1
Por favor, leia minha resposta a uma pergunta semelhante Resposta de Emmanuel Ibidunmoye a Quais aulas devo fazer em estatística / ciência de dados?

2
O aprendizado de máquina aplicado é Python.Pule as coisas de construção de modelo de ciência de dados até que você esteja bem versado em Python.A maioria do aprendizado de máquina não é modelagem de construção de qualquer maneira… é disputa de dados. Siga a foto abaixo e você estará muito melhor do que ninguém Quem está focado na construção de modelos.Inicie aqui: O Curso Completo de Python para Engenheiros de Aprendizado de MáquinaÉ gratuito e é no mundo real.

Como é uma entrevista com cientistas de dados no Google?

1
O Google não tem um papel explícito de cientista de dados. Portanto, quase nenhuma das entrevistas tem perguntas sobre aprendizado de máquina / ciência de dados. Você começa a trabalhar em projetos de aprendizado de máquina de uma das seguintes formas: 1) ser reconhecido mundialmente em aprendizado de máquina como Geoffrey Hinton, Andrew Ng. sob um dos pesquisadores de aprendizado de máquina de renome mundial.3) Já trabalha no Google em outros projetos há mais de 6 a 7 anos e conseguiu transferir internamente para o projeto ML.

Qual das opções de carreira é melhor desenvolvedor Full Stack ou cientista de dados?

1
Eu pessoalmente estou treinando para ser um cientista de dados, mas sei que os desenvolvedores de pilha completa precisam conhecer tecnologias JavaScript, NodeJS, HTML, CSS.Quando se trata de cientista de dados, você precisa conhecer não apenas Python e R, você precisa conhecer matemática, análises , estatísticas, probabilidade, pensamento estatístico e muitos outros resultados finais. Ambos são bem recebidos e difíceis, mas valem a pena quando realizados.Pergunta Como é ser cientista de dados no Yahoo? 1 # Nome da pergunta: Como é ser cientista de dados no Yahoo 1? TOP 25 DICAS PARA SER UM CIENTISTA PRO DE DADOS Olá amigos, eu trabalho em uma empresa de caça de cabeças desde 2014, principal campo em d, ata ciência, IA, aprendizado profundo…. Deixe-me compartilhar dicas incríveis para se tornar um cientista profissional e especialista, como abaixo. Espero que você ame. (ref do kdnuggets) .1. Aproveite fontes de dados externas: tweets sobre sua empresa ou seus concorrentes ou dados de seus fornecedores (por exemplo, estatísticas personalizáveis do eBlast do boletim informativo disponíveis nos painéis do fornecedor ou no envio de um ticket) 2. Físicos nucleares, engenheiros mecânicos e especialistas em bioinformática podem ser ótimos cientistas de dados. Declare seu problema corretamente e use métricas sólidas para medir o rendimento (acima da linha de base) fornecido pelas iniciativas de ciência de dados. Use os KPIs certos (principais métricas) e os dados certos desde o início, em qualquer projeto. Mudanças devido a más fundações são muito caras. Isso requer uma análise cuidadosa dos seus dados para criar bancos de dados úteis. Refira este recurso: 74 segredos para se tornar um cientista profissional de dados6. Com grandes dados, sinais fortes (extremos) geralmente são ruídos. Aqui está uma solução. Big dat, a tem menos valor do que dat útil, a.8. Use big dat, de fornecedores de terceiros, para obter inteligência competitiva. Você pode criar ferramentas baratas, excelentes, escalonáveis e robustas com bastante rapidez, sem usar a ciência estatística antiquada. Pense em técnicas sem modelo. Big dat, a é mais fácil e menos oneroso do que você pensa. Obtenha as ferramentas certas! Aqui está como começar.11. Correlação não é causalidade. Este artigo pode ajudá-lo com esse problema. Leia também este blog e este livro. Você não precisa armazenar todos os seus dados, permanentemente. Use técnicas inteligentes de compactação e mantenha apenas resumos estatísticos, para dados antigos, a.13. Não se esqueça de ajustar suas métricas quando seu da, ta mudar, para manter a consistência para fins de tendências.14. Muito pode ser feito sem da, tabases, especialmente para grandes da, ta.15. Sempre inclua EDA e DOE (análise exploratória / desenho do experimento) no início de qualquer projeto científico da. Sempre crie um dicionário da, ta. E siga o ciclo de vida tradicional de qualquer projeto científico da. Da, ta pode ser usado para muitos propósitos: – garantia de qualidade – para encontrar padrões acionáveis (negociação de ações, detecção de fraude) – para revenda aos clientes da empresa – para otimizar decisões e processos (pesquisa operacional) – para investigação e descoberta (IRS, litígios, detecção de fraudes, análise de causa raiz) – comunicação máquina a máquina (sistemas de lances automatizados, direção automatizada) – previsões (previsões de vendas, crescimento e previsões financeiras, clima) 17. Não despeje o Excel. Adote a análise de luz. Da, ta + modelos + sentimentos + intuição é a combinação perfeita. Não remova nenhum desses ingredientes em seu processo de decisão.18. Alavancar o poder das métricas compostas: KPIs derivados dos campos da, tabase, que têm um poder preditivo muito melhor do que as métricas d, atabase originais. Por exemplo, sua base de dados da tab pode incluir um único campo de palavra-chave, mas não discrimina entre a consulta do usuário e a categoria de pesquisa (às vezes porque d, ata vem de várias fontes e é combinado). Detecte o problema e crie uma nova métrica chamada tipo de palavra-chave – ou d, ata source. Outro exemplo é a categoria de endereço IP, uma métrica fundamental que deve ser criada e adicionada a todos os projetos de análise digital. Quando você precisa de processamento em tempo real? Quando a detecção de fraude é crítica ou ao processar d, ata transacional confidencial (detecção de fraude no cartão de crédito, 911 chamadas). Fora isso, a análise atrasada (com uma latência de alguns segundos a 24 horas) é boa o suficiente.20. Verifique se o seu d, ata sensível está bem protegido. Verifique se seus algoritmos não podem ser adulterados por hackers criminosos ou hackers de negócios (espionando seus negócios e roubando tudo o que podem, legal ou ilegalmente, e comprometendo seus algoritmos – o que se traduz em severas perdas de receita). Um exemplo de hacking comercial pode ser encontrado na seção 3 deste artigo. Misture vários modelos para detectar muitos tipos de padrões. Média desses modelos. Aqui está um exemplo simples de mistura de modelos.22. Faça as perguntas certas antes de comprar o software.23. Execute simulações de Monte-Carlo antes de escolher entre dois cenários. Use várias fontes para o mesmo d, ata: sua fonte interna, e d, ata de um ou dois fornecedores. Entenda as discrepâncias entre essas várias fontes, para ter uma idéia melhor sobre quais devem ser os números reais. Às vezes, ocorrem grandes discrepâncias quando uma definição de métrica é alterada por um dos fornecedores ou alterada internamente, ou dados são alterados (alguns campos não são mais rastreados). Um exemplo clássico são os dados de tráfego da Web: use arquivos de log internos, o Google Analytics e outro fornecedor (por exemplo, Accenture) para rastrear esses dados.25. Entrega rápida é melhor que extremaprecisão. Todos os conjuntos de dados estão sujos de qualquer maneira. Encontre o compromisso perfeito entre perfeição e retorno rápido.

Qual seria o seu conselho para um cientista de dados aspirante?

1
Aprenda a matemática e procure o ponto principal de um projeto, em vez de um documento de requisitos entregues a você. Ambas as habilidades ajudarão você a aplicar o algoritmo correto para os dados e o problema em questão. Ambos também são sutis, e é possível obter emprego e permanecer empregado um pouco sem eles. No entanto, ambos ajudarão você a passar de um bom cientista de dados a um bom ou ótimo cientista de dados, o que é crucial para o avanço na carreira e permanece empregado quando os padrões são definidos para o campo (provavelmente nos próximos 5 anos).

2
Habilidade, habilidade, habilidade. O mais importante é acompanhar as ferramentas e técnicas atualmente benignas usadas ou experimentadas. Se você tem uma idéia da ferramenta existente, tem uma chance muito maior de escolher a ferramenta certa para o trabalho. Isso não significa que você precise escrever todas as linguagens de programação sob o sol. significa apenas saber que existe e se você encontrar um problema que precisará dele, poderá buscá-lo rapidamente 🙂

Qual é o salário do Facebook para um cientista de dados?

1
Depende da sua experiência e do departamento em que você foi contratado. Geralmente, as ações são abertas e o bônus é relativamente grande em relação ao salário (comum em todo o Vale do Silício). Considere também o custo da habitação na área da baía ou em um escritório satélite. O que você faz não vai muito longe em alguns lugares; no entanto, vai muito mais longe em lugares mais baratos para se viver.

Muitas pessoas se autodenominam “cientistas de dados”. Como você identifica um cientista de dados real?

1
Há um simples exame de sangue para isso. Você só precisa desistir de dois litros de suco de sua vida. Brincando à parte, aqui estão alguns sinais de cientistas de dados reais e falsos. REAL: sabe como executar uma tarefa ETL a partir de um banco de dados local ou na nuvem armazenado. Você não pode fazer nada sem dados. Na maioria das vezes, os dados não serão entregues a você no seu formato preferido. (a menos que você já esteja no último ano e tenha lacaios no escritório que fazem o trabalho sujo para você) FAKE: Pensa que os bancos de dados estão abaixo dele (eu uso o pronome masculino aqui porque as mulheres raramente são tão ilusórias). Pensa que o SQL é um negócio do analista. REAL: Tenha pelo menos alguns anos de treinamento formal ou prático (experiência) em estatística preditiva e inferencial. As idéias não vêm do céu (a menos que você seja Jesus ou Moisés). Mesmo quando você cria uma visualização de dados impressionante que mostra padrões e relacionamentos, você precisa fazer backup com testes de hipóteses e intervalos de confiança e (eu sei que é um furo, mas) valores p. Talvez você nunca precise relatá-las, mas essas são as verificações de robustez definitivas para o seu modelo bonito. FAKE: Os testes estatísticos são tão ultrapassados agora. Eu tenho esse novo método de visualização. Isso vai explodir sua mente. REAL: Conhece a teoria / conceitualidade por trás do seguinte (no mínimo): regressão linear, regressão logística, análise de componentes principais (também necessária para análise de fatores), análise de agrupamento, teste A / B , Erro tipo I, erro tipo II, ajuste / desajuste, ajuste excessivo. (Observe, estes são o mínimo que você precisa. Se você também quiser se aventurar no ML ou na IA com mais seriedade, não poderá evitar redes neurais, processamento de linguagem natural, árvores de decisão etc.) FAKE: Ei, baixei as últimas redes Jupyter e I também conhece pandas. Olha, eu ajustei um conjunto de dados de aprendizado de máquina da UCI existente para replicar algum resultado de dois anos atrás. Eu também coloquei na minha conta do github. Estou pronto para lançar babyREAL: sabe que 70% da ciência de dados geralmente está preparando seus dados para análise. Tenha experiência em limpar e transformar dados confusos (você já viu os dados da Netflix com 90% de linhas com valores ausentes? Hmmm…). Está ciente de que o mundo gera dados confusos com valores ausentes, rótulos inconsistentes, erros de digitação, uso de maiúsculas inconsistentes e similares. Também sabe que preparar os dados para análise é tão crucial quanto aplicar o algoritmo ML mais complicado. Afinal, você pode cantar apenas os dados que você canta.FAKE: Pensa que a preparação dos dados é apenas uma abertura para as coisas reais.E, finalmente, os cientistas de dados ou, digamos, os profissionais que obtiveram uma visão dos dados para viver, geralmente tendem a perceber que eles trabalham em um setor bastante fluido, com muito feedback entre campos. A maioria dos cientistas de dados tende a ter (além de sua perspicácia técnica) experiência específica de domínio (ou seja, experiência com o processo do mundo real que gera os dados com os quais eles precisam trabalhar). Isso significa que eles entendem o processo de geração de dados e podem antecipar problemas que podem surgir durante a coleta e / ou processamento de dados. Eles tendem a possuir um certo grau de curiosidade natural para interessá-los pela tarefa e fazer alguma pesquisa sobre o domínio específico (pelo menos eu).

Quais são as melhores ferramentas de código aberto para um cientista de dados?

1
Embora ‘cientista de dados’ possa parecer um novo termo para muitos, a prática existe há muito tempo usando identificadores de domínio específicos. Existem muitas ferramentas excelentes disponíveis. Assim como nas linguagens de programação, a ‘melhor’ ferramenta depende da natureza dos problemas que você está tentando resolver, da forma dos dados, do histórico do (s) desenvolvedor (es), da infraestrutura disponível e de outras variáveis. Sem conhecer esses detalhes, o conselho geral seria examinar R, SciPy e Hadoop, considerando o exposto acima.

2
A partir dos resultados da pesquisa de software do KDnuggets 2016 do ano passado – que eu gosto porque tende a ter uma melhor distribuição geográfica, o ecossistema R é seguido de muito perto pelo ecossistema Python (incluindo o scikit-learn), e é possível que o Python possa superar R em no futuro próximo. No entanto, os dois não são equivalentes – portanto, pode ser um caso de ambos, e não de qualquer um. Nossa equipe considera R (e Shiny) bom para prototipagem e análise estatística, enquanto o Python funciona melhor em um ambiente de produção. Isso também é consistente com os resultados – o crescimento do Python pode ser uma função da evolução natural de uma equipe de ciência de dados, desde experimentos e trabalhos ad-hoc até uma integração mais estreita com o software da empresa.

3
Na minha opinião, o The R Project for Statistical Computing e seu ecossistema, consistindo em uma infinidade de pacotes para todas as análises sob a luz do sol, sua comunidade instruída e responsiva e uma riqueza de todos os tipos de documentação e recursos para todos os níveis de habilidades e experiência. Embora o artigo a seguir não seja abrangente (se possível), ele apresenta um bom ponto de partida para o raciocínio em direção a uma estrutura de valorização e adoção de R (o termo é meu): http: //www.econometricsbysimulat ….

Como é ser cientista de dados na Tesla?

1
Não sou cientista de dados, mas colaborei com muitos deles e nosso trabalho tende a se sobrepor. Especificamente no meu campo de engenharia de testes de trem de força, os cientistas de dados nos ajudam a estabelecer ferramentas de visualização para ajudar em nossa análise. Por exemplo, os dados dos testes de resistência da unidade de acionamento são carregados em um banco de dados onde métricas importantes são extraídas. Qualquer engenheiro pode procurar esses dados e comparar o desempenho de diferentes projetos de unidades de acionamento entre si, tudo em visualizações bem organizadas. Cada teste pode consistir em gigabytes de dados e seria difícil analisar os dados brutos. O banco de dados também nos ajuda a entender como o desempenho de uma unidade diminui com o tempo. A análise automatizada ajuda muito, porque esses dados nos dão uma indicação do que falhou. Quando a unidade com falha é destruída, as informações dos dados servem como um mapa para descobrir onde ocorreu a falha. O tipo mais comum de falhas está relacionado às engrenagens ou rolamentos, e você pode dizer quais específicas falharam com base nos padrões nos dados do acelerômetro (é realmente uma loucura!)

2
Você precisa ser forte em matemática, análise, probabilidade, etc. para se tornar cientista de dados e deve ter muito mais experiência em análise de dados para se tornar cientista de dados. Você tem que aprender várias coisas sobre Big Data e análise de dados e, em seguida, somente você pode se candidatar a um cientista de dados. O cientista de dados em Tesla é como uma nova vida para qualquer cientista / analista de dados. você deve fazer esta pergunta a qualquer engenheiro que atualmente trabalha em Tesla.

Como é ser cientista de dados no Instagram?

1
Eu tenho um amigo que analisa dados para ganhar a vida. Seu TOC quando se trata de números e certificando-se de que eles sempre estão indo em uma direção positiva. Eu acho que os dados do Instagram são da mesma forma que o TOC e estão sempre gamificando a maneira como fazem seu trabalho. Seria divertido fazer parte de uma empresa que parece estar assumindo o domínio da mídia social. Vamos ver o que acontece no próximo ano – 5.

Por que o LinkedIn demitiu todos os seus cientistas de dados?

1
O LinkedIn continua a ter uma das equipes mais fortes de cientistas de dados atualmente. Como foi apontado, eles tiveram uma reorganização, mas não demitiram sua equipe de ciência de dados. Algumas pessoas foram embora, mas espero que seja uma rotatividade anual normal em uma grande organização. Como qualquer cientista sério de dados pode atestar, pessoas como Deepak Agarwal são alguns dos principais líderes, inovadores e mentores dessa comunidade. Tenho a maior consideração por muitos dos cientistas de dados da empresa, embora não trabalhe no LinkedIn.

2
O LinkedIn não demitiu todos os seus cientistas de dados. Deseja fazer uma pergunta diferente?Pergunta Qual é o melhor laptop para um cientista de dados?

1 Eu me perguntei exatamente a mesma pergunta há um ano e encontrei uma solução que agora funciona surpreendentemente, aprendi muito e economizei um monte de dinheiro no processo. Eu já havia construído meu ideal (isto é, poderoso ) computador de análise de dados cerca de um ano antes, mas era um desktop. Imaginei que realmente poderia comprar um laptop realmente barato, manter a área de trabalho em funcionamento o tempo todo e usar o RDP *, Teamviewer * ou um programa VNC * para conectar-me a ele sempre que eu precisasse fazer uma análise de dados. laptop barato (AU $ 350, tela sensível ao toque de 11 polegadas, Windows 8, HP net book book) e comecei a tentar configurar o VNC. Eu consegui fazê-lo funcionar, mas isso significava que eu precisava sempre deixar minha área de trabalho em execução e depois descobri o Amazon AWS EC2, um serviço que permite criar computadores virtuais com qualquer sistema operacional desejado e personalizar como você os acessa.Eu configurei um deles (Linux) e me ensinei a usar o Linux. O mais útil é que eu instalei um IDE baseado na Web para R (Rstudio), o que me permite acessar um site hospedado pelo meu servidor EC2 e usar o R como se estivesse sentado naquele computador. quer fazer algum trabalho, posso fazê-lo em qualquer computador do mundo com uma conexão à Internet, simplesmente visitando um site e, todo o processamento é feito no servidor Amazon. Você precisa pagar pelo servidor, mas eles são baratos e pagam valores diferentes com base no processador (virtual), RAM, GPU etc. do servidor. Além disso, existe um teste gratuito de um ano que permite usar o servidor virtual menos poderoso sem nenhum custo. Entendo que R pode não ser o único idioma que você deseja usar, mas, como é possível instalar o que quiser no seu servidor, ele parece ser uma opção viável.Vantagens: pode acessar o servidor a partir de qualquer dispositivo com o InternetFiles estão sempre acessíveis. Nem precisa baixá-los (como você faria com a caixa suspensa), basta ver no servidorCustos muito menos que o poderoso laptopServer pode ser programaticamente projetado para ser dimensionado, dependendo das necessidades de análise, usando uma tela APIDisvantagesLaptop é bem pequena, mas agora acho que eu acessar o servidor principalmente de outros computadores de mesaRequer conexão com a Internet para usarPode levar algum tempo para aprender a usar o EC2 * Todos esses programas permitem exibir e controlar um computador a partir de um segundo computador, pela Internet. 2 Na minha opinião, um PC para jogos é ideal para um cientista de dados. Eles geralmente vêm com especificações muito boas, necessárias para levar a sério a ciência de dados.OS: Windows, OS X ou Linux. Atualmente, não importa muito, mas os PCs para jogos são fornecidos com o Windows.Memória: 16 GB de RAM é o mínimo, repito, o mínimo. Obviamente, 32 GB ou 64 GB são melhores, mas a maioria dos laptops não vem com isso como padrão. Verifique se ele suporta adicionar RAM extra. É a peça de hardware mais importante para a ciência de dados, tanto para manter grandes conjuntos de dados na memória quanto para executar VMs.CPU: Core i7 ou equivalente. A computação rápida é importante ao executar algoritmos de aprendizado de máquina. Disco rígido: Duas opções aqui na minha experiência. Um SSD de 256 GB com um disco rígido de 1 TB adicional ou um SSD de 512 GB. Os HDDs não são ideais devido ao desempenho, mas hoje em dia não são tão ruins e compensam com capacidade pura.GPU: Pelo menos GTX1060. Não pegue as 9 séries, elas foram preteridas. Os algoritmos de aprendizado de máquina podem ser executados significativamente mais rapidamente na GPU usando bibliotecas como o TensorFlow.Screen: se você não deseja conectar o laptop a monitores externos (o que você deveria), deseja ter uma tela o maior possível. Os PCs para jogos geralmente vêm com telas de 17 ″. 3 Como Jesse ressalta, a nuvem de análise é a melhor opção. Em algum momento, reduziríamos a capacidade de uma única máquina. Já o disse para conjuntos de dados que são gerenciáveis: Opção 1: MacBook Pro 15 “com quad core I7, 16 GB de RAM (a Apple agora atualizou isso, mas é decepcionante. Eu estava Opção 2: MacBook Pro 13 “com I7 dual-core, 16 GB de RAM (a Apple atualizou esta máquina e é bastante decente em termos de portabilidade e poder de computação) Opção 3: Macbook Air 13”, dual core I7, 8GB de RAMPergunta interessante, enquanto estou refletindo sobre esse tópico.Algumas considerações que estou analisando: Portabilidade – Uma pessoa acaba usando a máquina em aeroportos, trens, sala de estar, bibliotecas … você entendeu.Eu geralmente tenho idéias interessantes sobre Wrangling de dados em momentos ímpares e uma máquina seria útil. Frameworks – Um estará trabalhando em R, Spark, H2O e outros.Portanto, um cluster de nuvem (1 ou mais instâncias) é muito mais flexível do que a máquina local.R servidor e iPython o notebook pode ser hospedado na nuvem.O Spark & H2O também pode ser implantado como estrutura de computação orks. Conjuntos de dados – Conjuntos de dados maiores (como o Criteo ou o RecSys2015) precisam de um cluster de nuvemtransformações, treinamento de modelos e outros – Ultimamente, a maioria das minhas corridas dura mais de 10 horas; muito mais fácil de executar na nuvem. A máquina local seria desligada / modo de suspensão à medida que se leva adiante o essencial da vida. Por isso, estou me inclinando para a opção 3 e me forço a trabalhar na AWS.

Qual o grau necessário para se tornar um cientista de dados?

1
Com a chance de refazer a graduação, eu me especializaria em Ciências da Computação e menor em Estatística. Os estudantes de Ciência da Computação trabalham em projetos durante a graduação, para que você tenha uma sólida experiência em programação. Eles também têm cursos introdutórios decentes em Machine Learning para passar o pé pela porta. O conhecimento de estatística ajudaria a entender melhor a matemática por trás da análise de dados, modelagem estatística, teste de hipóteses e uma série de outros campos no pipeline do Machine Learning. Também poderia recomendar um especialista em Estatística e um menor em Ciência da Computação – desde que haja alguns ” Ciência da Computação ”envolvida. Alguns caras de estatísticas que conheço são brilhantes, mas acham difícil colocar seus conhecimentos em código. O conhecimento tanto em Estatística quanto em Ciência da Computação é o melhor.

2
A2A. As descrições de cargos em ciência de dados informam o requisito de graduação para o trabalho, geralmente é um diploma de bacharel em qualquer disciplina e treinamento em ciência de dados que pode variar de especializações, certificações ou nanodegistros MOOC disponíveis no Coursera, edX ou Udacity (respectivamente ) ao Mestre da UIUC em Ciência da Computação em Ciência de Dados (MCS-DS) | Antes de tomar uma decisão sobre um diploma, eu recomendo que você leia 5 coisas que você deve saber antes de se formar em Data Science.

3
Analisei 350 descrições de cargo com o título “Data Scientist”, principalmente de Bay Area CA, Nova York, para descobrir que tipos de educação são mais exigentes para um cientista de dados. Existem alguns postos de trabalho nos quais os requisitos de educação são aprendizado de máquina, ciência de dados ou inteligência artificial. Como eles são uma combinação perfeita para a posição de cientista de dados (boa sorte), eu não os considerei.

Por que tantos cientistas de dados estão deixando seus empregos?

1
Aposto que é duplo. Primeiro, muitas pessoas não qualificadas estão tentando entrar em campo. Eles tendem a não durar muito tempo em cargos de ciência de dados, então você tem muita rotatividade nos primeiros meses de uma empresa. Há um pequeno número de pessoas com habilidades, educação e experiência para serem eficazes como cientistas de dados em relação a a necessidade, e essas pessoas podem basicamente escolher onde querem trabalhar (segunda razão). Aqueles que não estão satisfeitos com o avanço ou o trabalho designado em uma empresa podem facilmente encontrar outra posição.

Por que o Apache Spark é popular entre os cientistas de dados?

1
Sean Owen deu uma excelente resposta e provavelmente também queria mencionar que o uso de algoritmos iterativos de ciência de dados em conjuntos de dados muito grandes agora é prático com o Spark.Spark pode manter de forma confiável grandes conjuntos de dados na memória de cluster com paginação do disco conforme necessário e pode executar com eficiência iterativa algoritmos (por exemplo, Gradient Descent, Graph Traversal, …) sem várias sincronizações para o disco, esses algoritmos agora são executados 100 vezes mais rápido.Os outros aspectos mencionados facilitam a adoção do Spark, mas o Spark é necessário para a execução de algoritmos iterativos em um grupo.

Quais são as quatro principais linguagens de programação usadas pelos cientistas de dados?

1
A pesquisa mais recente do KDnuggets de 2014 mostra o crescente domínio de quatro idiomas principais para Analytics, Data Mining e Data Science: R, SAS, Python e SQL – usados por 91% dos cientistas de dados – e declínio na popularidade de outros idiomas, exceto para Julia e Scala. Consulte Quatro idiomas principais para Analytics, Data Mining, Data Science. Aqui estão os resultados de uma pesquisa anterior do KDnuggets de 2012, que perguntou “Quais linguagens de programação você usou para analytics / data minin”, http://www.kdnuggets.com/polls/2. ..e os três primeiros foram R (52%), Python (36%) e SQL (32%)

2
Antes de tudo, como o OP disse, é mais difícil do que parece a princípio distinguir um cientista de dados de um analista de dados. Na minha experiência, os analistas de “dados intermediários” (Gigabytes e Terabytes) usam muito SQL, R, Matlab e SAS. E isso se reflete, eu acho, nos dados do Kaggle relatados por Leo Polovets. Os analistas de big data provavelmente usarão mais linguagens orientadas a big data como Hive e PIG e outras linguagens para programar um trabalho do MapReduce (como Java). Finalmente, se você precisar fazer uma varredura na Web e analisar o texto, poderá usar linguagens de uso geral, como Python.

3
A O’Reilly Media fez uma pesquisa sobre o assunto e publicou seus resultados em janeiro de 2014. Eles agruparam os entrevistados na pesquisa com aqueles em uma função de dados e aqueles em uma função de dados. A partir disso, parece que os idiomas mais comuns usados são R e Python. Uma observação – não sei por que o Matlab não está na lista … Fonte – http://www.oreilly.com/data/free. ..

Quais habilidades de negócios os cientistas de dados precisam?

1
Não acho que os cientistas de dados precisem exatamente de habilidades de negócios. Em vez disso, eles precisam de conhecimento de negócios. É o mesmo tipo de coisa que todos os estatísticos aplicados precisam. Você não precisa administrar uma empresa, vender um produto, projetar um anúncio, equilibrar um orçamento etc. para ser um bom cientista de dados. Mas você precisa saber algo sobre como a empresa em que está envolvido trabalha.

Quanta codificação é feita por um cientista de dados?

1
Não posso falar por todos, mas codifico muito: preparando dados, realizando análises estatísticas, treinando modelo de aprendizado de máquina, desenvolvendo protótipo de algoritmo e etc.

2
Grande parte da codificação que nós cientistas de dados fazemos é como configurar uma interface de usuário altamente personalizável, massageando matérias-primas em insumos que podemos usar com mais facilidade posteriormente no pipeline e personalizando ferramentas para nos ajudar a contar a história da maneira que queremos da maneira como o público-alvo preferiria ouvi-lo. Grande parte da ciência de dados parece ser uma almagamação de papéis que costumavam ser desempenhados por um analista de negócios, um pesquisador, um gerente de requisitos, um programador e um escritor técnico que existiam em muitas empresas quando eu comecei minha jornada.

3
Boa pergunta! A codificação é parte integrante de ser um cientista de dados. No entanto, não é a única parte. Você também se encontrará com seus stakeholders para entender o problema que eles gostariam que você resolvesse, apresentar seus resultados a eles e também ver o impacto do seu trabalho.

Como posso me tornar um cientista de dados de um nível iniciante absoluto para um avançado?

1
Você pode fazer cursos on-line no coursera! Existe um programa de John Hopkins que meu professor fez enquanto lecionava meu curso de CS na UTSA. Ela pagou o certificado para todos os cursos. Eu a procurei recentemente no LinkedIn e ela agora é cientista de dados 2 na Microsoft! Nota: você pode conferir os cursos antes de pagar. Eu acho que você pode realmente fazer o curso inteiro sem pagar. (Mas você não receberá um certificado) Se esses cursos forem um pouco difíceis, recomendo que você faça alguns cursos introdutórios semelhantes aos oferecidos pela coursera.

2
Primeiro, certifique-se de ter uma sólida formação em matemática, pois a ciência de dados é principalmente estatística (estatística de pós-graduação, cálculo multivariável, álgebra linear, teoria das probabilidades). Em seguida, avance para os documentos de aprendizado de máquina e as aplicações desses métodos em dados de código aberto (veja aqui para documentos de referência: https: //www.slideshare.net/Colle …).

Como é trabalhar como cientista de dados no Walmart Labs?

1
A resposta a esta pergunta não é mais verdadeira. Neste ponto, o comércio eletrônico do Walmart é uma organização muito política, com muitos executivos ineficientes e gerentes de nível intermediário. Portanto, há muito caos e não há chance de crescimento na carreira. Você não aprenderá nada com a atual liderança sênior. Minha sugestão será não considerar o Walmart como uma opção se você tiver outras ofertas.

2
O Walmart Labs tem uma boa descrição de seu trabalho – Business Analytics & Intelligence

Quais empresas estão contratando trabalho remoto / virtual / de cientistas de dados domésticos?

1
Sou contactado por recrutadores de tecnologia o tempo todo sobre novas posições em ciência de dados. A maioria está fora da minha localização geográfica (Silicon Beach, em Los Angeles), exigindo realocação. Não vi uma única posição remota / de teletrabalho. Penso que, pela natureza da ciência de dados, tendo que interagir estreitamente com especialistas em domínio, analistas, pessoal de TI etc., você provavelmente precisará ser um funcionário local. Dito isto, eu ainda estou esperando para ouvir sobre uma oportunidade legal de trabalho remoto! Talvez um dia. Daniel

Vale a pena fazer um curso de cientista de dados? As empresas contratam pessoas que fizeram um curso como “cientista de dados”?

1
Tudo depende de quanto você aprende durante esse curso. Lembre-se de que não existe nenhum curso que possa prepará-lo para um emprego. O que você precisa é de dedicação e muito estudo. Eu próprio fiz um curso de ciência de dados em período integral e fui colocado no campus da Deloitte. Apenas esteja preparado para estudar muitos conceitos novos e resolver muitos problemas no kaggle. Tudo de bom para você.

2
sim. Se claro, com currículo em R, Python e Estatísticas. Algumas organizações importantes, como o IIT / IIM, também estão realizando cursos sobre isso. Se você se qualificar e for treinado por eles, aumentará sua chance. e qualquer instituto que ensina isso também pode melhorar sua chance. Antes disso, você deve revisar o cargo de cientista de dados e verificar o que é / é o conjunto de habilidades necessárias. Se o mesmo é ensinado por esse instituto.

Que trabalho um cientista de dados faz 80% do seu tempo? Para ser mais específico, qual é a tarefa mais importante que se espera de um cientista de dados?

1
Você está fazendo duas perguntas diferentes. Entendo sua origem, mas é importante que você perceba que o que faz 80% do seu tempo não é a coisa mais crítica. O que você gasta mais tempo fazendo Você deve ter ouvido falar que a maior parte do tempo de um cientista de dados é gasto realizando tarefas de transferência de dados, e isso é amplamente verdade. Isso é especialmente importante para entender, porque muitos jovens cientistas de dados que saíram da escola só tiveram experiência na aplicação de técnicas de aprendizado de máquina a conjuntos de dados organizados e agradáveis. O mundo real não é assim (e isso é mesmo quando você tem a sorte de ter acesso aos dados necessários). Eu sempre aconselho jovens cientistas de dados a praticarem projetos em que precisam lidar com conjuntos de dados do mundo real; caso contrário, ninguém os levará a sério quando se candidatarem a empregos. O que é realmente mais importanteAgora, isso é diferente de “o que é a tarefa mais importante esperada de um cientista de dados ”. O mais importante é poder se comunicar com clareza. Isso envolve tanto a escrita, oral e o que eu chamo de comunicação “bidirecional”. Isso também envolve a comunicação com colegas, gerentes não técnicos e outras partes interessadas. Se você não consegue se comunicar de maneira clara e convincente, isso realmente não importa o quão habilidoso você seja. Caso em questão: ontem, informei uma peruca no departamento de vendas da empresa em que trabalho. Ele não é muito técnico, mas é um dos principais “clientes internos” dos modelos que estou desenvolvendo. Não demorou muito tempo para criar o deck de slides, e a reunião real durou apenas uma hora. Certamente, isso não levou 80% do meu tempo. Mas se eu não convencê-lo do valor do que estou fazendo, ele perderá o interesse e / ou a confiança, o que acabará com o meu projeto. Recomendações para cientistas de dados iniciantes Desde que você marcou isso como “Empregos e carreiras In Data Science ”, suponho que você esteja se perguntando porque é um cientista de dados júnior que está procurando informações sobre como conseguir um bom emprego. Embora eu tenha um curso completo de 40 vídeos sobre isso, as partes mais relevantes para sua pergunta são: Qualifique-se na transferência de dados. A maioria das empresas que você entrevista fornece um problema de levar para casa, que deve ser concluído em um curto período de tempo (geralmente de 3 a 6 horas). A maior parte do tempo será gasta na preparação dos dados. Quanto mais rápido você estiver nisso, mais tempo terá para modelar e escrever seus resultados. Seja bom em se comunicar. Ninguém quer trabalhar com alguém que eles não conseguem entender. Isso pode fazer você realmente se destacar de outros candidatos, já que a maioria das pessoas se concentra quase inteiramente nas técnicas de aprendizado de máquina. Na verdade, aconselho os cientistas de dados a se voluntariarem para dar uma palestra, se você for convidado para uma entrevista no local. Mesmo que eles recusem, eles ficarão impressionados com a confiança que você tem para sugerir. Descubra o que o seu (futuro) chefe e a empresa como um todo precisam e se posicione como a solução para essa necessidade. Fazer pesquisas sobre a empresa (e sobre quem irá entrevistá-lo!) É um tempo bem gasto. O que isso tem a ver com ser um cientista de dados? Como esse exercício não apenas o contratará, ele o treinará a pensar da perspectiva de outras pessoas. De longe, muitos cientistas de dados vivem em sua própria cabeça e ficam chocados quando seu projeto é morto. “Malditos idiotas!” eles murmuram. “Eles não entendem a importância do meu trabalho!” Sim, é verdade. Mas de quem é a culpa? Espero que ajude, -Mark

2
A tarefa mais importante de um cientista de dados é o gerenciamento de dados, e que a verificação dos dados quanto à sanidade, correção etc. – A construção e a otimização de modelos são importantes, mas essa não é a tarefa que consome mais tempo em geral. Se a etapa 1 estiver incorreta, todas as análises posteriores serão inúteis.

Que livros um grande programador deve dominar para se tornar um cientista de dados respeitado?

1
Não sei, mas sei quais livros ler.1. R Livro de receitas de Paul Teetor Machine Learning for Hackers, de Drew Conway e John Myles White3. Livro de receitas de gráficos R de Winston Chang Programação da inteligência coletiva de Toby Segaran (popularmente conhecido como PCI) 5. Python para análise de dados, de Wes McKinney, para usuários avançados, se você já conhece pandas, deve ver esta apresentação de Wes sobre quais são as deficiências dos pandas.6. Ciência ágil de dados de Russell JurneyHá mais, mas essas são boas. Além disso, torne-se um pesquisador melhor.

2
Aqui estão alguns recursos gratuitos para começar! Peter Bruce, Andrew Bruce: Books______________________________________________________________________Dados: governo, estado, cidade, local e públicoDados: APIs, hubs, mercados e plataformasServiços de dados públicos gratuitosVeja a resposta de Samuel Pong para Como aprender mineração de dados em um mês?

3
Eu acho que não há. Nenhuma empresa respeitará que você conhece ciência de dados apenas lendo um livro de programação ou apenas indo para uma aula do MooC. Você precisa criar projetos, publicá-lo no GitHub e compartilhar seus projetos para mostrar que conhece estatística, modelagem de dados, programação, visualização etc. As duas ferramentas de programação usadas na Data Science são R e Python.

Eu quero ser um cientista de dados. Existe uma lista de verificação de habilidades?

1

2
Experimente um número maior que 2 verticais (saúde, finanças, petróleo e gás) / processamento de dados da linha de vapor usando a plataforma (streamsets, nifi, etc). Faça um esforço para conhecer os algoritmos de aprendizado de máquina internamente (matriz de confusão, alfa / gama, AUC, etc) uma plataforma unificada diferenciada (H2O.ai Flow / Steam, Anaconda, etc.) Produza seu trabalho de modelo final (execute em um aplicativo Web Real ou na nuvem)

Como é ser cientista de dados na Palantir?

1
O melhor lugar para encontrar relatos pessoais daqueles que realmente trabalharam como cientista de dados na Palantir são fóruns e páginas de mídia social relacionados. Também pode haver artigos disponíveis quando você o pesquisa no Google. Para todas as outras informações sobre o Palantir, por outro lado, você pode usar sites como o PayScale para pesquisar. Veja o salário do empregador da Palantir Technologies, salários médios por emprego

Qual é o salário máximo para um cientista de dados?

1
Aparentemente, profissionais de nível avançado de classe mundial podem ganhar milhões (fonte: Por que o Google pagou US $ 400 milhões pelo DeepMind? | MIT Technology Review). Dito isso, é provável que não dure muito tempo, pois as bibliotecas ficarão melhores, as heurísticas (interrupção precoce, abandono) serão substituídas ou fundamentadas na teoria, e os tutoriais serão aprimorados para facilitar o aprendizado profundo Provavelmente, em alguns anos, haverá outras habilidades em dados quentes que terão uma compensação de gordura assim, mas quem sabe o que é.

Qual é a melhor parte de ser um cientista de dados?

1
Acredito que a melhor parte é saber que você está trabalhando com tecnologia com um enorme potencial e que as etapas que você toma para desenvolver a tecnologia podem beneficiar potencialmente milhares de pessoas. Também é a possibilidade de trabalhar em tantos campos diferentes que não é necessário. mais possível contar. Isso lhe dá a liberdade de trabalhar no projeto que é importante para você, que lhe interessa, etc.

O que é uma lista de livros que todo cientista de dados deve ler?

1
O livro de códigos: A ciência do sigilo do Egito antigo à criptografia quântica, por Simon Singh, Enigma: The Epic: The Epic Quest para resolver o maior problema matemático do mundo por Simon Singh e John Lynch

2
Aqui estão os artigos de ciência de dados que são atualizados em tempo real! Http: //bit.ly/1x359dÉ claro que todos podemos ler vários livros, mas não ajuda a manter-nos atualizados diariamente – De fato, devido a esses problemas, surgiu uma idéia para aplicar os algoritmos de Machine Learning para agregar o conteúdo principal. Fazemos isso de uma maneira interessante – criamos comunidades de tópicos e identificamos um monte de líderes de opinião e, em seguida, encontramos o conteúdo mais relevante. Isso nos permite obter o conteúdo principal em qualquer campo tópico.

3
Uma análise aprofundada do setor de ciência de dados, que fornecerá uma imagem clara da ciência de dados e como ela é usada em tempo real por especialistas. Possui 3 livros. AnalyticsHandbook

Quais são alguns blogs interessantes escritos por aspirantes a cientistas de dados?

1
É uma pergunta interessante – eu pessoalmente não procuro não-especialistas para continuar aprendendo ciência de dados, mas posso entender por que seria interessante aprender com falhas e aspirantes a cientistas de dados podem ser uma boa coorte a seguir. para conferir os MOOCs e ver se os alunos aspirantes postam suas tendências no blog. Encontrei alguns v-logs aqui: (do Springboard)

2
Alguns blogs interessantes (o meu favorito) para ciência de dados (embora não atendam aos seus critérios) são: Data Science CentralAnalyticBridgeHomeMachine Learning MasteryRevolutionsAnalytics, Data Mining, and Data ScienceE alguns blogs específicos de software como R-blogueirosQuick-R: página inicialHappy Reading!

3
“Aqui estão alguns links para blogs escritos por cientistas especialistas em dados. Eles fornecem informações atualizadas e simplificadas sobre ciência de dados. Espero que sejam úteis.” RevolutionsPage em insofe.edu.inAnalytics VidhyaBig Data Analytics

O que é um sinal de que alguém não terá sucesso como cientista de dados?

1
Eu ensinei pessoas que, infelizmente, acho que estão cometendo um erro ao buscar ciência de dados. Os 5 principais sinais: eles têm pouca / nenhuma curiosidade e iniciativa, são passivos e incapazes de fazer perguntas. Eles não são solucionadores de problemas.Eles temem matemática e estatísticas.Eles odeiam programação.Eles são desleixados, produzem resultados absurdos e sem sentido, sem pisar em uma pálpebra.Eles são maus comunicadores e não podem criar histórias interessantes e perspicazes a partir dos dados. Quando os vejo apresentar suas descobertas, muitas vezes penso “e daí? Por que eu me importo? Como isso é interessante ou relevante ”.

Qual é o salário esperado de um cientista de dados novo?

1
O salário médio anual para um cientista de dados é de ₹ 620.244, ou seja, se você tiver as habilidades que a empresa em particular está procurando. Os cientistas de dados iniciantes ou os cientistas juniores de dados recebem menos que isso. O salário varia para um cientista de dados de nível intermediário.

2
Como um cientista de dados mais recente, você pode ganhar entre 6 e 8 LPA. No entanto, não se deixe enganar por esse fato. Esse salário difere em todo o setor e também no conjunto de habilidades. Deixe-me explicar – principalmente os cientistas de dados encontram oportunidades de emprego em – 1. Empresas baseadas em serviços: são as empresas em que você trabalha em projetos de ciência de dados que ajudam outras empresas. Empresas como Mu Sigma, Fractal Analytics, etc, são bons exemplos dessas empresas. Empresas baseadas em produtos: são as empresas nas quais você trabalha com dados gerados pelo usuário do produto que essas empresas criaram. Por exemplo, o Zomato é uma empresa baseada em produtos e possui mais de um milhão de usuários. Nesta empresa, o cientista de dados analisa os dados para entender o comportamento do usuário e melhorar o produto. Bem, essa é uma pequena parte, há muito mais que os cientistas de dados precisam fazer. Se você seguir os padrões da indústria, os cientistas de dados são comparativamente mais bem pagos em empresas baseadas em produtos do que em empresas baseadas em serviços. o conjunto de habilidades de um cientista de dados. Deixe-me explicar – as principais responsabilidades de um cientista de dados são – extração e análise de dados usando a visualização R / Python; visualização de dados usando o Tableau ou outra ferramenta; construa modelos preditivos usando algoritmos de aprendizado de máquina; agora, como parte de suas responsabilidades, você pode ser necessário executar todas as tarefas acima ou apenas pode ser confiada a parte de extração e análise de dados. Dessa forma, seu salário também seria diferente. Obviamente, se você executar todas as tarefas acima, você seria pago melhor do que se estivesse trabalhando apenas em uma das responsabilidades. Como está interessado em se tornar um cientista de dados, eu recomendaria você usa o edwisor. Aqui você pode aprender ciência de dados completa enquanto trabalha em projetos. Aqui você encontrará boas oportunidades de emprego também. Como o edwisor ajuda os aspirantes a cientistas de dados serem contratados como Data Scientist em empresas baseadas em produtos. Então, tente isso.

3
“ O objetivo do projeto é facilitar a vida de todos os cidadãos, pois, além de contribuir para o bem-estar da população, é fundamental que o cidadão tenha acesso a informações, informações e informações relevantes sobre o funcionamento do município. -Diferentes empresas pagam escalas \

Quais são os níveis de cientistas de dados no Google e como eles são promovidos?

1
Temos engenharia do google. Além disso, você também pode procurar no seu computador, tire uma foto ou adicionar imagens pela URL.

2
não há posições de “cientista de dados” na Pesquisa do Google – o Google Care possui muitas ferramentas de engenharia do Google realizando aprendizado de máquina grande, inferência estatística em grandes conjuntos de dados, etc. mas essa palavra de ordem específica “ciência de dados” não é muito popular

Todos os cientistas de dados devem saber como usar o SQL?

1
Sim. Como cientista de dados, você precisaria conhecer linguagens de programação. Os suspeitos comuns são Python, R, Scala, Octave … Se você lida com bancos de dados, pode lidar com bancos de dados relacionais ou NoSQL. Com bancos de dados relacionais, como Oracle, MySQL, Teradata ou outros, você precisaria conhecer o SQL para extrair / armazenar dados. Na minha humilde opinião, o SQL é bastante fácil de aprender e contribui bastante para agregar valor ao seu currículo e, mais importante é um requisito comum e necessário para um trabalho de cientista de dados; portanto, você deve conhecer SQL.

De que habilidades eu preciso para ser um cientista de dados no Google ou no Facebook?

1
Lendo outras respostas, sinto que há uma falta de clareza entre diferentes papéis, como cientista de dados, analista de dados, engenheiro de dados etc. A maioria das respostas sugere ferramentas e tecnologia de aprendizado para uma análise eficiente de dados (Hadoop, Java, Python, etc.). Na minha opinião, a ciência de dados trata de encontrar novas maneiras de obter, limpar, enriquecer, modelar e comunicar dados. Bons cientistas de dados são independentes de ferramentas e tecnologia. Eles entendem os conceitos subjacentes, mas não são engenheiros. Na verdade, eles usam os serviços de engenheiro para realizar aspectos tecnológicos da análise de dados.

2
Ao fazer tudo isso, este blog é mais específico para os estudantes indianos A publicação de Kiran em Como me tornar um Googler

3
A resposta que eu estou dando não é competir, mas vai lhe dar um bom começo: 1. Aprenda a linguagem de programação Java e Python. Você não precisa ser um chefe, mas deve ter habilidades como um profissional. Aprenda a trabalhar com Big Data usando softwares como Hadooo, Pig etc. Obtenha algum conhecimento prático sobre computação em nuvem. Isso deve lhe dar um começo … Espero que ajude!

Um engenheiro mecânico pode se tornar um cientista / analista de dados?

1
Sim, claro! Tudo o que você precisa é ter paciência e autoconfiança. Você deve ser bom em matemática e conhecer um pouco de estatística para facilitar sua vida enquanto aprende. Não é necessário conhecimento de programação, você pode aprender como pode. muito MOOC disponível para aprender ciência de dados. Eu recomendaria o EdX & Coursera, pois eles têm o melhor conteúdo e caminhos de inclinação.

2
Você entende Álgebra Linear, Cálculo, Probabilidade e Estatística? Você sabe codificar? Sim para ambos? Bem, você tem o conhecimento técnico essencial / ferramentas necessárias para começar.

3
Qualquer um pode ser um analista de dados. Tudo o que você precisa é ter paciência e motivação para aprender ferramentas de análise de dados. E para ser um cientista de dados, primeiro você precisa aprender sobre codificação, estatísticas básicas, apresentação e habilidades de pessoas. dominar essas habilidades, você pode ser um cientista / analista de dados.Pergunta Como o Airbnb contrata cientistas de dados?

1 Nos últimos dois anos, otimizamos bastante nosso processo de contratação. Antigamente, examinávamos os currículos e depois agendávamos lotes de 1: 1. Normalmente, as pessoas fazem perguntas com o objetivo de avaliar a proficiência de um candidato com estatísticas, tecnicidade e capacidade de resolver problemas. Mas havia três problemas com isso – as entrevistas não eram coordenadas o suficiente para obter uma visão holística do candidato, nunca tínhamos certeza se suas respostas se traduziriam em desempenho efetivo no trabalho e da perspectiva do candidato. Foi um longo interrogatório. Por isso, criamos um novo processo de entrevista que é muito mais eficaz e transparente – queremos dar ao candidato uma ideia de como é um dia na vida de um membro de nossa equipe e ler sobre como seria trabalhar com eles. No total, leva cerca de dois dias para tomar uma decisão, não tivemos falsos positivos (possivelmente alguns falsos negativos), e o feedback dos candidatos e dos membros da nossa equipe foi positivo. Existem quatro etapas para o processo: 1. Telas de currículo / telefone – Procuramos pessoas com experiência no uso de dados para orientar decisões e algum conhecimento sobre o que é o Airbnb. Nos dois aspectos, teremos uma leitura muito mais profunda posteriormente no processo; só queremos ter certeza de que seguir em frente é um bom uso de qualquer um de nosso tempo. Desafio básico de dados – O objetivo aqui é validar a capacidade do candidato de trabalhar com dados, conforme descrito em seu currículo. Enviamos alguns conjuntos de dados para eles e fazemos uma pergunta básica; o exercício deve ser fácil para quem tem experiência. Desafio interno de dados – Essa é a base do nosso processo de entrevistas. Tentamos ser o mais transparentes possível – você pode ver como é trabalhar conosco e vice-versa. Portanto, temos o candidato sentado com a equipe, dando acesso a nossos dados e uma pergunta ampla. Eles então têm o dia de atacar o problema da maneira que desejarem, com o apoio das pessoas ao seu redor. Encorajamos perguntas, almoçamos com eles para aliviar a tensão e fazemos check-in periodicamente para garantir que não fiquem presos a algo trivial. No final do dia, reunimos uma pequena equipe e apresentamos sua metodologia e descobertas para nós. Aqui, procuramos coisas como um olho nos detalhes (eles investigaram os dados em que se baseiam para análise), rigor (eles construíram um modelo e, se sim, os resultados são bons), orientados para a ação (o que faça com o que você encontrou) e habilidades de comunicação. Se tudo correr bem com o desafio interno, nós os trazemos de volta para quatro entrevistas – duas com parceiros de negócios e duas para avaliar seu alinhamento com nossos principais valores. Os parceiros de negócios concentram-se na capacidade do candidato de trabalhar em conjunto através de um problema; Os valores principais têm como objetivo discutir a missão e a capacidade do Airbnb de se conectar com alguém em um ambiente menos técnico. Usamos esse processo nos últimos 8 meses e realmente nos beneficiamos dele. Eu encorajaria outras equipes a experimentá-lo e fornecer feedback sobre sua experiência. Também passamos um tempo com cada candidato após o processo (independentemente do resultado) para coletar feedback de sua experiência conosco, por isso continuaremos evoluindo conforme necessário. 2 Participei do processo descrito por Riley acima e não gostei muito, fui rejeitado na rodada de desafio interno de dados.O problema com o desafio interno de dados é que o problema em questão é enorme, o problema geralmente leva uma semana para resolver completamente, considerando todas as verificações \ etapas necessárias em um exercício de modelagem. Espera-se que o candidato resolva o problema em 7 horas, sem erros. A equipe parece muito focada em obter informações muito boas a partir dos dados e não na capacidade holística do candidato em resolver problemas. Concordo que eu próprio tinha limitações, não era muito versado em R e estava demorando para implementar todas as etapas necessárias. No final, dado o tempo limitado e a capacidade limitada de usar o RI, acabamos apresentando apenas a Análise Exploratória de Dados que obviamente não foi suficiente para impressionar a equipe do Airbnb A. Vou trabalhar em minhas habilidades técnicas e estatísticas e tentarei novamente no Airbnb, Enquanto isso, Riley, se você pudesse trabalhar na preparação de um desafio interno que possa ser concluído em um dia, seria ótimo. Obrigado, desejando o melhor ao Airbnb. 3 O mundo da tecnologia está em ritmo acelerado. A IA e a ciência de dados são pioneiras na mudança. Nesse contexto, o Airbnb, com sede em São Francisco, tem algo a compartilhar – algo relacionado à arte de contratar cientistas de dados. A empresa liderou as etapas que eles seguem para contratar cientistas de dados e eles são discutidos abaixo: · A empresa está ansiosa para contratar especialistas provenientes de análises de dados fortese ter conhecimento prévio dos processos de trabalho do Airbnb. · Antes de realizar uma entrevista cara a cara, os candidatos devem passar por uma determinada tarefa, estruturada para medir sua capacidade de dados. · Para a entrevista, os candidatos devem passar por um desafio interno, no qual eles seriam solicitados a usar dados do mundo real para resolver problemas diários. Isso ajudaria a ter uma idéia melhor de como a equipe da Airbnb funciona. · Depois de superar o desafio interno, os candidatos seriam convidados a fazer quatro entrevistas de longo curso – nas quais duas reuniões seriam com seus parceiros de negócios e a outra dois seriam menos técnicos, especificamente para verificar se o candidato pode estar alinhado com os principais valores da organização. Agora, se você está pensando em dar um passo nessa direção, é melhor fazer backup de uma boa Certificação de Ciência de Dados! Isso irá ajudá-lo a percorrer um longo caminho.

Como me tornar um cientista de dados, sem as habilidades necessárias?

1
Eu acho que você não está qualificado para um trabalho de cientista de dados. Você pode se safar da gerência ou de uma função adjacente. Mas você não possuir habilidades relevantes em ciência de dados não seria eficaz. Na melhor das hipóteses, você estaria acenando com a mão ou, pior, não desenvolveria ciência de dados. Portanto, se uma empresa deixar você a bordo sem habilidades relevantes, esse é o risco deles. Duvido que uma empresa estabelecida corresse esse risco. Qualquer empresa que deixe você passar sem habilidades, mas com alguma aptidão ou conhecimento adicional provavelmente treinará você durante o trabalho.

2
O mais importante é começar em um campo. Você pode se movimentar e aprender à medida que avança. A ciência de dados está sempre mudando, o melhor é ver para onde o mercado está se movendo e qual é a demanda. É um campo difícil de entrar, se você conseguir um emprego em campo, eu aceitaria. Conseguir um emprego de estagiário enquanto estuda é um bom começo.

É tarde demais para se tornar um bom cientista de dados?

1
Embora eu tenha trabalhado em muitas funções técnicas / de engenharia / analíticas envolvendo estatística e análise de dados antes dos 34 anos, foi então que realmente mudei para uma função de ciência de dados, como membro sênior de consultoria de uma empresa de consultoria focada em dados.I diria que, com ampla curiosidade, a capacidade de aprender novas idéias e desafiar o próprio conhecimento e habilidade, você não é velho demais. Se você possui experiência no domínio de um setor específico como engenheiro de software, pode descobrir que ser um cientista de dados nesse setor pode ser uma carreira interessante pela frente.

2
Não, o campo está em constante crescimento e, no futuro, a ciência de dados acabará se dividindo em subcampos menores

3
Na verdade, seria uma excelente ideia marcar este post como favorito (como eu fiz) por causa da resposta fornecida pelo Sr. Pong. Você não verá respostas tão abrangentes e de boa qualidade aqui no Quora e em outros lugares. E para adicionar ao final desta resposta, lembre-se da frase comum – “Nunca é tarde demais!”

Quais são alguns pecados estatísticos comuns que cientistas inexperientes cometem?

1
O maior erro está sendo excessivamente focado em ferramentas e métodos, em vez de resolver problemas. Isso leva a: trabalhar nos problemas errados; gastar muito esforço em abordagens sofisticadas, que são apenas um pouco melhores (ou piores) do que as simples, e nem mesmo verificar se a abordagem simples funcionaria; má comunicação (“eu fiz isso e depois fiz isso e então eu fiz isso “)

2
falha em entender a diferença entre “o que os dados dizem” e “o que os dados significam”. sempre tente resolver problemas com o ML. Isso é tão estúpido. Não obter o impacto de uma decisão sobre os negócios depende muito do hiato de comunicação de valores-p com outras partes interessadas em busca de solução antes de entender completamente o problema.

3
De vez em quando, ouço isso sobre a rede neural, seja na academia ou na indústria (principalmente as startups). Eles se gabam como se as redes neurais fossem soluções esotéricas altamente sofisticadas. Eles estão confiantes de que sua abordagem profunda com o fluxo tensor vai abalar o sistema. Eles inevitavelmente falham, sem saber que os problemas são específicos do domínio e os RNs não são panacéia.

Quais são os maiores desafios para se tornar um cientista de dados?

1
Aprender matemática é difícil para alguns (deve conhecer pelo menos o nível de graduação em matemática / estatística com algum conhecimento de graduação em estatística), enquanto aprender a comunicar os resultados e criar insights acionáveis é difícil para outras pessoas (normalmente o pessoal de software que fala em conversa técnica). A combinação de habilidades costuma ser o maior desafio e o motivo pelo qual a ciência de dados é muito mais do que às vezes é considerada. Atualmente, existem muitos pacotes, portanto não há muita ênfase na codificação ou no aprendizado de software (felizmente!).

2
O maior desafio é exigir habilidades e conhecimentos interdisciplinares, o que leva tempo para aprender e entender. Se você não é apaixonado pelo trabalho, não há como durar muito, pois é uma jornada interminável de aprendizado, pois o campo ainda está se desenvolvendo rapidamente.

Posso me tornar um cientista de dados?

1
Pode ser sim ou não. Sem quaisquer detalhes, é muito difícil responder. Dito isto, vou tentar.Você obviamente tem uma conexão com a Internet (pode ser em casa, em um cyber café ou muitas outras opções Você também sabe escrever em inglês e fazer perguntas.Finalmente, você já ouviu falar sobre o Quora e o usou pelo menos uma vez.Você já tem muitas coisas boas para você.Encontre recursos disponíveis on-line para aprender ciência de dados Faça perguntas gratuitamente e leia algumas respostas sobre ciência de dados. Boa sorte.

2
Sim, com o background certo, você pode aprender ciência de dados fazendo cursos on-line gratuitos de plataformas como edX, Coursera e Datacamp. Esses cursos ensinarão a você a base da ciência de dados. Depois de ter uma boa base, você precisará aplicar esse conhecimento a problemas reais de ciência de dados. Leva tempo para se tornar proficiente como cientista de dados, eu diria de 1 a 5 anos, dependendo de como você está comprometido.

3
Obrigado pela A2A. Há muitos recursos na página de ciência de dados do Quora. Muitas perguntas frequentes, recursos, etc.Em relação à sua pergunta e à forma como você a desenvolveu na universidade em que está e assim por diante, deixe-me ser franco: sim, você pode ser um cientista de dados, independentemente da universidade em que está. , suja as mãos. Você tem tempo de sobra para melhorar suas habilidades e, para ser honesto, até decide que não quer ser um cientista de dados. Boa sorte!

Como é a entrevista do cientista de dados no Twitter?

1
São coisas bastante comuns em ciência de dados de empresas de tecnologia. Olhe para Glassdoor ou Career Cup se você quiser exemplos específicos de perguntas, mas ninguém entrevistou, por isso não é perfeitamente consistente. Como todas as empresas com muitas pessoas dando entrevistas, isso varia muito de acordo com o entrevistador. Eu entrevistei um cargo de cientista de dados financeiros (que seria chamado de analista financeiro em muitos lugares) alguns anos atrás. Depois de algumas agradáveis entrevistas por telefone de 30 minutos, concluí um projeto para levar para casa. A previsão de receita era nova para mim, e eu não tive um ótimo desempenho (não os 10% melhores), então esse foi o fim da linha.

Twitter (produto): Como é ser cientista de dados no Twitter?

1
Difícil dizer. Eu e meus amigos estávamos estudando ciência de dados. Ele atualmente trabalha no twitter e obviamente adora seu trabalho. Sempre que ganha tempo, ele menciona sobre seu trabalho no Twitter e no laboratório de ciência de dados. Twitter, Facebook, google são as melhores empresas para se trabalhar. A quantidade de dados que eles manipulam é como gerenciar um novo continente completo. Desenvolvendo novas tecnologias e melhorando estruturas, trabalhando com novos algoritmos. Você não pode imaginar a emoção do trabalho que eles fazem.Edit 1: Ele ficará na Índia por alguns dias. Planejando um geek de dados de hangout em pune.

2
Tente seguir meu twitter Xin Leo Wang (@flyboyleo) para ver;) P.S .: Sou um bioinformático que analisa grandes dados de sequenciamento da próxima geração o dia todo.

Quão chato é ser um cientista de dados?

1
Se você tem um BS recém-cunhado e seu cargo é “cientista de dados”, espero que você faça muitos dados de preparação e redação de relatórios. Se você tem um doutorado recém-cunhado e seu título de trabalho é “cientista de dados” Espero que você tenha alguns relatórios diretos e as pessoas esperem que você faça ou economize uma quantia significativa de dinheiro. Isso pode não ser divertido, mas não é chato.

Como é ser cientista de dados na Netflix?

1
A Netflix desenvolveu vários algoritmos e o mais importante é o “Mecanismo de recomendação”, que oferece sugestões personalizadas para os usuários e diz-se que “a Netflix conhece você melhor do que você mesmo” Sim, essa afirmação é válida para quase todos os usuários da Netflix e isso pode ser comprovado como 75% do que as pessoas assistem na Netflix são recomendadas por este algoritmo.Portanto, a Data Scientist Netflix está fazendo um excelente trabalho e deve se orgulhar de si mesma.Para obter mais informações, você pode ler: @How Netflix Gets Suas sugestões de filmes tão certas

Qual a importância da teoria dos jogos para um cientista de dados?

1
Fundamentalmente, a teoria dos jogos é um componente da ciência de dados (a teoria dos jogos é importante para os cientistas de dados?). É semelhante ao planejamento de cenários para gerenciamento estratégico, onde os cenários são criados para gerenciar eventos previstos. Em um nível prático, a teoria dos jogos não é mencionada por si só e pode nem ser calculada matematicamente, mas é considerada diariamente. Na maioria das vezes você está aqui: “qual é a porcentagem de confiança de que isso acontecerá” e “… se sim, o que devemos fazer …?” Richard Hom Conecte-se no LinkedIn

2
Não é um tipo de coisa ‘preciso fazer’. Quero dizer, se você não está analisando dados para melhorar o envolvimento do cliente – pode ignorar a teoria dos jogos. Embora eu ache isso bastante interessante. É um ramo complicado para ter certeza. Eu acho que você pode ler mais sobre isso aqui Cientistas de Dados: Explore a Teoria dos Jogos para Aumentar o Engajamento do Cliente | O Big Data Hub

Como um estatístico pode se tornar um cientista de dados?

1
Onde quer que os dados não se encaixem no estatístico de modelo se tornem mais adequados para o cientista de dados. Sempre que os dados de muitas fontes precisam coletar e o arquiteto de dados organizado se torna mais adequado para a ciência de dados. Adequado para a ciência de dados.Escolha seu papel e aprenda, com a experiência que você governará a equipe.Os cientistas de dados são bons em mineração de dados, não em métodos científicos, é um bônus ao estatístico em ciência de dados.Como existe uma resposta padrão padrão, sim , de fato.

Com que frequência os trabalhos de cientista de dados exigem que eles desenvolvam modelos de aprendizado de máquina a partir do zero?

1
Depende da empresa e da posição específica. As posições de pesquisa e desenvolvimento podem envolver uma quantidade razoável de pesquisa / projeto de algoritmo de aprendizado de máquina. Minha posição atual resultou em mais ou menos uma dúzia de novos algoritmos que precisam ser criados para determinados problemas ao longo de três anos. No entanto, a maioria dos problemas é bastante rotineira e pode ser resolvida pelos algoritmos existentes muito bem. No entanto, é importante conhecer a matemática por trás do algoritmo para garantir que o algoritmo seja usado corretamente nos dados, e essas são as mesmas habilidades necessárias para criar novos algoritmos.

Como faço para conseguir um emprego no governo como cientista de dados?

1
Você pode obter empregos no governo na área de Ciência de Dados. Existe uma demanda enorme dessa profissão, tanto no setor privado quanto no setor governamental. As organizações governamentais estão contratando uma boa quantidade de cientistas de dados. Se você é bom em sua habilidade em Ciência de Dados, então faça alguma pesquisa, aplicar, qualificar e ser colocado.Obrigado

2
Você deve considerar os Serviços Econômicos da Índia ou um serviço público que possa levá-lo à psefologia em que você pode procurar padrões e executar análises. Além disso, qualquer departamento que recrute estatísticos é uma abertura potencial para você, porque a ciência de dados será adotada lá eventualmente.

3
Você pode obter posições do governo no campo da ciência de dados. Há um interesse considerável nessa chamada tanto no setor privado quanto no setor governamental. A associação do governo está contratando uma medida aceitável de cientistas da informação. Se você for razoável em sua capacidade de Data Science nesse nível, faça algum trabalho, inscreva-se, qualifique-se e prepare-se.para Aprendizado Estatístico de Máquina – Aprenda conceitos básicos de máquina, como Regressões Lineares e Árvore de Decisão, etc. Melhor aprender o pacote Scikit em Python. Depois de concluir essas 3 etapas, você estará pronto para atacar problemas mais difíceis de aprendizado de máquina e aplicativos comuns do mundo real. ciência de dados.

3
Idealmente, um nível de pós-graduação. A maioria dos modelos de aprendizado de máquina é baseada em modelos lineares generalizados, e os projetos de estudo exigem que simulações e análises de potência sejam modificadas para a situação com bastante frequência em problemas industriais. As estatísticas bayesianas estão ganhando terreno, assim como alguns métodos baseados em probabilidade. Ciência de dados é um novo termo para estatístico, e eles geralmente têm um MS ou PhD em estatística / matemática aplicada.

Qual será o escopo para empregos de cientista de dados nos próximos anos?

1
Acredito que dados e análises, especialmente na nuvem, têm o potencial de automatizar e tomar inteligente, todas as decisões tomadas por cada indivíduo, organização, dispositivo e sistema. Acredito que essa revolução tornará a ciência de dados tão onipresente quanto o software – e todo software, por sua vez, poderá se tornar mais inteligente, personalizado e ideal, usando dados e análises. Acredito que isso implique uma enorme margem para a ciência de dados nos próximos anos em todos os campos.

2
A resposta simples será “haverá mais dados para analisar”; portanto, fique feliz que este é o único campo em que a experiência e os dados aumentam. Prepare-se para resolver todos os problemas deste mundo com o conjunto de dados que você possui. Pense em como resolver “Fome no mundo problema ”quando não houver árvores, alimentos, ar poluído e a lista aumentar …. somente você terá dados.

3
Se você é um cientista de dados ou um aspirante a ser, os próximos 5 anos serão todos seus. Como você sabe, os dados estão crescendo exponencialmente e provavelmente continuarão no futuro. Quanto mais dados tivermos, maior será o problema de entender os dados. A análise, interpretação e visualização de dados provavelmente crescerão em um futuro próximo. Dito isso, bons cientistas de dados são raros. Precisa de habilidades e conhecimentos especiais. Se você tem aptidão para grandes dados e uma mente analítica muito forte, é uma ótima carreira para seguir.

Quais são algumas das certificações sugeridas para um aspirante a cientista de dados?

1
Pelo menos nos EUA, é necessário que a maioria dos cargos tenha diplomas de pós-graduação em algo quantitativo, com um trabalho substancial em estatística no nível de pós-graduação. As certificações fornecem uma visão geral superficial que realmente não se traduz em ser boa no trabalho ou mesmo competente. Se você estiver em um país remoto sem um bom sistema educacional, provavelmente poderá se dar bem com recursos on-line, mas nos EUA e na Europa, espera-se que você tenha a competência adquirida com a experiência e a educação.

2
O que você considera a melhor certificação deve realmente trazer o melhor de você. O campo da ciência de dados tornou-se “loucamente competitivo” nos últimos anos, por isso é importante que você considere seus pontos fortes e fracos primeiro. No entanto, qualquer certificação da Microsoft, Cloudera, Oracle, MongoDB e SAS seria um bolo quente para um cientista de dados.

3
Abaixo estão algumas certificações de ciência de dados que são amplamente reconhecidas pelo setor: Certified Analytics ProfessionalCloudera Certified Professional (CCP): Data ScientistSAS Certified Data ScientistTambém existem certificações focadas em tecnologia (Hadoop, Spark, etc.), mas suponho que essas não sejam as que você possui em mente.

Por que a Zynga demitiu todos os seus cientistas de dados?

1
Até onde eu sei, eles não o fizeram.Pesquise “cientista de dados da zynga” no LinkedIn e há dezenas de pessoas em minha rede estendida atualmente trabalhando na Zynga com cargos como “cientista de dados”. Pesquise no google com todas as perguntas óbvias e não há nada para encontrar. Normalmente, não respondo perguntas estranhas como essa, mas, como literalmente mais de 500 pessoas estão seguindo essa pergunta – precisamos reinar na loucura. Ninguém fica mais feliz do que eu por estar corrigido com dados ou evidência – portanto, se você tiver algum para apoiar a premissa da pergunta, deixe-a rasgar. Caso contrário, nada para ver aqui.

2
A Zynga não demitiu todos os cientistas de dados, onde você conseguiu isso? Não há literalmente nenhuma evidência para sugerir isso. Só para garantir, vamos verificar o google. Como você pode ver, literalmente 0 resultados mostram que até sugerem que a Zynga demitiu seus cientistas de dados. Portanto, a Zynga não demitiu todos os seus cientistas de dados. Isso significa que essa pergunta não pode ser respondida, porque como a Zynga não demitiu seus cientistas de dados, eles não podem ter um motivo para fazer algo que nunca fizeram.

Como posso me tornar um cientista de dados como um novato?

1
Em primeiro lugar, você precisa aprender uma linguagem como python ou R. Você pode aprendê-la no DataCamp ou no Youtube, mas acho que o DataCamp é bom para iniciantes. Depois de ter uma boa noção do idioma, você pode fazer um curso de dados A partir do momento em que você se torna um profissional, é importante que você tenha uma boa noção do que está acontecendo no seu dia-a-dia e, principalmente, se você é um profissional da área da saúde ou que deseja se tornar um profissional de saúde. aplicar modelos de ML em dados, quais modelos usar com diferentes tipos de conjuntos de dados, como otimizar modelos usando o algoritmo de pesquisa ganância etc.

Quais são as habilidades necessárias para um cientista júnior de dados?

1
YoungnWise, Obrigado por fazer sua pergunta: “Quais são as habilidades necessárias para um cientista júnior de dados?” Aqui estão algumas referências que podem ajudar: “9 habilidades necessárias para se tornar um cientista de dados” YoungnWise “Aqui estão os 10 habilidades que você precisa para se tornar um cientista de dados, o não. 1 emprego na América ”Aqui estão as 10 habilidades necessárias para se tornar um cientista de dados, o não. 1 trabalho na AméricaFinalmente “Habilidades e características essenciais dos cientistas de dados de elite” Habilidades e características essenciais dos cientistas de dados de elite

Quais são as melhores indústrias para trabalhar como cientista de dados?

1
As empresas de software (Google, Microsoft, etc) – excelente ponto de marketing no currículo – são as mais lucrativas. As startups podem ser recompensadoras, trabalhando em desafios muito interessantes e recompensadoras. As agências governamentais (FBI, NSA, CIA, NASA etc.) também são emocionante, já que você começa a trabalhar com os dados aos quais não teria acesso.

2
Encontrei alguns dos dez principais recrutadores de ciência de dados da Índia que podem ajudá-lo a conseguir um emprego bem remunerado. Se falamos de provedores de serviços de análise, o Fractal Analytics alcança o primeiro lugar na Índia. … Deloitte. …Amazonas. Flipkart. … LinkedIn. … IBM. Citrix. … MuSigmaHá muitos outros bons lugares e organizações para trabalhar como cientista de dados na Índia.

3
No entanto, é importante ressaltar que, em caso de divergência de preços e condições de entrega, o prazo de entrega dos correios varia de acordo com a forma de envio escolhida e não é de nossa responsabilidade“já que a entrega fica a cargo do cliente. rastrear uma doença para algo como fitbit.DS em tecnologia, talvez olhando para os padrões de usuário em um aplicativo use para melhorar a experiência ou para olhar para os padrões de compras etc. Esses são um conjunto infinito de exemplos. Encontre o que lhe interessa e ame.

Quais são os bons livros para “cientista de dados” e “análise de dados” para iniciantes?

1
Dados estatísticos de Amazon.com: Estatísticas conceituais para iniciantes (9780761833451): Isadore Newman, Carole Newman, Russell Brown, Sharon McNeely: BooksProbability of R? RInstant R StarterLearning Data Mining Com RData VisialuzationTableau For Dummies (Para Dummies (Computer / Tech)): Molly Monsey, Paul Sochan: 9781119134794: Amazon.com: BooksLearning TableauEspero que seu início seja bem-sucedido, você consegue atingir seu objetivo em breve 🙂

2
Vários livros vêm à menteData Mining: Ferramentas e técnicas práticas de aprendizado de máquina – Ian witten, Eibe Frank e Mark Hall Princípios de mineração de dados | Springer – Max BramerIntrodução à Mineração de Dados – Pang-Ning Tan et al. Eu recomendo o primeiro da lista, mas todos são bons, IMO.

3
Eu recomendo The Signal and the Noise por Nate Silver, pois explora sob quais circunstâncias a análise baseada em dados pode ou não ter sucesso no mundo real.

Qual é a diferença entre um analista de dados e um cientista de dados?

1
Normalmente, separamos as funções de dados em três posições distintas, mas sobrepostas; O analista de dados, o cientista de dados e o engenheiro de dados. O analista de dados normalmente realiza consultas em relação a novos dados para encontrar tendências importantes para a organização e ajudar a preparar dados para os cientistas de dados. Os analistas de dados geralmente são muito bons em SQL, além de conhecer as principais métricas que uma organização considera importantes. Eles também podem escrever scripts e produzir visuais intuitivos. O Data Scientist tem a tarefa principal de criar modelos usando o aprendizado de máquina. Esses modelos devem gerar o software de uma organização com recursos do produto que preveem e explicam; tornando os aplicativos adaptáveis. A qualidade dos modelos de um cientista de dados depende diretamente de quão bem eles entendem e preparam os dados; assim, eles trabalharão com o analista de dados quando se trata de entender e preparar dados para criar modelos melhores. O engenheiro de dados pega o que é criado no “laboratório ”E ajuda a colocá-lo em produção. Eles trabalham com cientistas de dados para garantir que a engenharia implementada lide com os modelos de aprendizado de máquina corretamente (quanto os modelos precisam ser dimensionados, como os modelos são treinados, como os modelos são mantidos atualizados etc.). Em algumas empresas, os engenheiros de dados também trabalharão com os analistas de dados para garantir que a ingestão e a conversão de dados levem em conta as métricas corretas, das fontes corretas etc. Todas as três funções ajudam a apoiar a conversão de dados brutos em recursos implantados nos produtos. Aqui está uma comparação geral de algumas habilidades essenciais, mas lembre-se de que todos os indivíduos de uma equipe variarão em termos de pontos fortes e foco.

Por que os cientistas de dados não recebem salários mais altos do que os engenheiros de software?

1
Os salários não funcionam assim. Se eu conheço programação, estatística e contabilidade, isso não me qualifica para uma carreira super lucrativa em contabilidade de ciência de dados, a menos que essa combinação de habilidades seja especialmente útil para alguém. Os cientistas de dados ganharão altos salários se sua combinação de habilidades for valiosa e as posições forem difíceis de preencher.

2
Sua lógica é interessante. Os salários não são determinados pelo número de habilidades que alguém possui. ou seja, no seu exemplo, você teoriza que os DSs devem ganhar mais do que os SEs porque conhecem estatísticas e engenharia de software. Não é assim que funciona. Existem muitos fatores que influenciam o salário de alguém, mas se você tirar a localização, a antiguidade e o setor da equação, tudo se resume à oferta, à demanda e ao valor / impacto que a posição exerce sobre os negócios.

3
Seria interessante fazer uma análise cuidadosa de suas suposições. Por exemplo, embora eu tenha certeza de que existe uma concentração justa de cientistas de dados no SF, o mesmo poderia ser dito para os engenheiros de software. De fato, dadas as densidades populacionais, a maioria dos engenheiros de software nos EUA deve estar nas principais áreas metropolitanas, como Nova York e SF. Dado que Nova York tem um alto custo de vida e um alto número de engenheiros de software trabalhando em finanças, com alguns deles ridiculamente bem, eu não ficaria surpreso se isso trouxer um pouco a média.

Quais são os tópicos importantes nas estatísticas que todo cientista de dados deve conhecer?

1
Você não pode substituir as bases esperadas de todos os estudantes sérios de matemática adquiridos desde o ensino fundamental para o atual estudo acadêmico. Se você tiver tempo, deve aprender inferência e análise estatística, desenho experimental e aprendizado estatístico. Esses três cabeçalhos de assuntos são suficientes para levar adiante sua carreira em ciência de dados e adquirir assuntos estatísticos adicionais quando você precisar deles, ou avançar sua modelagem.

2
Estatísticas descritivas e inferenciais são as primeiras coisas que vêm à mente. Durante minha graduação, fiz um projeto que envolveu a adaptação de um modelo ARIMA aos índices de preços ao consumidor compostos por 20 anos, depois de ter feito tudo isso e apresentado ao meu supervisor, sua primeira pergunta: “Onde está a tabela que descreve os dados?” Desde então, ao analisar qualquer conjunto de dados, a primeira coisa que faço é estatística descritiva.

3
Os principais tópicos que geralmente busco ao contratar analistas ou cientistas de dados incluem estatísticas descritivas e inferenciais, teste de hipóteses, modelos lineares e análise básica de séries temporais. Eventualmente, todo cientista de dados precisa acabar aprendendo métodos estatísticos mais específicos dentro desses amplos campos, em profundidade, para usá-los no trabalho regular.

Qual é a diferença entre um arquiteto de dados, analista de dados, engenheiro de dados e cientista de dados?

1

2
Obrigado pelo R2A. Existem várias maneiras pelas quais os vários papéis na indústria de ciência de dados podem ser definidos.Eu ofereço outra classificação, com o que cada um deles significa, aqui: A resposta de Praful Krishna a Como aprender ciência de dados “fazendo isso” ? Alguém pode explicar como exatamente devemos aprender ciência de dados “fazendo isso” em vez de apenas passar pela teoria?

3
Definitivamente, acrescentaria também o aprendizado de máquina nas habilidades do cientista de dados e provavelmente no topo das habilidades necessárias. Além disso, o cientista de dados precisa ser um pouco “artista de dados” em termos de saber como escolher a melhor maneira de visualizar e apresentar os padrões descobertos e as associações de dados.

Um cientista de dados é um engenheiro de software?

1
Acabei de terminar a especialização em ciência de dados courera. A propósito, ainda não sou cientista de dados. No entanto, ao longo do meu processo de aprendizado, descobri que na verdade existem dois ramos à frente. um mais se inclina para o papel de analista e o outro mais para o desenvolvimento de software. Para mim, o papel de analista faz sugestões para a empresa por suas investigações estatísticas. Eles podem considerar renderizar suas descobertas em diferentes formatos, como relatórios, apresentações ou aplicativos com UIs simples. No entanto, diferentemente dos desenvolvedores de software, eles não fabricam produtos.

2
Sim, o melhor exemplo sou eu, fui cientista Jr. Data na minha empresa anterior. Agora sou engenheiro de software associado em minha nova empresa. Atualmente, percebi recentemente que engenheiro de dados ou cientista de dados ou analista de dados se enquadram na granularidade de engenheiro de software.

3
Um cientista de dados é melhor em engenharia de software que um matemático e estatístico e melhor em matemática e estatística que um engenheiro de software.

O que as empresas procuram em cientistas / analistas de dados iniciantes?

1
Gostaria de sugerir uma olhada em uma seleção de listagens de empregos para obter uma impressão e uma sensação de quais são os requisitos para obter um emprego de cientista ou analista de dados iniciante. Você verá rapidamente o que a maioria dos empregadores considera requisitos mínimos e quais padrões existem em relação a educação, habilidades de programação, experiência etc. Uma boa fonte dessas postagens é https://ai-jobs.net. É um quadro de empregos global dedicado exclusivamente aos cargos no campo AI / ML / Ciência de dados / Big Data e oferece uma ótima seleção de listas de nível de entrada e mais avançadas.

2
Indolor Com é a empresa de raspagem top web na Índia. Eles podem criar suas próprias ferramentas de raspagem automática para qualquer site que você desejar, além de converter dados de sites em API. e entregue o código fonte completo. Melhor Quoto do dia. Sempre mantenha essa atitude feliz. Finja que você está segurando um lindo buquê perfumado.

Quais são as habilidades técnicas que todo aspirante a cientista de dados deve aprender?

1
Para se tornar um cientista de dados, é necessário ter conhecimento básico nas seguintes áreas: R ou Python; Conhecimento do SQL.MS ExcelStatistics; e deve ter uma idéia sobre probabilidade. Deve ter conhecimento de terminologias, como análise de dados, visualização de dados.

2
Considero meu companheiro Chris um cientista de dados. Não sei se ele tem habilidades técnicas. Ele tem uma capacidade incrível de traduzir o comportamento do cliente em dados e vice-versa. Não sei, depende de suas definições. Não consigo imaginá-lo lidando com estatísticas além da regressão linear. No entanto, eu sou péssimo em engenharia de dados, para que todos tenhamos nossas habilidades.

3
Leia a minha resposta das seguintes perguntas: Quais são as habilidades necessárias para um cientista de dados júnior? Quais são as bases básicas necessárias para um cientista de dados? Qual é o requisito básico para se tornar um analista de dados / cientista de dados? Quais são as diferentes tarefas que realizados por um cientista de dados? Espero que ajude você.

Quais são os motivos mais comuns para rejeitar candidatos a emprego de cientistas de dados?

1
Os cientistas de dados aspirantes devem possuir um certo conjunto de habilidades que se qualificam como higiene. Eles devem ter uma sólida base em quantos (Matemática e Estatística) .Basic para habilidades de programação intermediárias em softwares como R / Python / SQL.Tem uma abordagem de solução de problemas – boa intuição para fazer com que os dados configurem as perguntas certas antes de começar a processá-los. Boas habilidades de comunicação – os resultados precisam ser articulados. Uma lacuna / deficiência em qualquer uma das opções acima são razões comuns para rejeição.

Quais startups estão atualmente procurando cientistas de dados?

1
A First Retail está procurando Data Scientists – http: //www.firstretail.com/about … – temos muitos projetos muito interessantes apresentando conjuntos de dados enormes e bastante exclusivos – e clientes que apoiam muito a análise processo. Entre em contato e deixe-nos saber o que o faz marcar.

2
Atualmente, quase todas as empresas precisam de um ‘cientista de dados’. Mas ouvi dizer que apenas empresas relacionadas a software contratam Data Scientists frequentemente do que as outras empresas. Meu amigo que trabalha em uma empresa relacionada ao PLM ‘Piterion’ também mencionou os cientistas de dados e sua importância. É realmente uma boa idéia consultar bem os funcionários que trabalham em uma empresa para saber sobre os requisitos e as melhorias associadas ao seu trabalho.Pergunta Como posso me tornar um cientista de dados? Número da resposta 1 Não. Você não pode. Você pode resolver um problema de “Poincare Conjecture” em 2 minutos? Se a resposta for sim, você pode. Caso contrário, não faça isso. Vejo muitos institutos treinando cientistas de dados e oferecendo cursos de certificação em análises. Eu realmente não sou cínico. Mas a única coisa que falta é se preparar como cientista de pesquisa que trabalha em um ambiente de negócios, tentando resolver um problema de aquecimento global ou criando algoritmos para processar dados genômicos para organismos geneticamente modificados. Você simplesmente NÃO PODE se tornar um cientista de dados com uma certificação de 6 meses. cursos. Seja avisado por eles. Muitas habilidades no cientista de dados que eles possuem é um papel para o analista de dados. Como carregar dados no Excel, manipulá-los e visualizá-los? Você pode fazer isso sozinho. Com o objetivo de proporcionar aos nossos clientes um atendimento diferenciado e personalizado, a empresa conta com uma equipe de profissionais qualificados para o serviço, além de investir em equipamentos modernos, que se ajustão a sua necessidade. Além disso, outros 3 anos para aprender o aprendizado de máquina.Tenho trabalhado principalmente nos domínios da saúde, varejo, jurídico e financeiro.Não vou dizer que sou um especialista neste campo.A ciência de dados trata de lidar com vários dados diversificados.Como aplicamos tipo certo de algoritmo para o problema certo? Escolhendo a estrutura de dados certa para a solução certa.Você simplesmente não aprende isso em 6 meses.Ele leva anos.Eu sugiro que você faça uma coisa.Tome um problema. Digamos no Deep learning. Identifique um interesse comum em sua área favorita. Tente descobrir se você pode fornecer uma solução baseada em aprendizado de máquina. Publique sua descoberta nos principais jornais. Faça isso quando você ainda estiver trabalhando em uma empresa. Não precisa estar relacionado à ciência de dados. Descubra como, com eficiência, você pode escrever algoritmos capazes de lidar com grandes volumes de dados. Dessa forma, você conhecerá as nuances do desenvolvimento de software.Em seguida, tente contribuir para o projeto de código aberto no aprendizado profundo usando python. ou java.Use-o para problemas do mundo real com sabedoria.É assim que você enfrenta um problema, ruminar por um longo período de tempo e depois prosseguir com ele.Eventualmente, quando você começar a publicar trabalhos, comece a explorar uma carreira na ciência de dados e no aprendizado de máquinas. você também pode apostar com segurança sua mudança de carreira. Lembre-se de que as pessoas que trabalham com ciência de dados já estão estabelecidas, mas todas são de antigas escolas de estatística, ciência da computação e matemática. Se você está se tornando um cientista de dados, considere-se um dado de primeira geração Você está por sua conta criando seu caminho. Dito isso, eu diria que uma carreira em cientista de dados é a função de trabalho mais gratificante que você pode assumir, se você é apaixonado por pesquisa (Sim. Dinheiro também. Existem algumas empresas em Wall St O valor do frete é calculado automaticamente pelo Mercado Envios. Leva tempo. Mas realmente vale a pena. Adoro o meu trabalho. É o trabalho mais gratificante que já tive na minha vida. 2 Depende de onde você começa. O DataScience é uma mistura de matemática, estatística e ciência da computação. Também envolve programação, gerenciamento de banco de dados e modelagem. Sem uma boa base em vários deles, é improvável que você tenha sucesso. O DataScience não é apenas uma disciplina da Universidade. As universidades estão atrasadas para a festa e não têm força em profundidade no campo. Eles estão tentando criar algumas das partes mais teóricas – como visão computacional e aprendizado profundo -, uma vez que podem conceder fundos sem uma aplicação comercial direta, mas a maioria é de departamentos jovens e há uma porta giratória com a indústria. Existem várias rotas em … A primeira que estamos explorando em uma palestra no mês que vem aqui em Oxford, a partir de Pivigo, que realiza um curso de migração de seis semanas para que os cientistas se tornem cientistas de dados. Muitos cientistas já usam dados extensivamente, então o salto parece pequeno, mas os dados nas Universidades costumam ser usados para justificar uma conclusão pré-julgada, e é difícil para eles abrir as possibilidades. O segundo é através das disciplinas tradicionais baseadas em dados. Profissionais de inteligência de negócios, especialistas em bancos de dados de TI etc. A diferença, no entanto, é que os dados de 1ª geração foram empregados para colocar gráficos bonitos em desktops executivos, sem fazer nada significativo. Passar da visualização para o uso científico de dados muitas vezes é um exagero e as pessoas acabam no “Bigdata”. O terceiro é através da programação, especialmente em R ou Python. Aqui, o salto mental é entender a ciência e o método científico, o “porquê” e o “como” eles estão familiarizados. Sem isso, as percepções são perdidas, pois a pessoa pensa linearmente demais. Se você não tiver nenhuma dessas … bem, eu nem começaria. DataScience não é uma coisa simples comoO desenvolvedor pode ser (aprenda um programa e continue usando-o) – é uma manipulação científica complexa e de alto nível dos dados. Compre esses serviços ou comprometa-se com uma curva de aprendizado de 3 a 5 anos.

Quem são os cientistas de dados mais notáveis e influentes?

1
Além de todos os itens acima, o professor Rob Tibshirani e o professor Brad Efron por seu trabalho sobre regularização e o algoritmo de Lars

2
Nate Silver e Jonah Hill (Moneyball), sem dúvida, foram mais influentes do que qualquer um dos itens acima em termos de obter “ciência de dados” geralmente aceita e glamourizada para as massas

3
Publicamos 2 artigos sobre isso em nosso quadro de empregos em Data Science, Datawerq. Espero que isso ajude! 50 líderes de dados a seguir no Twitter10 das mulheres mais influentes em dados

Você pode trabalhar remotamente como cientista de dados?

1
Oi: Deixe-me responder a essa pergunta em três partes. Isso pode ser feito? Na minha opinião, você pode trabalhar absolutamente em casa ou remotamente como cientista de dados, pois todo o trabalho acontece em seu sistema ou em um sistema distribuído que você pode acessar remotamente.Quem permite isso? Startups com espaço de escritório insuficiente para todos os funcionários ou tentando manter o custo baixo durante a inicialização. Você pode encontrar muitas dessas empresas na área da baía. Grandes empresas (como a IBM) com presença global e tecnologias avançadas permitem isso para seus funcionários. Se alguém o contratar como freelancer ou contratado e sua avaliação / pagamento de desempenho estiver vinculado a um saída muito bem definida e linha do tempo associada. e assim por diante. Existem advertências – “Fora da vista, fora da mente” – você precisaria envidar esforços extras para manter a visibilidade para si mesmoMotivação – não há ninguém para examinar sua O objetivo do curso é capacitar os profissionais para atuarem na área de vendas, com foco em vendas, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, entre outros. disponível fisicamente na mesma salaEquilíbrio entre vida profissional e pessoal – você pode manter sua vida profissional e doméstica separadas quando trabalha remotamente? Espero que isso ajude.Fãs! Obrigado por seus votos antecipadamente. Eles me fazem continuar! Obrigado! Isenção de responsabilidade: As opiniões aqui expressas são exclusivamente do autor em sua capacidade particular.

2
Sim, você pode até agora acreditar que funcionará para você enquanto estiver usando os caminhos certos. Você pode ter a sorte de obter empresas bem estabelecidas que o levariam a um cargo de cientista de dados remoto, mas as chances são pequenas. No entanto, algumas startups com T & Cs flexíveis podem oferecer essa oportunidade ou, melhor ainda, você pode configurar um freelancer. Tudo o que você precisa fazer é continuar aproveitando suas habilidades em DS, além de criar seu perfil nas redes sociais ou plataformas empresariais.

Como posso passar de analista de dados para cientista de dados?

1
Faça alguns cursos de análise – Coursera e Caltech oferecem cursos gratuitos, consulte o curso on-line gratuito da Caltech: Aprenda com dados, aprenda R e Python e participe do Kaggle ou de outras competições

Como o Uber contrata cientistas de dados?

1
Seja proativo com lugares como Uber / Google. Eles têm equipes de recrutamento internas próprias, que serão rigorosamente examinadas em determinados critérios (geralmente na escola e no GPA). (Geralmente ex-headhunters). Por que não fazer uma pesquisa sobre algumas pessoas seniores da área de Ciência de Dados que trabalham lá, o chama através do painel de distribuição (tem um bom argumento). O processo de tomada de decisão depende da antiguidade da função. Além do que está na página, acho que eles podem estar procurando por motoristas de táxi 🙂

2
O Uber coloca seus cientistas de dados entrevistados em uma série de testes para determinar suas habilidades pessoais e físicas. Primeiro, eles solicitarão que você faça análises, como calcular médias, menor / maior taxa de execução e porcentagem de aceitos. Após essas demonstrações técnicas, você será questionado na tentativa de determinar sua capacidade de trabalhar em equipe, seja flexível, etc. Se desejar obter mais informações sobre o processo de contratação de cientistas de dados da Uber, confira o Rooftop Slushie!

3
Legal, acabei de receber um código de reinicialização gratuito nos códigos Free Boost Mobile Reboost

Muitas pessoas se autodenominam “cientistas de dados”. Como você identifica um cientista de dados real?

1
Há um simples exame de sangue para isso. Você só precisa desistir de dois litros de suco de sua vida. Brincando à parte, aqui estão alguns sinais de cientistas de dados reais e falsos. REAL: sabe como executar uma tarefa ETL a partir de um banco de dados local ou na nuvem armazenado. Você não pode fazer nada sem dados. Na maioria das vezes, os dados não serão entregues a você no seu formato preferido. (a menos que você já esteja no último ano e tenha lacaios no escritório que fazem o trabalho sujo para você) FAKE: Pensa que os bancos de dados estão abaixo dele (eu uso o pronome masculino aqui porque as mulheres raramente são tão ilusórias). Pensa que o SQL é um negócio do analista. REAL: Tenha pelo menos alguns anos de treinamento formal ou prático (experiência) em estatística preditiva e inferencial. As idéias não vêm do céu (a menos que você seja Jesus ou Moisés). Mesmo quando você cria uma visualização de dados impressionante que mostra padrões e relacionamentos, você precisa fazer backup com testes de hipóteses e intervalos de confiança e (eu sei que é um furo, mas) valores p. Talvez você nunca precise relatá-las, mas essas são as verificações de robustez definitivas para o seu modelo bonito. FAKE: Os testes estatísticos são tão ultrapassados agora. Eu tenho esse novo método de visualização. Isso vai explodir sua mente. REAL: Conhece a teoria / conceitualidade por trás do seguinte (no mínimo): regressão linear, regressão logística, análise de componentes principais (também necessária para análise de fatores), análise de agrupamento, teste A / B , Erro tipo I, erro tipo II, ajuste / desajuste, ajuste excessivo. (Observe, estes são o mínimo que você precisa. Se você também quiser se aventurar no ML ou na IA com mais seriedade, não poderá evitar redes neurais, processamento de linguagem natural, árvores de decisão etc.) FAKE: Ei, baixei as últimas redes Jupyter e I também conhece pandas. Olha, eu ajustei um conjunto de dados de aprendizado de máquina da UCI existente para replicar algum resultado de dois anos atrás. Eu também coloquei na minha conta do github. Estou pronto para lançar babyREAL: sabe que 70% da ciência de dados geralmente está preparando seus dados para análise. Tenha experiência em limpar e transformar dados confusos (você já viu os dados da Netflix com 90% de linhas com valores ausentes? Hmmm…). Está ciente de que o mundo gera dados confusos com valores ausentes, rótulos inconsistentes, erros de digitação, uso de maiúsculas inconsistentes e similares. Também sabe que preparar os dados para análise é tão crucial quanto aplicar o algoritmo ML mais complicado. Afinal, você pode cantar apenas os dados que você canta.FAKE: Pensa que a preparação dos dados é apenas uma abertura para as coisas reais.E, finalmente, os cientistas de dados ou, digamos, os profissionais que obtiveram uma visão dos dados para viver, geralmente tendem a perceber que eles trabalham em um setor bastante fluido, com muito feedback entre campos. A maioria dos cientistas de dados tende a ter (além de sua perspicácia técnica) experiência específica de domínio (ou seja, experiência com o processo do mundo real que gera os dados com os quais eles precisam trabalhar). Isso significa que eles entendem o processo de geração de dados e podem antecipar problemas que podem surgir durante a coleta e / ou processamento de dados. Eles tendem a possuir um certo grau de curiosidade natural para interessá-los pela tarefa e fazer alguma pesquisa sobre o domínio específico (pelo menos eu)….

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Carreira de Cientista de Dados e Big Data – Guia Completo! (30+ dúvidas respondidas!)

Carreira em Big Data e Ciência de Dados - Guia Completo!(Data chaos 3, sachyn)

A carreira de Cientista de Dados, Inteligência Artificial e Big Data é uma das mais badaladas dos últimos anos, e neste texto você encontra dicas para encontrar o caminho mais curto para trilhar essa carreira tão promissora.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

O que é Big Data ?

Você já parou pra pensar que os dados são para sempre ?
Você certamente já perdeu dados em diversas situações, sejam os documentos do seu computador que deu defeito, as fotos do seu celular que foi roubado ou as músicas do seu HD externo (eu já quebrei 3 HDs externos, acredite!).
Agora lembre a sensação que você sentiu quando constatou: “Não tem mais jeito! Já era! Perdi!”.
Raiva, angústia, revolta e tristeza provavelmente foram alguns dos sentimentos que povoaram sua mente.
Onde quero chegar com essa conversa toda ?
Que todos nós temos, naturalmente, nosso Big Data.
Queremos manter nossos dados acumulados ao longo de 10, 20, 50 anos ou mais.
Agora pense na organização em que trabalha.
Se para um indivíduo a perda de dados pode criar sérios problemas, imagine para empresas ?
Por isso, as empresas investem há bastante tempo em armazenamento, backup e outras tecnologias para manter seus dados seguros e disponíveis.
E o Big Data representa a possibilidade de agregar a estes dados gerados pela empresa, outros, espalhados pela web, que podem ser úteis de alguma maneira para, combinados com as informações já disponíveis, permitir análises mais completas e sofisticadas, que ajudem a produzir os resultados que a empresa deseja, seja o aumento de clientes pelo melhor entendimento de suas necessidades ou a melhoria do tratamento de doenças através da análise de indicadores.
Mas por que isto não era feito antes ?
Simplesmente porque as arquiteturas tradicionais de análise de dados (Business Intelligence, Business Analytics, etc) não suportavam lidar com o grande volume de dados, gerado em grande velocidade e de maneira não estruturada (tweets, posts no facebook, imagens no instagram, etc).
Esta situação levou ao que a literatura caracteriza como os 3 V’s do Big Data, que ao longo do tempo foram ampliados, e atualmente há quem considere que os V’s são cinco.
Vamos a eles.

Volume

Atualmente, o crescimento exponencial do volume de dados se apresenta de forma tão natural que é comum ver serviços oferecendo capacidade “ilimitada” de armazenamento. É o caso do Flickr e Google Fotos, por exemplo, que permitem armazenar um número indefinido de imagens se algumas regras forem seguidas.
Está se tornando comum empresas com volumes de terabytes e até petabytes em seus sistemas de armazenamento, especialmente no caso de médias e grandes empresas. Com o crescimento das bases de dados, as aplicações e arquiteturas de aplicações construídas para suportar estes dados precisam ser reavaliadas.

Velocidade

O crescimento dos dados e a explosão das mídias sociais mudaram a forma como olhamos para os dados. Houve um tempo em que se acreditava que os dados de ontem eram recentes. Alguns jornais impressos ainda seguem esta lógica.
No entanto, os canais de notícias na web, de rádios comunitárias online a redes sociais, mudaram a velocidade com que recebemos informação. As pessoas interagem nas mídias sociais para atualizar as últimas notícias que estão acontecendo em todo o mundo.
Às vezes bastam alguns segundos para que mensagens “antigas” (um tweet, por exemplo) deixem de despertar interesse das pessoas. É comportamento comum descartar mensagens antigas e prestar atenção às atualizações recentes.
O movimento de dados é praticamente em tempo real e a janela de atualização foi reduzida a frações de segundos.

Variedade

Os dados podem ser armazenados em múltiplos formatos: bancos de dados, planilhas, documentos de texto, áudio, vídeo, imagem, etc.
Este é o tipo de dado que mais cresce, os chamados dados não estruturados, que, por representarem volume relevante, devem ser analisados pelas organizações de acordo com suas necessidades, da forma mais eficaz e eficiente possível.
Seria fácil manipular estas informações se os dados estivessem no mesmo formato, mas este não é o caso na grande maioria das vezes. O mundo real tem dados em muitos formatos diferentes e este é o desafio que as tecnologias para Big Data vem ajudar a superar.

Veracidade

Apesar da definição de Big Data a partir dos 3 V’s mencionados anteriormente ser a mais citada, um quarto V tem sido utilizado para destacar a necessidade de verificar se os resultados obtidos a partir da análise dos dados são reais, verdadeiros.
Em outras palavras, este ‘V’ reflete a preocupação em identificar se as perguntas certas estão sendo feitas em relação aos dados, se as análises estão corretas, e acima de tudo, se os dados são confiáveis.

Valor

O mais recente ‘V’ incluído na lista diz respeito ao benefício gerado para o negócio, em relação aos objetivos da organização.
Valeu a pena o esforço de analisar todo o volume e variedade de dados ?
Os resultados obtidos ajudam a organização de tal maneira que o investimento se justifica ?
Em resumo, Big Data não se refere apenas a grandes volumes de dados, mas a uma nova visão sobre os dados, incluindo orientações para sua captura e análise no futuro.
Se adaptar e superar os desafios da dinâmica da informação será questão de sobrevivência para muitos negócios no futuro próximo.

Ciência de Dados vs Big Data vs Business Intelligence

É comum ver discussões em torno da relação entre Ciência de Dados e Big Data, ou entre Big Data e Business Intelligence.
Big Data é o mesmo que BI ?
E a Ciência de Dados ? É apenas outro nome para Estatística ?

Penso que a tecnologia de BI tende a focar muito mais no passado que no futuro, de forma que isso limita em certa medida os benefícios que se pode obter da tecnologia.Em Big Data, por outro lado, há uma preocupação maior em analisar o presente, em tempo real, e prever o futuro com base não apenas no que aconteceu antes, mas também no que está acontecendo agora.

Pense nos ‘Trending Topics’ do Twitter, por exemplo.
Quantas decisões uma empresa pode tomar hoje a partir da observação do que está ‘bombando’ na web ?
É cada vez maior o número de empresas cujo modelo de negócio é baseado em análise de dados em redes sociais.
Outro ponto que destacaria como vantagem de Big Data em relação a BI, é a maior facilidade para lidar com dados não estruturados, ampliando tremendamente as possibilidades de análise, na medida em que a ‘estruturação’ do dado passa a ser muito mais flexível, através de esquemas que mapeiam uma estrutura lógica de um sistema de arquivos distribuído, e não em estruturas mais rígidas, pela organização dos bytes em arquivos binários de banco de dados relacionais.
E quanto à Ciência de Dados ? Qual sua relação com Big Data ?
Penso que Big Data não existe sem Ciência de Dados, e se o primeiro é mais genérico e abrangente, o segundo representa a importância de lidar de maneira científica com os dados, como indicam os Vs de Veracidade e Valor, de forma a garantir que os resultados obtidos sejam confiáveis e possam, assim, subsidiar de maneira efetiva a tomada de decisão das organizações.
Portanto, a Ciência de Dados se traduz em hipóteses, modelos matemáticos e estatísticos aplicados à análise dos dados de maneira a certificar a qualidade dos resultados obtidos.

Conhecimentos necessários para uma carreira de sucesso em Big Data

Conhecimentos necessários para uma carreira de sucesso em Big Data
Eu gosto muito do diagrama acima, pois mostra (com o bom humor de um unicórnio 🙂 os desafios que se apresentam para os que desejam aproveitar esta excelente oportunidade representada pelas tecnologias que envolvem Big Data e Ciência de Dados.
É importante conhecer matemática, estatística, computação, além de ter abordagem científica, com método e organização na análise e apresentação dos dados.
Tudo isto sem contar a necessidade de conhecer do negócio específico, inerente a todo profissional de TI.
Aliás, é importante destacar o papel fundamental da visualização de dados. Uma análise muito bem feita pode ser destruída por uma visualização inadequada.
Penso que, na prática, o tempo revelará a necessidade de estabelecer equipes multidisciplinares, em que a colaboração entre os diversos perfis que integram o time será decisiva para a qualidade do trabalho realizado.
Com isso, devem ser definidos nomes mais específicos que Cientista de Dados, e já começo a ver referências a engenheiros, desenvolvedores e analistas, de maneira que deve se tornar cada vez mais claro quais os perfis necessários para que um ‘time Big Data’ funcione, bem como o papel de cada um.

Faixa Salarial das Carreiras em Big Data e Ciência de Dados

Quanto ganha um profissional Big Data / Cientista de Dados ?

De acordo com o Datajobs, os salários para uma carreira em Big Data são os seguintes:

  • Analista de Dados – iniciante até 75 mil obamas, experiente até 110 mil;
  • Cientista de Dados – entre 85 mil e 170 mil obamas;
  • Gerentes – entre 90 mil e 240 mil obamas, conforme tamanho da equipe e experiência;
  • Engenheiro Big Data – entre 70 mil e 165 mil obamas;
Aqui no Brasil encontrei notícias com salários de até 15 mil Dilmas 🙂

 

Hadoop e seu Ecossistema

Ecossistema Hadoop - Ferramentas para Big Data

A base do Big Data consiste no processamento distribuído dos dados, aproveitando o barateamento do hardware e do armazenamento, e o avanço da computação em nuvem.

Desta forma, a divisão dos dados em partes ‘friamente calculadas’ e a sua distribuição para processamento através de um cluster de dezenas, centenas ou mesmo milhares de nós (computadores) permite lidar com volumes de dados até então inimagináveis, com uma velocidade incrível, e (melhor parte) a um custo viável.
Este sistema de processamento distribuído, criado pelo Yahoo em 2004, a partir de um paper do Google, é o famoso Hadoop, que consiste de dois componentes principais, o Map Reduce e o HDFS.
O Map Reduce cuida do ‘dividir pra conquistar’, organizando a distribuição e processamento dos dados, enquanto o HDFS cuida do seu armazenamento.
Os desafios do processamento distribuído são muitos, e o Hadoop vem evoluindo rapidamente para lidar com eles, fornecendo mecanismos de tolerância a falhas, melhorias de desempenho e mais recursos para desenvolvedores e administradores a cada nova versão.
Em torno do Hadoop há um ecossistema generoso que traz soluções para importação e exportação de dados (Sqoop e Flume), pesquisa textual (Solr/Lucene), análise de dados com linguagem similar a SQL (Hive), desenvolvimento simplificado de aplicações (Pig) e muito mais.
Lidar com este ecossistema pode ser bem trabalhoso, e para facilitar este trabalho surgiram as Distribuições Hadoop, que oferecem integração simplificada entre os vários componentes, ferramentas exclusivas e outras melhorias.
Hortonworks, Cloudera e MapR são algumas das principais distribuições que você pode baixar e usar em seu computador.
Há também as distribuições na nuvem, que concorrem cada vez mais acirradamente para fornecer a maior variedade de serviços e mais facilidades para os usuários. Amazon, Microsoft e Google se destacam nesta briga.
Vários cursos online recomendam executar os exercícios, que muitas vezes consistem em manipular centenas de gigabytes e até terabytes, usando os serviços da Amazon, pela facilidade de ‘levantar’ um cluster EMR (o Big Data do Jeff Bezos) e executar uma aplicação Hadoop que processa terabytes em poucos minutos, pagando apenas algumas doletas.

Além do Hadoop

Linguagem R - requisito para Ciência de Dados
Mas nem só de Hadoop vive o Big Data, e algumas linguagens de programação são requisito obrigatório pra quem quer se aventurar por este mundo novo de Big Data e Ciência de Dados.
Destaque para duas delas: Python e R.

O Python traz uma série de bibliotecas que facilitam o tratamento e manipulação dos dados em diversos aspectos, simplificando tarefas que em outras linguagens seriam extremamente trabalhosas.O Pandas é uma destas bibliotecas, e aqui você encontra mais informações.

Já o R é a linguagem que aprendi a admirar, pela enorme quantidade de bibliotecas e pela simplicidade para gerar resultados em curto espaço de tempo.
Tenho dedicado um tempo a explorar suas funcionalidades através do Rstudio, e já estou impressionado com a facilidade para realizar operações de manipulação de texto e criação de visualizações bem legais como histogramas e nuvens de palavras.

E há também as biblliotecas para integração com Hadoop, que prometem simplificar o uso do R, antes restrito a máquinas com muita memória, através de clusters na nuvem.Na UFRGS há um guia muito legal sobre programação com R.

Quem usa Big Data?

Uma das coisas mais legais quando se começa a explorar o mundo do Big Data é observar os projetos incríveis que as empresas estão conduzindo mundo afora.A Ford está avaliando o Hadoop na tentativa de obter valor a partir dos dados gerados pelas suas operações, pesquisa de veículos e até dos carros dos clientes, focando em obter os dados gerados pelos inúmeros sensores dos veículos atuais e usar os dados coletados para, sabendo o comportamento do cliente no uso do veículo, melhorar a experiência do motorista no futuro.

A Mitsui usa o SAP HANA, R e Hadoop para pré-processar sequências de DNA que antes levavam dias, reduzindo para questão de minutos as análises que envolvem pesquisas relacionadas ao Câncer.

A Nokia usa as informações geradas pelos seus dispositivos em todo o mundo, desde criar mapas e prever densidade de tráfego até criar modelos de elevação em camadas.

O Walmart usa Hadoop pra analisar dados do Twitter, Facebook, Foursquare e outras fontes, de forma a prever o fluxo de clientes para suas lojas.

Como se Preparar para Trabalhar com Big Data e Ciência de Dados ?

Conhecimento é Poder - Onde aprender mais sobre Big Data e Ciência de Dados
Há cursos gratuitos espalhados por toda a web (em inglês).
Relaciono alguns deles abaixo:
Coursera – Web Intelligence and Big Data
Big Data University (IBM) – Big Data Fundamentals
Udemy – Big Data Hadoop Essentials

Udacity – Introdução ao Hadoop e Map ReduceAqui no Brasil começaram a surgir mais opções recentemente:

Especialização da Universidade Presbiteriana Mackenzie em Ciência de Dados (Big Data Analytics), com custo de 24 x R$ 971,00 + 9 parcelas a definir.

MBA Analytics em Big Data, da FIA, com custo de R$ 28 mil.

MBA em Big Data (Data Science), da FIAP, a partir de 24 x 751,00.

Big Data – Inteligência na Gestão de Dados, da USP, com custo de 24 x 891,00.

Caso não esteja em SP ou não disponha destes valores ‘convidativos’, há cursos mais em conta.

Certificações em Big Data

Em muitos casos, profissionais de TI obtém melhores resultados em termos de carreira investindo em certificações que em cursos mais extensos como Pós Graduação.A seguir relaciono algumas das certificações em Big Data mais relevantes do mercado.A Cloudera é um dos principais fornecedores de soluções em Big Data, e oferece as certificações:

  • Cloudera Certified Professional: Data Scientist (CCP:DS)
  • Hadoop Developer (CCDH)
  • Hadoop Admin (CCAH)
  • HBase Specialist (CCSHB)

A certificação CCP:DS exige passar em três exames, e a Cloudera recomenda a realização de um curso presencial no valor de U$ 2.495,00 (putz!).

As certificações Hadoop custam a partir de U$ 295,00 e exigem passar em um exame com 50 a 60 questões, com duração de uma hora e meia, e aproveitamento mínimo de 70%. Não, os exames não estão disponíveis em português 🙁

A Hortonworks tem uma solução que é base para os serviços oferecidos na nuvem da Microsoft, e oferece as certificações:

  • HDP Certified Developer (HDCDP);
  • Hortonworks Certified Apache Hadoop Administrator;
  • Hortonworks Certified Apache Hadoop Java Developer.
Estas certificações custam entre U$ 200,00 e U$ 250,00, e consistem em tarefas que devem ser executadas através dos serviços da Amazon, com duração máxima de 2 horas.

Há também certificações da IBM (IBM InfoSphere for BigInsights Technical Mastery Test v2 e IBM InfoSphere Streams Technical Mastery Test v1), EMC (EMC Data Science Associate), HP (HP Vertica), SAS (SAS Certified Statistical Business Analyst), e muitas outras.

Conclusão

Não me canso de repetir que Big Data é um a tendência tecnológica que representa uma excepcional oportunidade para aqueles que tiverem a dedicação necessária, lutarem contra a inércia e superarem as dificuldades do nosso país em termos de acesso à educação.O problema é tão sério que vemos empresas ‘bancando’ a educação dos funcionários na tecnologia, por entender a importância (e carência) de profissionais qualificados na tecnologia.

O esforço vai compensar, tenho certeza disso! Tanto que ’embarquei nesta onda’ bem cedo, antes mesmo de muitos dos cursos que citei aqui sequer existirem.

Não deixe pra aprender sobre o assunto quando for requisito mínimo pras vagas de emprego, daqui há 5 anos (no máximo!).

Aproveite agora!

Sei que muitos vão ler tudo isso que escrevi e simplesmente ignorar, mas se este texto puder ajudar um único profissional a tomar uma atitude e crescer na carreira como resultado deste incentivo, ficarei extremamente feliz.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Qual é a importância da linguagem R no Big Data Analytics?

1
R é uma plataforma de código aberto que possui um grande sistema ecológico para desenvolvedores e cientistas de dados e é amplamente usada em análises para implementação de algoritmos preditivos e de previsão.

2
R é uma linguagem de programação e um software livre para análise e visualização. Ele roda em praticamente qualquer sistema operacional e é amplamente usado entre estatísticos e mineradores de dados para análise e apresentação de dados. O R basicamente nos ajuda a visualizar o insight acionável a partir dos dados que estamos acessando. Em termos mais simples, os dados não são mais apenas números, mas também são sobre apresentação analítica na forma de gráficos de barras, gráficos de pizza, etc. Ajuda o usuário final a ter uma melhor visão dos relatórios analíticos.

Como devo seguir a carreira em big data?

1
Big data se tornou a nova palavra da moda nesta década. Se você está procurando um grande salto para transformar sua carreira, deve explorar esse campo extremamente abundante de big data. A Data Science é a nova fronteira do século XXI no momento. Os trabalhos de analista de dados são extremamente atraentes, lucrativos e gratificantes. Muitas organizações importantes perceberam o futuro dinâmico da análise e começaram a criar equipes para se preparar para a revolução do big data. À medida que o volume de dados aumenta, a demanda de profissionais de TI para lidar com isso também. As habilidades de análise de dados estão em alta demanda em todos os setores; no entanto, sem os trabalhadores especializados, haverá uma concorrência acirrada. A análise de big data não está sendo ensinada nas escolas até o momento, portanto, a lacuna de habilidades será altamente ampliada à medida que o desenvolvimento de big data e a falta de habilidades forem executadas em conjunto entre si ao longo do tempo. dicas para preparar: Aprenda as ferramentas essenciais. Escolha qualquer ferramenta que você possa acessar. Isso o ajudará a dominar uma ferramenta e poucas técnicas da ferramenta, para que você possa se mostrar perfeitamente para o trabalho de analista de dados. Eduque-se adequadamente. Entenda o cenário da análise e reconheça seu trabalho ideal como analista de dados. Para entrar no mundo do big data, você deve ler bastante sobre análise. Considere ingressar em blogs sobre análise e acompanhar os acontecimentos atuais em big data. Isso ajudará você a acompanhar como a análise é incorporada em diferentes setores e fortalecer seu conhecimento. Depois de aprender o suficiente sobre big data, entre na comunidade de análise e discuta sobre diferentes tópicos regularmente para se tornar mais consciente. indústria para descobrir o que cada uma das funções implica. Tome orientação de pessoas; solicite-os por um curto período de tempo e faça perguntas relevantes.Figure o que você quer e o que você é bom e escolha a função que se adapta ao seu campo de estudo.Mais informações sobre o exame de certificação HadoopAqui estou fornecendo algumas informações úteis para aprender o exame de certificação Hadoop.HDPCA certificação no HortonworksHDP Certified Administrator (HDPCA) O que é o Apache HadoopQuais são os pré-requisitos para aprender Hadoop e big data? Espero que isso ajude !! Se você estiver procurando ajuda para se preparar para os exames de certificação Hadoop , Por favor, envie-me uma mensagem.

Por que as pessoas pensam que o big data é tão importante?

1
É tão importante por causa do aumento no número de usuários que gera dados em um volume, variedade e velocidade muito altos, embora os sistemas de banco de dados de relacionamento possam gerenciar isso sem variedade de dados, mas ainda exija enormes especificações e recursos de hardware, enquanto o big data exige menos recursos e eles são mais rápidos. Ele usa o escalonamento em vez do escalonamento, o que é mais caro. Esses são alguns fatores pelos quais a maioria das empresas prefere big data.

2
Big Data é uma palavra da moda (bem, frase da moda). É uma ferramenta de marketing. Isso não o torna sem importância – mineração de dados, retenção de dados, gerenciamento de dados etc. Isso tudo é importante para grandes indústrias. Informações médicas, material militar, coleta / gerenciamento de inteligência, pesquisa acadêmica, a lista é longa. Grandes dados são agregação e gerenciamento de dados. Não é um conceito novo. É o que sua biblioteca local faz, mas em grande escala.

O big data e o Hadoop são úteis para calouros?

1
Não, de jeito nenhum. A maioria das empresas baseadas em serviços realmente treina aqueles que têm experiência, portanto, obviamente, não para os mais novos. Além disso, se um calouro tiver essa habilidade, ele nunca será usado. As empresas baseadas em produtos devem estabelecer margens muito altas, mesmo que você tenha os melhores projetos a seu favor. Portanto, é uma sorte por acaso, se você conseguir um emprego.

Treinamento de engenheiro de big data?

1
Baixe as caixas de areia Cloudera e hortonworks e brinque com elas. Em seguida, participe de seus treinamentos e obtenha as certificações do setor. Isso deve ser um começo decente.

2
Não desperdice dinheiro com esses programas com mais de US $ 2.000,00. Existem tutoriais e guias suficientes e você pode executar o Hadoop através de um Vagrant Box e Spark em sua máquina local. Confira esta iniciativa de aprendizado financiada pela IBM: Big Data University

Como o Big Data afeta os profissionais de marketing?

1
Ho Robert, os dados são muito importantes para determinar o Dm certo e direcionado para o seu mercado. O mesmo deve ser perfilado, verificado e limpo regularmente para manter seu banco de dados atualizado. Veja como funciona a Cleanding e verificação de banco de dados da Callbox Singapore.

2
Da perspectiva do B2B, o big data está permitindo que os profissionais de marketing tomem decisões mais informadas sobre como devem identificar, segmentar, mensagem e mercado para seu público. Assim como empresas de consumo como Amazon e Pandora estão usando modelagem preditiva para sugerir recomendações de produtos e músicas sugeridas, profissionais de marketing inteligentes estão usando análises preditivas e big data para prever seu próximo cliente. Divulgação completa: minha empresa cria aplicativos de negócios para ajudar os profissionais de marketing a fazer exatamente isso. Para saber mais, visite nosso site: http: //lattice-engines.com/produ …

Qual é o melhor exemplo para explicar big data?

1
1 ano ou mais de registros de compra na amazonodados dados de geolocalização de todas as pessoas com smartphones por um mês ou mais das pesquisas feitas por todos no google por um mês ou mais do vídeo de todas as câmeras públicas em Nova York ou Londres, durante um mês ou quase todas as placas dos veículos que circulam na NJ Turnpike,…, durante um mês ou mais dos cookies em todos os computadores usando o navegador Chrome…

2
Isso pode lhe dar um bom começo: Quais são alguns bons problemas com brinquedos (que podem ser feitos no final de semana com um único codificador) na ciência de dados? Estou estudando estatística e aprendizado de máquina e procurando algo socialmente relevante usando conjuntos de dados / API publicamente disponíveis. Além disso, se você estiver procurando explicações sobre ciência de dados, quais são as boas maneiras de começar com ciência de dados para um novato completo?

3
Embora a maioria das indústrias esteja usando big data, alguns de destaque que podem ser considerados são: Serviços do Setor Público. Contribuições de assistência médica.Serviços de aprendizado. Serviços de seguros.Serviços industriais e naturais. Serviços de transporte.Setor bancário e detecção de fraudes. Os grandes dados estão sendo amplamente utilizados nos serviços do setor público, como investigação de energia, reconhecimento de fraudes, exploração interconectada de aptidão física, investigação de promoção econômica e pesquisa de poder. Fortificação ecológica, mesmo para fornecer infecções baseadas em alimentos pelo FDA, está sendo usada em educação, seguros, varejo e em muitos outros setores. 8 Exemplos de Big Data com Smart Analytics e Aplicação na Vida Real7 Exemplos de Big Data – Aplicação de Big Data na Vida Real

Qual é o escopo do big data?

1
O escopo do big data é vasto porque, com o crescente crescimento da população e do desenvolvimento tecnológico. A quantidade de dados está aumentando rapidamente. Quase todos os setores estão usando big data para tomar suas decisões futuras. Agora você pode ter uma idéia de que o big data possui o maior escopo do que qualquer outra profissão. Porque não é limitado a um setor específico. É um campo vasto.

2
Com o crescente tamanho dos dados todos os dias, todas as empresas começaram a usar as tecnologias de Big Data para analisar e obter informações. Como o tamanho dos dados também aumentará no futuro, assim, sem dúvida, o Big Data fornecerá a você uma carreira de prova futura e também terá um amplo escopo. Assista ao vídeo introdutório do Hadoop abaixo para aprender os conceitos básicos dessa tecnologia:

Big Data: Como entrar no big data da indústria farmacêutica?

1
Empresas como Pharamarc, IMS health, Novartis etc. são boas opções para entrar no setor farmacêutico de big data. Aprenda habilidades como R, big data (bancos de dados hadoop, hive, nosql etc.)

2
Se, pela Pharma, algumas pessoas estão analisando o setor de saúde, então aqui está um blog que explica como o Big Data está sendo usado no Heathcare e quais são os campos nos quais deve-se concentrar 5 Aplicativos de saúde do Hadoop e Big data do Hadoop Training Online – Obtenha certificação da IBM

Devo aprender Hadoop ou Python se quiser entrar no big data?

1
Uma coisa a lembrar é que Python e Hadoop são duas coisas diferentes (ou seja, elas não competem ou uma não substitui a outra). Para entrar no big data, você terá que aprender e se familiarizar com o ecossistema Hadoop. bem, pode haver vantagens em campo para você, se você aprender Python, pois há muito hype sobre isso no campo, é fácil aprender em comparação com outras linguagens como java, R ou Scala.

2
O Hadoop é uma ferramenta para fazer ciência de dados O Python é uma das linguagens de programação usadas pelos cientistas de dados.O Big Data é uma grande quantidade de dados.O Data Scientist é um pesquisador de engenharia da computação que pode nos fazer dominar as linguagens de programação dos dados Esses pesquisadores de engenharia da computação só podem ser recrutados de maneira confiável após uma profunda discussão sobre o desempenho do GitHub-Kaggle dos candidatos a emprego. Todas as outras formas utilizadas pela indústria são falhas.

Qual é a diferença exata entre Big Data, Data Science e Data Analytics?

1
O Data Science é o uso da Análise de Dados em conjunto com a Ciência da Computação, Matemática e Estatística para obter respostas interessantes dos dados.O Big Data é apenas um dado muito grande para ser processado pelos algoritmos usuais, portanto, ao enfrentar o Big Data, você precisa usar computação distribuída, algoritmos de streaming e ferramentas e soluções especializadas.

Em que tamanho os dados se tornam “big data”, por exemplo, são n> 30, ou algo diferente, e esse setor de classificação é específico?

1
Aqui está uma intuição interessante que alguém me deu: Para uma empresa, “se mover dados para computação é mais barato do que mover dados para computação, você está lidando com big data”

2
Sempre que 1. Ele não se encaixa mais na memória principal 2. É alimentado no seu algoritmo como um fluxo bastante grande3. Como mencionado, mas está implícito em 1 ou 2, dependendo de como você aborda o problema, sempre que seus dados nem se encaixam no disco dos nós de computação4. Sempre que a comunicação em cluster se torna um gargalo, Big Data é um termo abrangente para qualquer coleção de conjuntos de dados tão grandes e complexos que fica difícil processá-los usando aplicativos tradicionais de processamento de dados.

Como mudo minha carreira com Big Data? Eu sou um testador de software. Quero aprender Big Data e trabalhar em projetos de Big Data.

1
Trabalhei como engenheiro de controle de qualidade (fiz manual e automação) nos primeiros anos da minha carreira, depois mudei para o big data. Eu tinha feito a troca depois de 5,5 anos. Atualmente, sou engenheiro de dados sênior (big data, spark, kafka etc.), trabalhando com uma organização de saúde de renome. Como você não mencionou sua experiência e conhecimentos de programação, presumo que você tenha 2 a 3 anos de experiência e um conhecimento básico em A seguir, são apresentadas as etapas a seguir: Tenha uma idéia sobre big data, as ferramentas mais usadas no mercado, aprenda qualquer linguagem de programação – Scala ou Python ou JavaDownload CDH (distribuição de cloudera do hadoop) Obtenha um entendimento básico destes: HDFS, MapReduce, Sqoop, Oozie Obtenha um conhecimento intermediário sobre o Hive – levará pelo menos uma semana. Agora, a parte principal é o Apache Spark. Você precisa aprender. Crie um projeto para animais de estimação e aplique seu aprendizado. Ao criar um projeto, lembre-se de criá-lo de maneira padrão. A contagem de palavras ou qualquer projeto semelhante não deve ser considerada. Depois de concluir a etapa 6, verifique se você pode passar para um projeto de big data em sua empresa (muitas empresas permitem isso) Altere seu currículo INTEIRAMENTE, mencione que você trabalhou nos testes para máximo de 1 ano, Java / SQL por alguns meses (até no máximo 1 ou 2 anos) e big data por (total_exp / 2) anos – isso é necessário para receber chamadas de entrevista:) Prepare-se para as perguntas da entrevista. Existem módulos como Spark streaming, kafka, etc, que estão sendo muito procurados no mercado. Além disso, sugiro que você faça qualquer treinamento em sala de aula se tiver preguiça de começar por si mesmo. .com) – esses encontros acontecerão na maioria das cidades. Participe e tente conversar com outras pessoas no domínio. Quando estou escrevendo esta resposta, muitas oportunidades estão disponíveis para engenheiros de dados, especialmente para big data.Todos os melhores .. !!! [EDIT]: Enquanto nós sei que agora existem mais ferramentas para os holofotes. Alterei alguns dos pontos acima mencionados. Atualmente, estou oferecendo treinamento para pessoas que desejam mudar de carreira para big data. Por favor, me envie uma caixa de entrada para obter detalhes.

2
Existem muitos cursos on-line de Big Data disponíveis para aprendizado, mas, por minha experiência pessoal, descobri que o Dataflair é um dos melhores centros de treinamento on-line, pois nem todo o treinamento do instituto o ajudará a iniciar carreira neste domínio, mas o DataFlair me ajudou da mesma forma. .Deixe-me compartilhar como a Dataflair me ajudou a iniciar minha carreira em Big Data. Eu estava trabalhando em um domínio de teste por cerca de 3 anos. No início, quando comecei minha carreira no domínio de testes, fiquei feliz por estar gostando do meu trabalho, mas com o passar do dia descobri que não havia mais nada para aprender mais. Diariamente fiz o mesmo tipo de trabalho. no Big Data porque minha maior parte do amigo iniciou sua carreira no Big Data e eles ficaram muito felizes em suas vidas. Segui o conselho da minha amiga e ela me sugeriu ingressar no Dataflair. Quando iniciei minhas aulas no Dataflair, achei que era muito bom. O treinamento foi totalmente prático. O curso foi repleto de projetos, tarefas e materiais de estudo baseados na indústria real. Após a conclusão do meu treinamento, obtive a seleção no Wipro. Definitivamente, vou sugerir você para o Dataflair.

3
Um dos meus amigos queria passar para o big data. Ele começou fazendo um curso no Coursera. Ele também comprou um livro (não me lembro do nome). Mas isso não foi o suficiente. Ele então decidiu gastar algum dinheiro. então ele fez a especialização em Big Data da academia Jigsaw. Ele tem uma experiência melhor com isso. Mas os empregadores estavam pedindo uma experiência real e, em seguida, contatou uma startup que estava fazendo um trabalho de big data. Ele internou com eles por 3 meses. Ele agora está trabalhando na equipe de big data da Accenture.

Por que a obsessão atual por big data, quando normalmente os dados são maiores, mais difícil se torna a análise e o processamento básicos?

1
Responder a esta pergunta requer um pouco de história. Portanto, tenha paciência comigo por um momento, pois voltaremos um pouco no tempo … Não se preocupe – tudo isso se juntará no final! A “obsessão atual” pelo Big Data não é nova. Nos últimos 25 anos, houve numerosos períodos de grande interesse em armazenar e analisar grandes conjuntos de dados. Em 1983, a Teradata instalada trouxe o Wells Fargo como seu primeiro site beta. Em 1986, esse software era o “Produto do Ano” da Fortune Magazine – foi empolgante porque foi pioneiro na capacidade de analisar conjuntos de dados do tamanho de terabytes. No início dos anos 90, os grandes bancos tinham todos os seus dados em um data warehouse de algum tipo, e havia muito trabalho tentando descobrir como realmente usar esses dados. Em seguida, era a grande mania do OLAP. Cognos, Holos, Microsoft OLAP Services (como era então chamado) etc. eram o que todas as crianças legais estavam falando. Ainda era caro armazenar conjuntos de dados muito grandes, portanto, durante grande parte dos anos 90, o Big Data ainda estava restrito a empresas maiores – especialmente em serviços financeiros, onde muitos dados estavam sendo coletados. (Essas empresas tiveram que armazenar registros transacionais completos por razões operacionais e legais, para que eles já estivessem coletando e armazenando os dados – esse é outro motivo pelo qual foram os primeiros a aproveitar essas abordagens.) Também importante na década de 90 foi o desenvolvimento de redes neurais . Pela primeira vez, as empresas puderam usar modelos flexíveis, sem ficarem limitados pelas restrições de modelos paramétricos, como GLMs. Como as CPUs padrão não foram capazes de processar dados com rapidez suficiente para treinar redes neurais em grandes conjuntos de dados, empresas como a HNC produziram placas de plug-in que usavam silicone personalizado para acelerar bastante o processamento. As árvores de decisão, como o CHAID, também eram grandes nesse momento. Então, quando o novo milênio chegou, muitas das maiores empresas estavam trabalhando muito com dados de resumo (OLAP) e modelagem (redes neurais / árvores de decisão). As habilidades para fazer essas coisas ainda não estavam amplamente disponíveis, portanto, obter ajuda custa muito dinheiro, e o software ainda é amplamente proprietário e caro. Durante os anos 2000, veio a próxima mania de Big Data – pela primeira vez, todos estavam na web , e todo mundo estava colocando seus processos on-line, o que significava que agora todos tinham muitos dados para analisar. Não eram mais apenas as empresas de serviços financeiros. Grande parte do interesse durante esse tempo foi na análise de logs da web, e as pessoas analisaram invejosamente a capacidade de empresas como Google e Amazon, que estavam usando algoritmos de modelagem preditiva, para avançar. Foi durante esse período que o Big Data se tornou acessível – mais pessoas estavam aprendendo as habilidades para armazenar e analisar grandes conjuntos de dados, porque podiam ver os benefícios e os recursos para fazê-lo estavam caindo de preço. O software de código aberto (tanto para armazenar e extrair, por exemplo, MySQL, quanto para analisar, por exemplo, R) em PCs domésticos agora poderia fazer o que antes exigia uma infraestrutura de milhões de dólares. A mais recente mania de Big Data realmente começou com o artigo do Google sobre seu mapa / Reduza o algoritmo e o trabalho de acompanhamento de muitas pessoas na tentativa de replicar seu sucesso. Hoje, grande parte dessa atividade está centrada na Apache Foundation (Hadoop, Cassandra etc.). Um desenvolvimento menos moderno, mas igualmente importante, está acontecendo em linguagens de programação que agora oferecem suporte à avaliação de listas preguiçosas e, portanto, não são mais restringidas pela memória ao executar modelos (por exemplo, LINQ paralelo em .Net, compreensão de listas em Python, o surgimento de linguagens funcionais como Haskell e F #). Estive envolvido na análise de grandes conjuntos de dados ao longo desse tempo, e sempre foi um negócio emocionante e desafiador. Muito foi escrito sobre a mania do Data Warehouse, a mania da Rede Neural, a mania da Árvore de Decisão, a mania do OLAP, a mania da Análise de Log e muitas outras manias do Big Data nos últimos 25 anos. Hoje, a capacidade de armazenar, extrair, resumir e modelar grandes conjuntos de dados é mais amplamente acessível do que nunca. As partes mais difíceis de um problema sempre atrairão o maior interesse, então, neste momento, é onde o foco está – por exemplo, minerar gráficos de links em escala da Web ou analisar fluxos de alta velocidade na negociação algorítmica. Só porque esses são os problemas que mais escrevem sobre eles não significa que eles são os mais importantes – apenas significa que é onde estão os maiores desafios de desenvolvimento no momento.

Quais são alguns dos melhores cursos on-line para big data?

1
Existem muitos cursos on-line para Big Data. Prefiro os cursos da Simplilearn, pois são muito informativos e simples de entender. Os instrutores explicam até o conceito mais difícil de uma maneira simples. Eles também têm sessões de laboratório e isso nos dá uma exposição prática. Você pode assistir a este vídeo, que é um pequeno tutorial sobre Big Data. O Simplilearn fornece boas certificações para esses cursos, o que ajudará você a aprimorar seus conhecimentos e a sua carreira.

2
Existem muitos cursos online disponíveis. Como outros já apontaram Udemy, Simplilearn, Coursera. Até o 361 Degree Minds oferece alguns cursos on-line de big data. Todos os cursos são bons em sua própria perspectiva. Escolha um curso que atenda às suas necessidades. Gostaria de ver especificamente os seguintes parâmetros, comparando os cursos: DurationColunas do cursoDepth of courseValue for moneyTrainerEscolha um curso adequado ao seu conjunto de parâmetros.

Qual é a diferença entre Data Science e Big Data?

1
Os dados são petróleo bruto – na verdade, acho que isso funcionará melhor com combustíveis não fósseis – então os dados são o material vegetal bruto que coletamos (entendeu? – IoT, Social, Celular) Big -Data – os tanques de armazenamentoMDM – o processo de refinamento Ciência de dados e análise – o mecanismo que usa o óleo refinado e o converte em momento – sim, quanto mais sofisticado o mecanismo, mais eficiente é na extração da energia potencial

Qual é a relação entre big data, IoT e computação em nuvem?

1
Deixe-me reordenar e adicionar desta forma, IoT, Big Data, Cloud Computing e AIIoT: IoT é uma rede de dispositivos inteligentes que coleta e troca os dados entre eles. O número de dispositivos conectados será de 30,7 bilhões de dispositivos em 2020 e 75,4 bilhões em 2025. Ele criará trilhões de dados a cada hora. Como você lida com dados tão grandes? Aí vem Big DataBigData: Big data é um termo para conjuntos de dados que são tão grandes ou complexos. O Hadoop não é um tipo de banco de dados, mas um ecossistema de software. Portanto, usando o Big Data, podemos gerenciar esses enormes dados obtidos de dispositivos IoT e de outras fontes. Mas, como você vai lidar com o dimensionamento e o aumento rápido do volume, centralização e infraestrutura? A computação em nuvem: Cloud Computing oferece a plataforma centralizada para acessar os dados de qualquer lugar do mundo com a infraestrutura compartilhada. Assim, você pode economizar muito dinheiro. ESTÁ BEM. Agora, tudo funciona perfeitamente. Mas, o que você fará com esses trilhões de dados? Aí vem o AIAI: Inteligência Artificial pode usar esses dados e aprender com eles. Ele irá prever ou tomar decisões a partir desses trilhões de dados. Assim, podemos obter informações habituais e prever o nosso futuro do nosso passado. Existem muitas ofertas de IA. Portanto, o poder real surge quando usamos todas as tecnologias juntas para o nosso futuro melhor. 🙂

2
Para entender o relacionamento entre big data, IoT e computação em nuvem, talvez seja necessário reorganizar o pedido. A interconexão que seria então estabelecida criaria uma imagem maior para você entender. Primeiro, a IoT é um ecossistema de dispositivos interconectados. Basicamente, é uma rede de dispositivos, consistindo em endereços IP específicos; e são capazes de geração, transmissão e recepção de dados, sem intervenção humana. A IoT é, portanto, a versão abreviada de “Internet das Coisas”. Seria de se perguntar: “onde todos esses dados são processados?” É nesse ponto que o big data entra. Big data é o termo cunhado para conjuntos de dados tão imensos, que trilhões de unidades de dados geradas por IoTs podem ser processadas. Ao contrário do equívoco comum, o big data não é um tipo de banco de dados, mas um ecossistema de software. Isso levaria a uma pergunta seguinte: “e a infraestrutura e as despesas envolvidas na instalação de máquinas de processamento de dados tão grandes?” A solução para isso é a computação em nuvem. Com a computação em nuvem, você está apenas a um clique de acessar seus dados, de qualquer lugar do mundo, dentro de um segundo ou até menos. Isso não apenas economiza espaço para infraestrutura, mas também reduz os custos por trás da manutenção. E é assim que a IoT, o big data e a computação em nuvem estão conectados.

3
Mantendo-o tão breve que os especialistas podem se encolher. Mas tentarei o meu melhor aqui. A IoT gera dados em quantidades tão grandes que se qualifica como Big Data. É quase um relacionamento linear e direto, pois os dispositivos de IoT estão agregando ao ecossistema à taxa de milhões por dia e gerando dados em um nível de segundos secundários. Agora, com frequência, os dispositivos IoT são dispositivos de ponta e eles se reportam aos agregadores, que são basicamente dispositivos com maior poder de processamento e fazem o trabalho de agregação de dados. . Além disso, na maioria das vezes, o Big Data também está sendo analisado nas máquinas localizadas na nuvem, onde a flexibilidade de adicionar poder de computação sob demanda torna a execução mais fácil e viável. várias análises sobre esse tipo de volumes de dados.

O que são big data e Hadoop?

1
As empresas de hoje estão gerando uma quantidade enorme de dados, que basicamente possui três atributos: Volume: – O tamanho dos dados, estamos falando de GB e TBs aqui Velocidade: – A taxa na qual os dados estão sendo gerados Variedade: – Dados de vários fontes e vários tipos Essa complexidade adicional não pode ser tratada com estruturas tradicionais, portanto, o Hadoop (não a única solução) O Hadoop é uma estrutura de programação de processamento paralelo que funciona em Mapear / Reduzir. Considere um problema em que você precisa contar o número de palavras em um livro de 5 libras. Seria muito difícil para uma pessoa, mas se você rasgar as páginas e distribuí-las para centenas de pessoas. Cada um contará as palavras em sua “página” e, em seguida, você pode simplesmente totalizar a contagem de cada pessoa que você terá que totalizar a contagem de palavras em nenhum momento. Isso é Hadoop para você.

Quais são os melhores tutoriais em vídeo on-line para Hadoop e big data?

1
Existem inúmeros tutoriais on-line para Hadoop e Big data. Pessoalmente, acho que o Simplilearn possui um bom número de tutoriais em vídeo on-line para Hadoop e big data. É muito bem explicado e simples de entender. Todos os conceitos são claros. Eles também mostram demonstrações que são muito úteis. Você pode dar uma olhada no link abaixo para ter uma idéia.

Quão útil é o ‘Big Data’?

1
A tecnologia de análise de big data é uma combinação de várias técnicas e métodos de processamento. As tecnologias de big data, como o Hadoop e as análises baseadas na nuvem, trazem vantagens de custo significativas quando se trata de armazenar grandes quantidades de dados – além disso, eles podem identificar maneiras mais eficientes de fazer negócios. Isso é usado para uma tomada de decisão mais rápida e melhor. Em termos simples, é útil para organizações de negócios usarem análises e descobrir os clientes mais valiosos. Também pode ajudar as empresas a criar novas experiências, serviços e produtos.

2
O Big Data é tão útil quanto o significado derivado dele. Ter muitos dados é apenas parte da solução. Segmentar, facilitar o uso e fornecer um objetivo claro para os conjuntos identificados de usuários do big data, é outro conjunto de requisitos básicos. São as idéias que podem surgir do big data que oferecem a oportunidade de obter uma vantagem competitiva. sobre a concorrência – estes são muito menos discutidos em comparação com o próprio big data.

3
Sim, certamente, o Big Data trouxe mais lucros para as empresas. A análise eficaz do Big Data oferece muitas vantagens comerciais, pois as organizações aprendem em quais áreas se concentrar e quais são menos importantes. A análise de big data fornece alguns indicadores importantes que podem impedir a empresa de uma grande perda ou ajudar a aproveitar uma grande oportunidade com as mãos abertas! Uma análise precisa do big data ajuda na tomada de decisões! Por exemplo, hoje em dia as pessoas confiam muito no Facebook e no Twitter antes de comprar qualquer produto ou serviço.

Qual é uma boa definição de big data?

1
Aqui está minha tentativa de uma definição sucinta de um post de blog há pouco tempo: Big Data significa conjuntos de dados grandes demais para serem gerenciados com eficiência nas tecnologias tradicionais de banco de dados. Normalmente, isso significa que os conjuntos de dados são maiores que 50 terabytes. Então, o que quero dizer com gerenciar efetivamente? A capacidade de importar e consultar os dados com base nos requisitos da lógica de negócios. Esses requisitos geralmente são expressos em termos de tempo decorrido. Simplificando, há muitos dados para armazenar e processar em um banco de dados tradicional.

2
Big data é um termo que descreve um grande volume de dados estruturados, semiestruturados e não estruturados com potencial de serem extraídos para obter informações e utilizados em projetos de aprendizado de máquina e outros aplicativos avançados de análise. Refere-se a um processo usado quando as técnicas tradicionais de mineração e manipulação de dados não conseguem descobrir os insights e o significado dos dados subjacentes. Além disso, são dados cuja escala, diversidade e complexidade exigem nova arquitetura, técnicas, algoritmos e análises para gerenciá-lo e extrair valor e conhecimento oculto.

Quais ferramentas de mineração de fluxo de dados podem lidar com big data?

1
Você pode estar interessado em Vowpal Wabbit: http://hunch.net/vw/.

2
Nossa empresa é especializada nesse problema exato – nosso principal produto DataSift http://datasift.net coleta muitos dos dados mais populares de sites de mídia social e permite definir programaticamente o conteúdo que você deseja recuperar. fora da base de conhecimento -> http://support.datasift.net/help/kb Processamos mais de 200 milhões de dados por dia. A saída dos fluxos pode ser consumida via fluxo HTTP, Web Sockets e por meio de uma API REST. Também estamos trabalhando em um sistema de armazenamento + mapreduce, que entrará no teste Alpha dentro de um mês.

Quem dá a certificação de big data?

1
Se você deseja obter a certificação no Hortonworks, eles oferecem exames on-line com base em proctor nas trilhas Developer e Admin e estão disponíveis diretamente no Hortonworks. Seus parceiros de treinamento também fornecem o treinamento necessário e preparam você para as certificações, pois as taxas do exame são de US $ 250, mas é possível obter certificação global oficial deles.

O big data é o caminho a seguir para as organizações?

1
Esta pergunta começa a me aborrecer agora. Vá a qualquer evento técnico e você ouvirá frases como:> Dados são o novo petróleo> Análise de dados é a chave para o sucesso> Dados grandes são o futuroTudo isso soou emocionante há cinco anos, quando os conceitos ainda estavam surgindo no mercado. Inferno sim, o big data é o futuro, assim como 30 anos atrás os computadores eram o futuro. Ele encontrará aplicativos em todos os domínios. Será tão onipresente que perderá toda a emoção que está reunindo hoje. Nenhuma explicação adicional.

2
A chave para entender big data está no uso da palavra “big” – o conjunto de dados é tão grande que os métodos tradicionais de lidar com eles são inadequados. Grandes dados, a Internet das Coisas e a inteligência artificial rapidamente se tornaram os pilares que definem e mantêm nossa realidade interconectada e direcionada à Internet. Não é surpresa, portanto, que os três assuntos continuem a dominar o setor de notícias de tecnologia em 2017, pois suas tentativas de conectividade permeiam o recesso mais profundo de nossas vidas.

Qual é o significado de big data?

1
O Big Data geralmente é considerado uma quantidade muito grande de dados para armazenamento e processamento ou Quando o próprio dado é Big é denominado Big Data. Dados em grande volume e variedades diferentes podem ser considerados como Big Data. Os dados estão mudando nosso mundo e a maneira como vivemos a uma taxa sem precedentes. Big data é a nova ciência de analisar e prever o comportamento humano e da máquina, processando uma quantidade enorme de dados relacionados. Big data refere-se a um rápido crescimento no volume de dados estruturados, semiestruturados e não estruturados. Estima-se gerar 50.000 GB de dados por segundo no ano de 2019.

2
Dados grandes o suficiente para fazer você modificar procedimentos para lidar com isso. Seja infraestrutura ou algoritmos. Quando seu problema precisa de big data, é mais um obstáculo do que um ativo. Observe que depende dos recursos disponíveis. O que precisava de clusters fortes ontem é executado em um PC hoje, mas há muita mídia em torno dele. Como cientista pré-newtoniano, mesmo se você observasse todas as estrelas da galáxia, sua astronomia ainda seria rudimentar.

Devo escolher o aprendizado de máquina em vez de big data?

1
O Big Data Analytics exige um bom conhecimento de aprendizado de máquina, aprendizado de máquina realmente escalável. Os algoritmos de aprendizado de máquina convencionais ou não distribuídos / não escalonáveis não funcionarão para grandes conjuntos de dados. Mas uma sólida compreensão das técnicas convencionais de aprendizado de máquina é definitivamente um primeiro passo promissor. Eu diria que ter habilidades de aprendizado de máquina e big data é ótimo.

Quais são as melhores empresas de análise de big data?

1
Você deve fazer o check-out Ayasdi. É uma empresa de software que faz análise topológica de dados.

2
Nós da First Retail (http: //www.firstretail.com/produ …) temos uma prática especializada nisso. Aqui está um texto padronizado com desculpas pelo recortar e colar – entre em contato se precisar de mais detalhes: O FIrst Retail está transformando a maneira como a grande empresa trabalha com o big data. Por meio de produtos e serviços, incluindo o First Retail SemanticETL ™, SessionCam ™ e o recém-lançado Innovation-in-a-Box ™, o First Retail aplica profundo conhecimento de domínio em aprendizado de máquina avançado, inteligência comercial global e a Web semântica para solucionar problemas reais complexos. desafia os dados em tempo real e fornece resultados reais de negócios. Sediada no Vale do Silício, é uma empresa privada e conta como clientes as empresas de comunicação, varejo e tecnologia Fortune100 ™.

3
A MSys Technologies é facilmente um dos melhores provedores de serviços de big data na Geórgia, EUA. Seus conhecimentos cobrem quase todos os aspectos, incluindo, entre outros,: Análise descritiva, Análise preditiva e avançada, Big Data, Social Media Analytics, Soluções de Business Intelligence baseadas em dispositivos móveis e Soluções integradas de Analytics e Business Intelligence. Aqui está um resumo visual das tecnologias e ferramentas a equipe do MSys Analytics é versada em: Você pode aprender mais sobre os serviços deles na MSys Technologies ou baixando este breve folheto.

Qual é o escopo do BIG DATA e do Hadoop.?

1
Essa pergunta é muito vaga, mas acho que posso dar uma resposta. Estamos em uma era de explosão de dados, a quantidade de dados que cada indivíduo gera diariamente é enorme. O que você faz com esses dados, antes de tudo, encontra uma maneira de armazenar esses dados. É aí que entra o hadoop. Ele oferece um sistema bastante confiável e expansivo. Se minhas máquinas atuais estão ficando cheias de dados. Posso adicionar facilmente mais espaço em disco, o hadoop me permite expandir meu armazenamento tanto físico quanto computacional e físico com bastante facilidade. Agora, que temos os dados. Precisamos de uma maneira de processar os dados. É inútil para mim se eu não posso fazer nada com isso. É aí que o mapa reduzir entra em conflito. O Hadoop oferece uma maneira de processar os dados para usar a redução de mapa. Em suma, o Big Data e o hadoop se tornarão ainda mais importantes. Nós, como indivíduos, podemos nem conhecer sua existência. Mas estará em todo lugar, apenas porque estamos criando tantos dados todos os dias. E se você trabalha com dados. Eu diria que é hora de você começar a entender big data e hadoop. Os tempos estão mudando e a estrada antiga está mudando, dê uma mão para isso, se você quiser fazer parte dela.

2
Big data refere-se à enorme quantidade de dados gerados a cada segundo a partir de diferentes fontes digitais em todo o mundo que não podem ser armazenados processados e analisados usando bancos de dados tradicionais. O Hadoop é a estrutura usada para armazenar esses grandes dados. Tenho certeza que você sabe que tudo no mundo hoje depende de dados. As organizações confiam nos dados para tomar decisões cruciais, são basicamente dados em todos os lugares. Portanto, se você deseja iniciar sua carreira no Big Data / Hadoop, pessoalmente considero que é uma escolha sábia. A geração de dados nunca termina, portanto, esse domínio estará sempre em demanda. O mercado de aplicativos de Big Data deve crescer de US $ 5,3 bilhões em 2018 para US $ 19,4 bilhões até 2026. Para fazer carreira no big data, você precisa estar ciente dos sistemas operacionais e linguagens de programação. Além disso, o conhecimento de DBMS e SQL será uma vantagem adicional. Se você deseja trabalhar nesse domínio, recomendo que você analise alguns vídeos do YouTube no Big Data, avalie seu interesse e, em seguida, passe para esse campo. Você pode começar assistindo o vídeo abaixo:

3
O Hadoop é o pilar mais importante do Big Data. Suas habilidades no Big Data e no Hadoop decidirão se sua carreira será deixada para trás em breve. Você sabe por que, porque o Hadoop não é apenas uma ferramenta, mas um ecossistema inteiro que serve a solução para todos os problemas do Big Data .Vamos ver como o Hadoop pode ser um benefício para sua carreira … CareerWise: mais de 50% dos dados do mundo são transferidos para o Hadoop.Mais de 90% das organizações relatam investimentos de médio a alto nível em Big Data e acreditam que O investimento é “muito significativo”. Oportunidades de trabalho: até o final de 2018, somente a Índia enfrentará uma escassez de cerca de 2 lakh de dados. As valiosas habilidades de Big Data em seu perfil.Empresas que utilizam o Hadoop: não nas principais empresas de TI, mas em todos os principais setores, como varejo, saúde e defesa, têm boas aberturas para candidatos a Big Data e ciência de dados. aHortonworksIBMIntelMapR TechnologiesMicrosoftTeradata “Os profissionais de tecnologia devem ser voluntários para projetos de Big Data, o que os torna mais valiosos para o empregador atual e mais comercializáveis para outros empregadores.” – DiceHope, agora você tem uma idéia clara do panorama geral da sua oportunidade de carreira em Big Data e TODO O MELHOR !!

Quais são as melhores conferências de big data?

1
O ano de 2016 será um bom ano para todas as pessoas de big data, com muitas conferências de big data acontecendo em todo o mundo. Confira uma lista dos 7 principais eventos que você deve visitar este ano: conferências de big data obrigatórias de 2016 Eu também sugiro que você verifique os eventos de big data hospedados pela Intel, Oracle e MapR em 2016.

2
Você pode estar interessado em participar do TMRE: THE Market Research Event e é um evento irmão The Future of Consumer Intelligence 2014 Isenção de responsabilidade: Eu sou um dos organizadores da conferência

3
Como as respostas anteriores são excelentes, mas um pouco desatualizadas – atualizei recentemente esta lista das próximas conferências de big data em 2019, então espero que seja útil para quem pesquisa essa pergunta em 2019. Espero vê-lo em algumas dessas conferências!

Quanto tempo leva para aprender big data?

1
Sinto que a obtenção dos princípios dos Hdfs, MapReduce, a necessidade e a prática de códigos de exemplo na VM levará de 20 a 25 dias (supondo que você esteja trabalhando com a empresa). Eu tinha usado as operações do hadoop e o guia definitivo do hadoop como recursos.

2
Portanto, o Big Data funciona no ecossistema hadoop, que consiste em várias ferramentas como faísca, porco, colmeia, SQL, etc … não vá estudar o big data ao máximo, basta pegar 2 a 3 ferramentas e aprofundar-se e aprender como é quase impossível aprender todas as ferramentas do Big Data, e seria melhor se você pudesse aprender um pouco de aprendizado de máquina com ele, pois no ecossistema hadoop, usamos o aprendizado de máquina com as ferramentas de Big Data para criar soluções de negócios. responda sua pergunta…

Vale a pena fazer o curso de big data da IBM da Big Data University?

1
Não, não vejo futuro na IBM. Se você precisar buscar o Big Data, use o Hadoop, Spark ou TensorFlow. Você pode fazer a certificação da Cloudera ou Hortonworks para Hadoop e Spark. Para a carreira de Machine Learning, escolha TensorFlow. O Tensorflow é uma estrutura de aprendizado profundo do Google. Até o Azure Datalake ou o Amazon EMR teriam mais demanda que a IBM. Para a ferramenta de autoatendimento, você pode usar o OvalEdge. Ele suporta todas as distribuições, Cloudera, Azure, EMR, Hortonworks etc.

Como devo atualizar meu currículo para incluir os cursos de Big Data e Hadoop que participei? Posso encontrar um emprego trabalhando com Big Data sem experiência no mundo real? O que devo especificar nos detalhes e na experiência do meu projeto?

1
Uma maneira de melhorar seu perfil é limpar as certificações da Cloudera, Hortonworks etc. Isso dará credibilidade ao seu perfil. Você precisa reivindicar alguma experiência para obter tração adicional em seu perfil. Infelizmente, o setor de TI na Índia é orientado pela experiência (falsa), e não por habilidades. Se eu sou o entrevistador, enfatizarei as habilidades.

Quais são os quatro Vs do Big Data?

1
Dê uma olhada aqui – a resposta de Juhi Jain para Quais são os seis Vs do Big Data?

2
5 vs de big data, para o ponto de vista da IBM, 3 v são importantes, 1..volume: (escala de dados em termos de terabytes, petabytes etc.2… Velocidade) (velocidade de geração e processamento de dados (dados em tempo real e dados rápidos) ) 3… Variedade (Complexidade, dados de estrutura diferentes (estrutura, não estruturada e semi-estruturas) 4… Valor (reduzindo a complexidade dos dados e aumentando a disponibilidade dos dados e agrega valor ao big data5… Veracidade (confiabilidade,…) muitos outros Vs também… Valência , Validade, Variabilidade e Volatilidade

3
Além de simplesmente ser um monte de informações, o Big Data agora é definido com mais precisão por um conjunto de características. Essas características são comumente referidas como os quatro Vs – Volume, Velocidade, Variedade e Veracidade Saiba mais.

Quais são alguns dos fatos alucinantes sobre Big Data?

1
Eu tenho algumas coisas interessantes sobre big data. Espero que gostem …… Certamente vemos muita propaganda em torno de big data, mas acredito que os 25 fatos a seguir falam por si e ajudam a criar uma imagem realista do fenômeno que agora chamamos de ‘Big Dados ‘- um fenômeno que está mudando o mundo como o conhecemos. A cada 2 dias, criamos tanta informação quanto criamos desde o início dos tempos até 2003. Mais de 90% de todos os dados do mundo foram criados no passado 2 Espera-se que, até 2020, a quantidade de informações digitais existentes cresça de 3,2 zettabytes hoje para 40 zettabytes. A quantidade total de dados capturados e armazenados pela indústria dobra a cada 1,2 anos. A cada minuto, enviamos 204 milhões de e-mails, gere 1,8 milhão de curtidas no Facebook, envie 278 mil Tweets e carregue 200 mil fotos para o Facebook. Somente o Google processa em média mais de 40 mil consultas de pesquisa por segundo, perfazendo mais de 3,5 bilhões em um único dia. vídeo são uploade d para o YouTube a cada minuto e você levaria cerca de 15 anos para assistir a todos os vídeos enviados pelos usuários em um dia. Os usuários do Facebook compartilham 30 bilhões de partes de conteúdo entre eles todos os dias. Se você queimou todos os dados criados em apenas um dia no Acredita-se que o AT&T detenha o maior volume de dados do mundo em um único banco de dados – o banco de dados de registros telefônicos tem 312 terabytes de tamanho e contém quase 2 trilhões de linhas .570 novos sites surgem a cada minuto de cada dia. 1,9 milhão de empregos em TI serão criados nos EUA até 2015 para realizar projetos de big data. Cada um deles será apoiado por 3 novos empregos criados fora da TI – o que significa um total de 6 milhões de novos empregos, graças ao big data. Os data centers de hoje ocupam uma área de terra de tamanho igual a quase 6.000 campos de futebol. O Twitter para medir o “sentimento” analisa 12 terabytes de tweets por dia. A quantidade de dados transferidos pelas redes móveis aumentou 81% para 1,5 exabytes (1,5 bilhão de gigabytes) por mês entre 2012 e 2014. O vídeo é responsável por 53% desse total. Pensa-se que a NSA analise 1,6% de todo o tráfego global da Internet – cerca de 30 petabytes (30 milhões de gigabytes) por dia. O valor do mercado Hadoop deve subir de US $ 2 bilhões em 2013 para US $ 50 bilhões em 2020, segundo uma pesquisa de mercado. acredita-se que o número de bits de informações armazenadas no universo digital tenha excedido o número de estrelas no universo físico em 2007. Este ano, haverá mais de 1,2 bilhões de telefones inteligentes no mundo (que são h está cheio de sensores e recursos de coleta de dados), e o crescimento está previsto para continuar. O boom da Internet das Coisas significará que a quantidade de dispositivos que se conectam à Internet aumentará de cerca de 13 bilhões hoje para 50 bilhões em 2020,12 milhões de tags RFID – usadas para capturar dados e rastrear o movimento de objetos no mundo físico – haviam sido vendidas em 2011. Até 2021, estima-se que o número tenha aumentado para 209 bilhões à medida que a Internet das Coisas decola. foi usado para prever crimes antes que eles aconteçam – um julgamento de “policiamento preditivo” na Califórnia foi capaz de identificar áreas onde o crime ocorrerá três vezes mais com precisão do que os métodos existentes de previsão. Ao integrar melhor a análise de big data à área de saúde, o setor pode economizar US $ 300 bilhões por ano, de acordo com um relatório recente – é o equivalente a reduzir os custos de saúde de todos os homens, mulheres e crianças em US $ 1.000 por ano. Os revendedores podem aumentar suas margens de lucro em mais de 60% através da exploração total das análises de big data. Espera-se que o setor de big data cresça de US $ 10,2 bilhões em 2013 para cerca de US $ 54,3 bilhões em 2017. Obrigado por dedicar seu tempo precioso … Não se esqueça de votar … Felicidades:)

Quais são os 10 principais problemas no Big Data?

1
O Big Data está passando por uma fase interessante – os clientes finais e os provedores de serviços estão tentando descobrir maneiras de começar os projetos de big data (pensando no ROI) e mais e mais empresas de produtos estão crescendo rapidamente, tornando a decisão de tecnologia mais complicada. entre todos esses poucos iniciantes (profissionais de big data) estão gostando do banquete até que ele dure. Mas a escassez de profissionais tornaria cada vez mais difícil para os clientes finais e o integrador de serviços iniciar projetos de big data ou fazê-los com alto custo e baixo ROI / benefícios experimentados.

2
Eu acrescentaria uma coisa à grande lista acima: encontrar pessoas e talentos capazes de resolver esses problemas.

3
Os maiores problemas sobre big data não estão relacionados à tecnologia – estão relacionados a como tornar os dados acionáveis. Pensar que o big data sozinho tornará uma empresa mais bem-sucedida requer uma série de suposições perigosas, como: 1. Temos acesso a todos os dados que precisamos, o problema é como processá-los. Sabemos exatamente o que estamos procurando nos dados. Podemos agir com base nas idéias inferidas a partir dos dados. Os dados contêm a resposta. Mais detalhes sobre este post do blog Os cinco grandes problemas do big data

Quais são os melhores blogs a seguir para Big Data, Machine Learning e Deep Learning?

1
O LinkedIn possui vários grupos moderados dedicados a Big Data, Machine Learning e Deep Learning. Você pode encontrar algo útil lá.

2
Vou adicionar mais alguns: Big Data: Blog sobre Blockchain, Big Data e AnalyticsSmartData Collecitve – Notícias e análises sobre Big Data, Cloud e AnalyticsPlanet big datainsideBIGDATA – insideBIGDATA: Insights claros e concisos sobre estratégias de big dataLillian Pierson, PEMachine Learning: Machine learningMachine Um blog sobre aprendizado de máquina, mineração de dados e visualização

Big data, estatística: Quais são os principais problemas estatísticos na análise de “big data”?

1
Um grande problema é que as pessoas não conseguem reconhecer o GIGO. Lixo para dentro. Lixo para fora. Mais lixo. Mais lixo. Um dos primeiros usos de um tipo de big data foi a infame pesquisa Literary Digest. Não foi quem disse “Dewey vence Truman”. Este disse que Landon derrotaria FDR em um deslizamento de terra em 1932. Eles entrevistaram 10.000.000 de pessoas. Eles estavam tão errados quanto o errado pode estar; a eleição de 1932 foi, de fato, um dos maiores deslizamentos de terra de qualquer eleição presidencial dos EUA – mas foi FDR quem venceu. Outro grande problema é contratar “cientistas de dados” que não têm treinamento estatístico. Não estou falando muito da matemática sofisticada por trás dos métodos utilizados, mas do treinamento e da experiência no que pode dar errado com os modelos. No entanto, outro problema é uma atitude de “o computador disse, acredito, que resolve isso”. ” Se a resposta não faz sentido, é quase certamente errado. Isso é ainda mais verdadeiro se o método usado for uma caixa preta. O uso de métodos sofisticados é um problema duplo – não é feito o suficiente e, quando é feito, geralmente é feito muito cedo. Se você não analisou seus dados uma variável de cada vez, não confiarei em nada que você fez, por mais sofisticado que seja. Por outro lado, com que frequência métodos como regressão quantílica ou splines de regressão adaptativa multivariada são usados? Finalmente, pode haver uma tendência a ignorar os conselhos de Abraham Lincoln e David Cox. Se eu tivesse seis horas para cortar uma árvore, gastaria quatro delas afiando meu machado – Abraham LincolnNão há perguntas estatísticas de rotina, apenas rotinas estatísticas questionáveis – David Cox

2
Uma preocupação dos cientistas de dados que entram em campo, sem treinamento estatístico, é o design experimental. Muitos dados dependem do contexto em que foram coletados ou registrados. Sem os métodos de coleta compreendidos, as inferências serão tiradas de lugar e a força das conclusões questionável.

O que são projetos em big data?

1
O Big Data mudou drasticamente a capacidade de processamento de dados das empresas. Alguns dos projetos mais populares de Big Data são: Decodificação de DNA: Com a tecnologia de Big Data, tornou-se muito eficiente decodificar o DNA. É um dos maiores presentes do Big Data para a humanidade. Internet das Coisas: Todos os dias, novos tipos de coisas e equipamentos estão entrando na Internet. Isso está gerando uma quantidade enorme de dados. O Big Data chega para resgatar aqui, manipulando esses dados e tornando-os úteis para análises adicionais. Assistência médica: No mundo médico, existe uma grande quantidade de dados de assistência médica espalhados por hospitais, médicos, companhias de seguros etc. Com as tecnologias de Big Data, é possível para estudar esses dados e usá-los para diagnosticar doenças de maneira rápida e precisa. Educação: Foram-se os dias de 15 a 50 alunos por turma. Agora, os professores estão ensinando 100.000 alunos por vez usando ferramentas on-line. Com um número tão grande de alunos, a quantidade de dados gerados é enorme. As tecnologias de Big Data estão se acostumando a analisar esses dados e tornar a educação mais produtiva. Espero que ajude. Siga-me no Gautam Gupta para aprender mais sobre o Big Data e seus aplicativos.

2
Analisando o impacto dos projetos de big data Apesar dos problemas, o resultado da movimentação de big data é significativo, mas não tão revolucionário quanto os entusiastas originalmente pensavam. Projetos de big data foram perseguidos com os mesmos tipos de problemas relacionados ao entendimento de dados, qualidade e excesso de execução de projetos que os projetos de data warehouse. Há um reconhecimento crescente de que a extração, transformação, vinculação e coleta de dados de sistemas heterogêneos é naturalmente difícil e, embora o processamento de big data torne mais rápido e barato o processamento de dados, ele não remove grande parte da complexidade e das habilidades necessárias. existe a percepção de que as técnicas de gerenciamento de informações devem ser amplamente independentes da plataforma de dados e do tipo de dados. O resultado é o seguinte: Os data warehouses são vistos como complementares e não competitivos para plataformas de big data. Seu uso é focado no processamento altamente otimizado de dados para relatórios e painéis padrão. As plataformas de big data oferecem o recurso genérico para todos os tipos de dados, o que é útil para o desenvolvimento e a experimentação de análises, além de uma carga de trabalho de produção com menos tempo de natureza crítica. Os dados são processados seletivamente do formato bruto ao serviço de dados finalizados de forma ágil e modular. moda. Não há mais uma tentativa de ajustar todos os dados em um único modelo de dados. Modelos comuns de dados são usados para criar consistência entre implementações de serviços de dados, não para criar uma única visão coerente da operação da organização. seletivo em vez de um conjunto de padrões aplicados a todos os dados. Os metadados estão sendo usados operacionalmente para catálogos de dados on-line, acesso virtualizado e governança ativa de dados.Técnicas de qualidade de dados, gerenciamento do ciclo de vida e proteção estão sendo homogeneizadas para suportar todos os tipos de dados estruturados e não estruturados. Atualmente, o negócio é um ativo e seu uso é agora uma discussão no nível da sala de reuniões. O gerenciamento de informações está ficando mais difícil devido à diversidade de produtores de informações atualmente. No entanto, o movimento de big data forçou um avanço significativo nas práticas de gerenciamento de informações além daquelas desenvolvidas para o data warehouse e, como resultado, estamos melhor posicionados para gerenciar isso.

3
Se você fala sobre Big Data, precisa ter certeza de que está falando sobre Engenharia de Dados, como Hadoop ou Spark. Consulte outro tópico em que respondi sobre Projetos Livres de Big Data e casos de uso. Existe algum projeto gratuito sobre Big Data e Hadoop? , que posso baixar e praticar? Satyam Kumar | Hadoop Developer na Acadgild

O que é análise de big data?

1
Existem algumas boas definições de análise de big data. Acho particularmente útil usar um exemplo ao pensar nisso. É sobre o papel do big data na sociedade e a experiência do cliente. Big Data para experiências mais inteligentes do cliente – CoolaData

2
Análise de dados Herebig

Como está o futuro do big data?

1
Para ser sincero, conheço big data, a análise de dados está vendo um grande aumento na popularidade no setor de TI, mas para países como a Índia vai demorar muito tempo para se engajar nessas práticas permanentemente, a razão é o mercado pequeno em comparação com o mercado ocidental , baixas contratações tecnológicas Os dados do .BiG são enormes, mas a bolha ainda não está aberta, levará algum tempo para países como a Índia.

2
Enquanto o Hadoop estiver alimentando não apenas o Yahoo !, mas o Facebook, o Twitter “e muitos dos outros grandes nomes da tecnologia que todos conhecemos, amamos ou odiamos ou preferimos não dizer” [1] … eu diria o futuro do Hadoop (e big data também) é tão brilhante que deveria estar usando máscaras! Como qualquer tecnologia vertical, o big data está evoluindo … e continuará evoluindo a cada 12 a 18 meses. A indústria e seus inúmeros eventos podem se renomear, mas as ferramentas mais críticas para sua operação continuarão sendo estrelas no céu. Uma das maiores áreas que meus colegas que trabalham nesta indústria esperam ver crescimento no futuro será estender big data por meio da automação.O big data é complexo … mas sua produção é de alto valor para empresas de todos os tamanhos, por isso o fascínio permanecerá poderoso para o circuito de capital de risco. Com o tempo, os nomes podem mudar, mas o futuro da indústria é brilhante . Mal posso esperar para ver como as coisas progridem nos próximos anos.Notas de rodapé [1] Infoworks.io

3
Existem infinitas possibilidades de aplicativos de big data. Existem milhões de bilhões de dados são gerados todos os dias e seu crescimento é dia a dia e ano a ano. O problema é como encontrar conhecimento relevante desses dados e, em seguida, resolver esse problema, o big data é fornecido. O big data prevê o futuro a partir dos dados e encontra informações e padrões lucrativos para as empresas. Os dados estão crescendo exponencialmente e, para encontrar informações valiosas e padrões, big data será usado. Portanto, você pode imaginar qual é o futuro do big data. O Big Data Future é muito brilhante.

No mundo do big data, quem são os especialistas e quais são as empresas nesse espaço?

1
Os telefones celulares são uma fonte incrível de big data., Especialmente se você realmente se importa com a compreensão do usuário.Ginger.io – estamos apenas começando, por isso não posso compartilhar muito, mas usamos grandes quantidades de dados móveis para prever tendências de saúde individuais e agregadas. Alguns dos líderes acadêmicos em big data e redes móveis (também conhecidos como mineração de realidade) incluem Alex Pentland, Laslo Barabasi, Martha Gonzales, Nathan Eagle, Andrew Campbell, Tanzeem Choudhury e outros. Minha própria pesquisa também está neste espaço.

2
As empresas estão adotando vários modelos diferentes quando se trata de oferecer a melhor solução para os consumidores. Sendo um deles o Evoz, eles têm uma plataforma de software que coleta e analisa Big Data para tornar sua casa conectada ainda mais inteligente. Atualmente, eles têm um dispositivo de monitoramento de bebês que pode monitorar bebês e rastrear seus hábitos de sono, receber conteúdo personalizado e um plano de aprimoramento personalizado, tudo com base em dados reais. Agora eles estão indo além disso, vamos esperar e ver o que eles têm reservado para o mundo do Big Data.

3
Várias empresas que consomem muita energia, por exemplo A indústria petroquímica, como a produção de petróleo / gás e metal, está no espaço de grande volume de dados. Eles coletam e processam grandes quantidades de dados em tempo real (por exemplo, de sensores) e dados usados para análises posteriores (por exemplo, sismologia). Minha experiência de trabalho com essas empresas é que elas têm vários especialistas em big data, mas até agora parecem ter uma experiência limitada com novas ferramentas de big data, como hadoop e mapreduce.

Quantos dados são “Big Data”? Existe classificação para vários níveis de “Big Data” por quantidade de dados processados ou outras restrições, como por exemplo, taxa de transferência? Qual é o tamanho mínimo de dados que ainda é qualificado como “Big Data”?

1
Minha definição simples: Big Data são dados distribuídos. A complexidade dos sistemas, projetados e biológicos, aumenta consideravelmente quando você passa de arquiteturas monolíticas para distribuídas. Aqui está uma tabela útil que desenvolvi para descrever as diferenças entre pequeno, médio e grande porte. dados:

Como começo a aprender sobre big data? Qual site oferece o melhor tutorial para big data?

1
Sendo desenvolvedor Java, não será muito importante aprendê-lo. Confira as referências abaixo: 1) Universidade de Big Data2) Academia Khan3) Guia Definitivo do Hadoop – versão atualizada4) Quaisquer blogs hadoop para mantê-lo atualizado sobre os acontecimentos5) Estudos de caso, tanto quanto você puder! Estou em pesquisa e desenvolvimento em Big Data Tecnologia e sugiro que você entre em contato com alguém que trabalhe em tempo real paralelamente, pois as coisas seriam um pouco diferentes do que você aprende. Espero que isto ajude! Muito bem sucedida 🙂

2
Gostaria de compartilhar minha experiência sobre o dataflair de onde fiz o curso. Meu treinador era um senhor anish da dataflair e eu poderia dizer que ele é o melhor mentor que eu já conheci na minha vida. Eu vim a conhecer o DataFlair apenas através das revisões do Quora. A melhor coisa do Dataflair é que eles não fazem marketing ou propaganda. O objetivo do curso é capacitar o aluno a desenvolver habilidades de leitura e escrita, além de desenvolver habilidades de leitura e escrita, além de auxiliar no desenvolvimento de habilidades motoras, cognitivas, cognitivas, cognitivas e cognitivas. confiança4) Uma das coisas importantes é o estilo de ensino do instrutor. Anish senhor ensinando maneira é realmente entusiasmado e enérgico que você não pode pés tédio. Ele limpa todas as dúvidas tão bem. Também motiva a trabalhar duro para esse domínio.Um bom professor pode inspirar esperança, acender a imaginação e incutir um amor pelo aprendizado.Portanto, se alguém estiver planejando fazer o curso de Big Data e Hadoop, use o DataFlair.Todo o melhor 🙂

3
Antes de começar a falar sobre como começar a aprender big data, deixe-me dizer que você tomou a decisão certa no momento certo. É o momento dos profissionais de Big Data, e a opção como carreira ou acadêmico é o caminho a seguir. Agora, voltando à sua pergunta. Como começo a aprender sobre Big Data? · Você começa online e lendo o máximo possível. você pode sobre o Big Data. Leia blogs on-line úteis para ter uma idéia do que é o Big Data e por que ele é amplamente aceito em todos os setores. · Em seguida, você lista seus objetivos de carreira. O que você está procurando alcançar? Você está procurando ajudar os profissionais de marketing a criar estratégias? Ou você está procurando crescimento com uma empresa pública? · Depois, direcione seu tipo de personalidade para o campo. O Big Data exige que você examine dados estruturados ou não estruturados, milhares de bytes, para obter informações significativas. Você está disposto a gastar o tempo necessário? Ou você está mais interessado em conhecer pessoas e realizar vendas? · Depois de identificar se o Big Data é a escolha certa para você, siga para as opções de treinamento. · Ao estudar os vários cursos, entenda os diferentes tipos de carreira. opções disponíveis. Você está interessado em buscar ciência de dados ou análise de dados? Ambas as opções oferecem enormes oportunidades e você deve estudá-las em detalhes antes de finalizar. Agora, chegamos à sua segunda pergunta – Qual site oferece o melhor tutorial para Big Data? Considere o aprendizado on-line através de um site confiável – o upGrad. O portal de educação oferece vários cursos especializados afiliados a institutos e certificações de renome. Tenha a ajuda de orientadores e mentores de estudantes para saber mais sobre o seu Programa de Pós-Graduação em Engenharia de Big Data, em associação com o BITS Pilani e o PG PG em Big Data & Analytics. Ambos os cursos oferecem rigorosas aulas on-line por renomados professores e ex-alunos do BITS Pilani. Depois de concluir o programa, o upGrad também oferece colocação de trabalho nas principais organizações do mundo.

Quem é elegível para o treinamento Hadoop de big data?

1
Existem muitos mitos sobre pré-requisitos para aprender o Hadoop. Mas deixe-me dizer que eu era do fundo do DBA sem conhecimento de java. Fiz o curso Hadoop da DataFlair, onde eles me forneceram curso java gratuito e essa foi a única coisa que achei necessária para aprender o Hadoop. Portanto, qualquer pessoa interessada em codificar pode aprender o Hadoop adquirindo conhecimento básico sobre java.

2
Qualquer pessoa que tenha conhecimento sobre gerenciamento de banco de dados e mineração de dataware house, além de conhecimento básico sobre sql, java e python, é elegível para aprender o Hadoop. Mesmo se você não conhece Python e Java, deve conhecer minuciosamente os comandos sql. usado por pessoas que não conhecem java, mas sql ou oracle é um pré-requisito. Tudo de bom.

Qual é o melhor livro para análise de big data?

1
Os 5 melhores livros para Big Data Analytics são: Predictive Analytics: o poder de prever quem irá clicar, comprar, mentir ou morrer por Eric SiegelData Smart: Usando a ciência de dados para transformar informações em idéias por John W. ForemanBig Data: Big Revolution: A Revolution That “ A ideia é que, ao longo dos anos, as empresas se tornem cada vez mais competitivas e que, ao mesmo tempo, se tornem mais competitivas, mais competitivas e com mais oportunidades de crescimento ”, afirma o gerente de marketing da empresa, José Carlos de Oliveira. Bart Baesens

2
Essa é uma pergunta muito ampla. Como tal, aqui estão dois bons livros para começar: TractionLean Analytics

3
O big data e a análise de dados são um assunto incrivelmente amplo e abrangente, com tantas ramificações, avenidas e conceitos a serem explorados – mas a masterização ajudará você a permanecer robusto, competitivo e relevante no mundo digital hiperconectado de hoje. lá fora, sobre o assunto, mas para ajudar você a começar, você pode conferir esta lista de 15 livros definitivos sobre o assunto – com críticas e recomendações: Os melhores livros de análise de dados e big data que você deve ler.

Quais são os maiores desafios da análise de big data?

1
Muitas empresas podem e não devem colocar os dados de seus clientes “na nuvem”. Especialmente se você é uma empresa européia, muitas vezes (por lei) não é permitido colocar dados de clientes em servidores estrangeiros. Isso significa que eles precisam comprar muito hardware e gerenciar um cluster próprio. Possível .. Mas: encontrar pessoas especializadas em tecnologias como o Hadoop também é difícil. Os mocinhos são arrebatados pelos grandes .com. O desenvolvimento dessas habilidades do zero pode levar um ano para o profissional de TI médio, com um diploma de bacharel ou mestrado.Pergunta Quais são as melhores ferramentas de software de big data?

1 Já abordado na pergunta: Quais são as boas ferramentas para análise de big data? Essencialmente, comece com qualquer distribuição do Hadoop e você já possui um conjunto de ferramentas bastante poderoso. 2 Ferramentas de integração de big data é um termo usado para uma coleção de conjuntos de dados tão grandes e complexos que é difícil processar usando aplicativos / ferramentas tradicionais. São os dados que excedem o tamanho de Terabytes. Devido à variedade de dados que ele abrange, o big data sempre traz vários desafios relacionados ao seu volume e complexidade. Uma pesquisa recente diz que 80% dos dados criados no mundo não são estruturados. Um desafio é como esses dados não estruturados podem ser estruturados antes de tentarmos entender e capturar os dados mais importantes. Outro desafio é como podemos armazená-lo. Hoje, quase todas as organizações usam extensivamente o big data para obter uma vantagem competitiva no mercado. Com isso em mente, as ferramentas de big data para processamento e análise de big data são a escolha mais útil das organizações, considerando o custo e outros benefícios. Agora, quando falamos em ferramentas de big data, vários aspectos aparecem em cena. Por exemplo, quão grandes são os conjuntos de dados, que tipo de análise faremos nos conjuntos de dados, qual é a saída esperada etc. Portanto, em termos gerais, podemos categorizar a lista de ferramentas de big data nas seguintes categorias: com base em armazenamentos de dados Como plataformas de desenvolvimento, como ferramentas de desenvolvimento, ferramentas de integração para ferramentas de análise e relatórios.Por que existem tantas ferramentas de big data de código aberto no mercado? A maioria dos grupos ou organizações ativas desenvolve ferramentas de código aberto para aumentar a possibilidade de adoção na indústria. Além disso, é fácil baixar e usar uma ferramenta. Se olharmos atentamente para a lista de ferramentas de big data, ela pode ser desconcertante. Como as organizações estão desenvolvendo rapidamente novas soluções para obter uma vantagem competitiva no mercado de big data, é útil concentrar-se nas ferramentas de big data de código aberto que estão impulsionando a indústria de big data. Um exemplo perfeito disso seria Rivery. 3 O mundo moderno é difícil de imaginar sem as tecnologias de Big Data que operam as quantidades de milhões e trilhões de informações geradas por toda e qualquer esfera da vida humana. Hoje, é costume distinguir várias categorias de software de Big Data, como: Software de Análise de Big Data; Software de Processamento e Distribuição de Big Data. Cada ferramenta de categoria é usada para organizar, gerenciar e analisar a enorme quantidade de dados gerados por redes, produtos modernos, As melhores ferramentas de software de Big Data: O Hadoop é a estrutura de software de código aberto mais reconhecível e comum que visa armazenar dados e executar aplicativos em clusters de hardware comum, além disso, o Hadoop permite escrever e testar rapidamente sistemas distribuídos. O sistema Hadoop é usado pelo Facebook, Linkidin, Google, eBay etc. O Hadoop possui um grande conjunto de vantagens, como: Flexibilidade; Baixo custo; Escalabilidade; Tolerância a falhas; Velocidade. Mas como todo sistema Hadoop também possui alguns profissionais, como O HPCC é uma plataforma de sistema de computação de software intensivo de código aberto que oferece mecanismo ETL e Query e também ferramentas de gerenciamento de dados e aprendizado de máquina como: Gerenciamento de dados: criação de perfil de dados, limpeza de dados Atualizações e consolidação de dados de captura instantânea, agendamento de tarefas; aprendizado de máquina: regressão linear, regressão logística, árvores de decisão e florestas aleatórias. O HPCC possui recursos como: Suporta SOAP, XML, HTTP, REST e JSON; Menos código para uma grande complexidade de alta tarefas de dados; Fornecido para melhorar a escalabilidade e o desempenho; Não é possível otimizar o código para processamento paralelo; o código ECL é compilado em C ++ otimizado e também pode ser estendido usando bibliotecas C ++. O Qubole fornece ferramentas de Big Data, como ferramentas de consulta SQL, Ooks e painéis. Além disso, o Qubole forneceu uma única infraestrutura compartilhada, análises e cargas de trabalho de IA / ML, Hadoop, Presto, TensorFlow, Airflow, Hive etc. Também: seus mecanismos de código aberto criados na AWS, Microsoft e Google Clouds; Especializado em nuvem pública análise de dados baseada em dados; entregar alertas, idéias e recomendações acionáveis para otimizar confiabilidade, desempenho e custos; fornecer uma plataforma única para cada caso de uso; o Apache Storm é um sistema de computação em tempo real distribuído de uso simples, gratuito e de código aberto, orientado para distribuído. processamento de grandes fluxos de dados. Um dos principais recursos do Apache Storm é que ele pode ser integrado a qualquer sistema de enfileiramento e banco de dados ou linguagem de programação que já use. O sistema Storm é usado pelo Twitter, Spotify, Yahoo !, etc. O sistema de ferramentas Storm usa para: Análise em tempo real; Aprendizado de máquina on-line; Computação contínua; RPC distribuído; ETL.Cassandra é um sistema de gerenciamento de banco de dados distribuído pertencente ao NoSQLclasse que visa lidar com grandes quantidades de dados em muitos servidores comuns, fornecendo alta disponibilidade sem um único ponto de falha. Cassandra é usado pela IBM, Apple, Instagram, eBay, Netflix, GitHub, SoundCloud e em mais de 1500 outras empresas. O banco de dados Apache Cassandra possui os seguintes recursos: Ponto único de falha; DDL, DML; nó Cluster; consistência eventual de dados; consistência de ajuste.Para obter mais informações sobre tecnologias de Big Data ou empresas de desenvolvimento de Big Data, visite: 46 melhores empresas e desenvolvedores de Big Data em 2019.

Quais são as boas universidades para MS / MS + PhD em Data Science, Machine Learning ou Big Data?

1
Berkeley, Stanford (Andrew Ng) e a Universidade de Toronto (Geoffrey Hinton – o inventor de propagação de redes neurais), a Universidade de Nova York (Yann LeCun) e a Universidade de Manchester (Reino Unido) são líderes mundiais.

2
Estou mais familiarizado com o lado da EM. Aqui está minha lista de escolas que oferecem programas dedicados de ciência de dados / ML: Universidade de Stanford. Eles oferecem um ótimo programa MS in Statistics: Data Science. O currículo tem uma grande mistura de estatística e ciência da computação. Tem a vantagem geográfica de estar próximo ao vale do silício.Carnegie Mellon University. Muitos programas excelentes, incluindo Mestrado em Ciência de Dados Computacionais e Mestrado em Aprendizado de Máquina. A CMU oferece cursos de big data de alta qualidade e está sempre entre as escolas de destino para grandes empregadores de tecnologia. O Mestrado em Ciência e Engenharia da Computação e o Mestrado em Ciência de Dados compartilham currículo semelhante. O departamento de engenharia está crescendo rapidamente, portanto ainda mais recursos estarão disponíveis.NYU. Devido ao seu forte departamento de matemática e ao Center for Data Science liderado por Yann LeCun, o MS in Data Science é uma ótima opção. Está entre as primeiras universidades que iniciaram um programa dedicado de ciência de dados, portanto, o programa de MS cresceu bastante. Universidade Columbia. Mestre em Ciência de Dados pela Northwestern University. Eles oferecem um pequeno, mas nicho, programa MS in Analytics. Curriculum é ótimo na minha opinião. Devo ressaltar que, se seu objetivo for uma carreira em ciência de dados / ML, programas em CS ou Estatística também poderão ajudá-lo a alcançar esse objetivo. Então suas opções são muito mais amplas – UC Berkeley, MIT, Universidade de Washington, UIUC, etc.

3
Para doutorado em ciência de dados, observe o link para algumas universidades: Programa de doutorado em ciência de dados – NYU Center for Data SciencePhD in Big DataPh.D. Em Análise e Ciência de DadosCiência e Engenharia Computacional e Ativada por DadosIGERT Data Science PhD Program

Qual é o melhor para estudar, ciência de dados ou big data?

1
Depende do seu objetivo final. Se você estiver em processos de ETL, Big Data. No entanto, se você gosta de analisar as coisas, faça ciência de dados. Se eu fosse você, faria ambos começando com a ciência de dados e, eventualmente, trabalhando no Big Data. É isso que estou fazendo agora. No momento, estou aprendendo várias técnicas de ML e depois aprendendo coisas como pyspark e hadoop para poder trabalhar em projetos no futuro

2
Big data é sobre coletar informações. (você precisa saber sobre mecanismos de armazenamento, servidores …) A ciência de dados é sobre a análise das informações que você possui. (é necessário conhecimento de matemática, bem como sistemas para analisar informações). Pesquise um pouco sobre esses tópicos.

Quais são as habilidades e a experiência necessárias para os engenheiros de Big Data?

1
Habilidades de ingestão de dados. Conheço muitas empresas que compram soluções Hadoop e de data warehouse, mas ficam aquém porque não pensaram no lado da ingestão da equação. Isso envolve muitos scripts e ETL.

2
Obrigado pela A2A. Na minha opinião, ingestão de dados e ETL são o que eu espero que os engenheiros de dados se destacem. Não apenas alcançando alto desempenho e soluções escaláveis nessas áreas, mas também conhecendo e entendendo quais produtos lidam com quais problemas.

3
A curiosidade é fundamental, assim como a paciência. Você pode aprender a executar SQL, Python, R e estatística, mas precisa de uma curiosidade natural e paciência e diligência para responder a perguntas de big data.

Qual é a maior perspectiva, segurança cibernética ou big data?

1
Eu acredito que ambos os campos não são completamente independentes. A segurança cibernética, se eu disser em termos de segurança de rede, há uma enorme quantidade de dados de tráfego e a identificação de uma invasão exigirá tecnologias de big data. E big data, é claro, requer segurança, pois é preciso proteger os DADOS. Portanto, minha sugestão é que você comece com segurança cibernética e, eventualmente, acabe com as tecnologias de big data. Boa sorte.

Quais startups são as melhores em big data hoje?

1
Esta não é uma lista completa, apenas algumas das melhores para começar. Cloudera. Aqui está um vídeo que fiz com Mike Olson: (ótima discussão sobre big data, Cloudera se concentra no Hadoop). Aqui está um vídeo com seu CEO: (eles se concentram no Memcached). Eles ajudam as empresas a passar por grandes conjuntos de dados em busca de padrões. Vídeo com o fundador e CTO: http: //www.building43.com/videos …

2
http://timetric.com/ possui mais de 2.000.000 de estatísticas públicas e também extrai dados de negócios.

3
Além de Cloudera, existem o Aster Data e o Vertica. Dois que foram adquiridos são Greenplum (da EMC) e Netezza (da IBM).

Estou interessado em análises de IOT e Big Data. Quais são os cursos ou como me dedico à análise de big data?

1

2
Olá, Antes de tudo, entenda o que exatamente o analista de dados faz ou que tipo de trabalho ele faz no básico diário do trabalho. Abaixo estão alguns exemplos, também passo a passo neste guia de e-book para carreiras no Analytics, que explica muito. Muitas atividades envolvem a coleta e extração de dados.Entendendo e interpretando os números Para ler os dados e tentar encontrar as tendências, padrões, similaridades e algoritmos dentro dos dadosComparando os dados atuais com a pesquisa de mercado anteriorFaça as histórias das descobertas finaisApresentando essas descobertas às partes interessadas / liderança para ajudá-las a fazer melhores estratégias para os negóciosAgora, se você estiver satisfeito em prosseguir com as responsabilidades acima em Noções básicas diárias, você pode seguir o processo / estilo abaixo para se tornar analista de dados / cientista de dados. Existem vários recursos on-line que podem ensinar a você excel / SAS / R etc muito bem, mas você precisa de muito tempo para pesquisar sobre quem está oferecendo o que e você precisa navegar por vários sites, canais do youtube etc. Mas se você estiver recebendo algum curso mais barato da Udemy, cousera, skillshare, então eu Sugiro que você os busque, porque eles já fizeram a parte mais difícil para você trazer tudo em um só lugar. Aprenda idiomas como SAS, R, Python etc.Eu digo fortemente que melhore suas habilidades no MS Excel, porque a confiança precisará disso muito ao fazer o seu trabalho de análise. Gostaria de solicitar a leitura deste e-book Beginners Guide to Career in Analytics, que realmente explica em detalhes quais habilidades você deve ter como cientista de dados ou como se preparar para a carreira de analista de dados. no desenvolvimento de suas habilidades de excel também porque você precisa muito delas enquanto trabalha no campo de análise, pode fazer alguns cursos como https://www.udemy.com/mastering-…O melhor mantra para se tornar bom em análise é muito trabalho Com uma abordagem consistente Eu recomendaria, por favor, leia o e-book acima, que realmente ajuda muito na escolha do curso certo.Por favor, deixe-me saber se existem mais perguntas.

3
Olá, Tudo depende se você está planejando aprender isso do zero ou se já está no domínio de análise.Pode começar por aqui, será muito útil.Saiba o Hadoop, MapReduce e BigData from ScratchTambém é possível segui-los depois de ter Alguns conhecimentos sobre projetos abertos do raspberry piIntrodução à Internet das Coisas (IoT) usando o Raspberry Pi 2Pergunta Como o big data, o aprendizado de máquina e a ciência de dados afetam o campo da educação?

1 Com a crescente popularidade dos MOOCs, surgiu uma grande variedade de oportunidades. Milhares de pessoas fornecem às plataformas educacionais muitos dados que descrevem seu desempenho. Essas métricas, se reunidas adequadamente, podem descrever os lados bons e ruins de vários padrões de estudo usados pelos alunos. Esta é uma oportunidade sem precedentes para obter modelos precisos de: Como as pessoas consomem as informações apresentadas da maneira tradicional – em palestras e livros didáticos. Eles pulam muito, ficam entediados? Se as palestras forem mais curtas, qual é a solução ideal? O que leva as pessoas a abandonar os cursos? Se o material didático tem algo a ver com essa decisão, o que deve ser feito sobre isso? Quais são as falhas nos conjuntos de problemas? Eles cobrem bem o tópico? Onde estão os gargalos e as peças mais demoradas? Muitas, muitas outras questões de importância crítica Até recentemente, essas perguntas só podiam ser respondidas através da experiência subjetiva coletada pelos professores ao longo de vários anos de prática, que não era apoiada por evidências estatísticas e, além disso, era propensa a vieses cognitivos. A parte mais importante é que todas as métricas possam ser coletadas automaticamente. Sempre que o questionário é enviado, ele pode ser processado e analisado em menos de um segundo. Todos esses testes, todos os avanços de vídeo e manipulações de velocidade fornecem aos designers do curso informações valiosas para melhorar seu processo. Além da influência direta, a ciência de dados pode afetar o campo da educação de outra maneira. Reunir e analisar dados do mercado de trabalho, combinando-os com as métricas coletadas das universidades, pode ajudar bastante. Várias coisas vêm à mente imediatamente: existe excesso de oferta em algum campo? O excesso de oferta real ou apenas todos os graduados não são qualificados para o trabalho? Como a instituição se correlaciona com a carreira e a empregabilidade em geral? O que o torna tão especial? Como você pode tornar sua trajetória educacional mais flexível para acelerar sua carreira? Quais fatores entram em cena e quais são trotes? É claro que essas informações se tornarão úteis se estiverem disponíveis. E só fica disponível se alguém encontrar uma maneira de coletar, processar e publicá-lo de uma forma conveniente por um preço razoável. Falando sobre idéias de bilhões de dólares em um campo de ciência de dados. Isso, se feito corretamente, poderia colocar o LinkedIn fora dos negócios. 2: Provavelmente, uma das maiores oportunidades para a ciência de dados (que, para essa resposta, inclui aprendizado de máquina e big data) está fornecendo caminhos de aprendizado personalizados. Um grande desafio da educação tradicional é maximizar o aprendizado médio dos alunos em a turma, garantindo que nenhum aluno específico fique para trás demais. É muito mais fácil fazer isso em turmas menores do que as turmas maiores, mas mesmo em turmas de 10 a 15 alunos, um único professor ainda tem uma capacidade limitada de trabalhar com cada aluno com base em suas próprias forças e fraquezas. que quase por design, praticamente nenhum dos alunos atinge seu potencial máximo de aprendizado. A ciência de dados, quando introduzida nos métodos modernos de consumo de educação (por exemplo, aulas on-line, cursos etc.), pode mudar isso. Ao estudar dados de progressão de inúmeros alunos interagindo com materiais educacionais, o algoritmo pode rastrear e analisar o progresso de cada aluno e adaptar o conteúdo educacional para maximizar sua aprendizagem e proficiência, acelerando ou desacelerando o ritmo dos materiais educacionais, proporcionando exercícios mais difíceis ou fáceis, etc. 3 Concordo plenamente com Yuval Ariav (יובל אריאב). Um dos maiores problemas da educação hoje é que ela é totalmente padronizada. Embora essa padronização permita que um grande número de assuntos seja mais ou menos repassado para uma grande porcentagem de gerações futuras, ela falha em dois aspectos: não permite o pleno potencial daqueles que não se encaixam perfeitamente no sistema educacional , o que significa que muitas pessoas passam “apenas para terminá-lo” em vez de explorar todo o seu potencial. Há crianças que simplesmente não se encaixam no sistema educacional pré-formatado. Eles não têm outro problema senão aquele. Eles são deixados para trás. Se eles não encontrarem uma carreira em que possam seguir por conta própria, reduzirão artificialmente a média. Há muitas coisas que, com os dados corretos, podem ser feitas. Naturalmente, eu colocaria todas as fichas na pré-escola até a universidade. Esse é o futuro, mas também estou de olho no presente. Por exemplo, estou sempre aprendendo coisas novas. Muitas vezes, o problema que tenho é o que escolher a seguir para atingir uma determinada meta de longo prazo. Como eu não sei, não consigo entender o caminho que devo seguir. Essa outra seção da população, os aprendizes ao longo da vida, se beneficiariaconsideravelmente. De certa forma, eles são. Muitos sites MOOC têm o aprendizado de máquina implementado, mas infelizmente esses algoritmos são mais voltados para retenção e receita do que para caminhos de aprendizado.

Quais são os tópicos de pesquisa mais importantes no campo Big Data?

1
O uso de kernels virtualizados para criar máquinas de memória compartilhada verdadeiras; desenvolvimento de linguagens como Julia, que são executadas em uma VM e ainda permitem acesso a rotinas BLAS de alto desempenho e nível. sistema na camada de aplicação? Desenvolvimento de algoritmos de cluster convexo de alto desempenho que podem ser executados em paralelo em arquiteturas distribuídas. Para mais fatos divertidos e respostas impressionantes, consulte o meu canal do YouTube https://www.youtube.com/channel/…and siga-me no Twitter https://twitter.com/CalcCon

Qual campo é o melhor, big data ou aprendizado de máquina?

1
O manuseio de grande quantidade de dados é uma realidade inevitável das empresas de hoje. Existem várias soluções estáveis criadas para isso. Novos desenvolvimentos estão no platô. O aprendizado de máquina, por outro lado, é uma área interessante, onde a inovação continua em ritmo acelerado. Do ponto de vista futuro, o ML pode ser mais lucrativo. Ambas as áreas estão envoltas em hype e mitos. Portanto, tenha cuidado!

2
“Melhor?” Como? Mais lucrativo? Mais desafios? Melhor definido? Eu trabalhei em um campo, conheço pessoas no outro, e geralmente concordamos que ambos são lucrativos e desafiadores (possivelmente em graus variados, mas como isso é subjetivo, renunciaremos a essa distinção) .ML é menos evoluído do que Big Data, mas se isso é bom ou ruim, depende de onde você está. Se por “melhor” você quer dizer mais utilizado na indústria, isso é fácil – Big Data.

3
Ambos estão intimamente integrados. Se você é bom em programação e ferramentas ETL, é bom usar o Big Data, mas se você possui um bom conhecimento dos algoritmos de reconhecimento de padrões, pode mapear a lógica de determinados conjuntos de dados e pode encontrar padrões usando alguns algoritmos, ou pode treinar dados por algum mecanismo de rede neural, é bom investir também seu tempo em aprendizado de máquina.

Qual é o melhor laptop de Big Data?

1
Eu recomendaria um thinkpad lenovo. 8 GB de RAM HD de 750 GB / HD de 1 TB, 13 a 15 horas de duração da bateria.Em geral, você precisa de mais espaço de RAM para executar modelos preditivos. Se você vir muitas empresas de big data, emitiria um thinkpad lenovo para seus funcionários. Laptop também muito resistente. só que é um pouco caro (> 60-70 k)

2
Em resumo, “sua melhor aposta seria um sistema Windows / Linux com placa gráfica nvidia de pelo menos 4 GB, 2,9 GB ou mais de velocidade de processamento, 16 gb de ram, pelo menos 512 gb ssd, processador i7. O HP Z8 é um dos sistemas mais legais com os quais me deparei tarde, mas o custo é um pouco alto. Para laptops, verifique a série dell Inspiron uma vez. ”Você pode consultar minha resposta em: resposta de Luv Aggarwal para Qual é a melhor versão de PC para executar projetos de ciência de dados localmente?

3
Eu acho que você deve usar laptop decente de alto desempenho com 8 GB de RAM e tamanho confortável (12 a 13 polegadas será o melhor), você pode usar o serviço de aluguel de nuvem como AWS ou Google Cloud. Na minha carreira em ciência de dados, frequentemente faço parte de um meetup para participar da competição Kaggle e conhecer pessoas de negócios. Portanto, o laptop portátil é essencial. Se você faz computação paralela, acho que deve comprar 2–3 computadores baratos para experimentar.

Qual é a diferença entre Data Science e Big Data Analytics e Big Data Systems Engineering?

1
Os dados são petróleo bruto – na verdade, acho que isso funcionará melhor com combustíveis não fósseis – portanto, os dados são o material vegetal bruto que colhemos (entendeu? – IoT, Social, Celular) Big -Data – os tanques de armazenamentoMDM – o processo de refinamento – a tubulaçãoAnalytics – o mecanismo que utiliza o óleo refinado e o converte em momento – sim, quanto mais sofisticado o motor, mais eficiente é em extrair a energia potencial

2
Os dois primeiros termos são intercambiáveis e incluem uma combinação de competências no trabalho com Big Data (recuperação, limpeza, etc.) e aprendizado de máquina (analisando o Big Data). A Engenharia de Sistemas de Big Data não inclui necessariamente o lado do aprendizado de máquina e inclui mais – profundidade de trabalho com a tecnologia Big Data (administrativa e manutenção, por exemplo, configurando clusters do Hadoop, fornecendo suporte aos usuários, solucionando problemas do Spark, etc.)

3
Ciência de dados: aqui está um banco de dados de respostas do Quora, quero saber a distribuição de upvotes entre eles e um algoritmo que possa distinguir respostas relacionadas à ciência das relacionadas ao cinema. Big Data Analytics: aqui está um banco de dados inteiro do Quora. Quero que você crie uma ferramenta que nos permita encontrar tópicos de tendências e os coloque na página principal automaticamente. Engenharia de grandes sistemas de dados: precisamos de uma ferramenta que realize transformações eficientes em tudo o que lançamos, ela deve ser dimensionada sem sobrecarga significativa , seja rápido e execute um bom particionamento de dados entre os trabalhadores. Isso praticamente descreve a diferença.

Quais oportunidades de “big data” serão mais lucrativas?

1
Arbitragem. Big data é um ajuste perfeito para arbitragem, porque em qualquer espaço, por exemplo derivativos, comércio eletrônico etc., você encontrará a maioria dos itens com preços razoáveis; portanto, é necessário analisar grandes quantidades de dados para encontrar oportunidades de lucro. Mas você precisa saber o que está fazendo no lado da modelagem estatística.

2
Não é óbvio? Facebook !!! 500 milhões de membros. Um pedaço de um grande gráfico social direcionado e ponderado, sobreposto a um gráfico de interesse derivado da atividade do usuário e perfis = grandes dados (semiestruturados) com um grande valor potencial (principalmente para anunciantes). Não conheço muitos fundos de hedge ou provedores de bancos de dados de butiques que tiveram criação de valor de US $ 50 bilhões em sete anos.

Quais são as características do big data?

1
De acordo com o Gartner: Big Data são ativos de informações de grande volume, velocidade rápida e variedade diversa que exigem plataforma inovadora para insights e tomadas de decisão aprimorados.Uma revolução, os autores explicam como: Big Data é uma maneira de resolver todos os problemas não resolvidos relacionados ao gerenciamento e manuseio de dados, a indústria anterior era usada para conviver com esses problemas. Com a análise de Big Data, você pode desbloquear padrões ocultos, conhecer a visão de 360 graus dos clientes e entender melhor suas necessidades. Para características de Big Data, assista ao vídeo introdutório de Big Data da DataFlair:

2
Transformações complexasUm cenário muito provável de crescimento de dadosMudando para o CloudDeep Analytics em alguns dados aleatóriosMML / Data Science needsBored Engineers !! Onboarding new stack

Como me tornar analista de big data?

1
Você pode começar criando uma fome para encontrar dados e informações subjacentes. Existem várias variações da mesma pergunta que já foram respondidas.Como aprender sobre big data? Como me tornar um analista de dados? O que os analistas de big data realmente fazem? Como me tornar um consultor estatístico / analista de dados independente? Como me torno analista de dados no futebol?

Qual é o melhor curso on-line para aprender o Hadoop (Big data)?

1
Fiz o treinamento Hadoop do DataFlair e achei muito bom. Isso me ajudou a mudar minha carreira de DBA para o líder de prática de Big Data, que é o trabalho que eu estava tentando há muito tempo. Seu treinamento me preparou completamente da perspectiva da entrevista e também me ajudou a ganhar confiança nessa tecnologia por meio de projetos práticos e em tempo real, através dos quais Pude concluir as entrevistas com muita facilidade e iniciar minha carreira nessa tecnologia em expansão. Tive uma experiência de treinamento muito boa com o DataFlair e a sugerirei para outras pessoas que procuram sua carreira nessa tecnologia.

O que é big data?

1
Aqui está uma maneira fácil de pensar sobre isso – em termos do “prefixo” usado e como / onde eles foram usados. Começando com Kilobytes – temos Kilo-, Mega-, Giga-, Tera- e agora Peta-Each é Mais 1.000. Começando com as planilhas que lidam com quilo (milhares de registros), depois os bancos de dados de desktop em Mega- (milhões), os bancos de dados baseados em servidor em Giga- (bilhões), os data warehouses em Tera- (trilhões), você chega ao “Big Data” de hoje em Peta- (quadrilhões) de registros. Muitos dos mecanismos de ingestão de “Big Data” promovem o desempenho de adicionar 2 ou mais petabytes por dia de novos dados. Agora * que * é “grande”

2
Um termo nebuloso usado para se referir a: uma coleta de dados com características específicas, qualquer modelo de dados não relacionais, dados usados em análises estatísticas ou técnicas de IA aplicadas, qualquer combinação dos itens acima. Em outras palavras, o que alguém quiser que isso signifique em algum contexto

Quais são os cursos recomendados para análise de big data?

1
As Melhores Faculdades de DataAnalytics na Índia são o Programa de Pós-Graduação em Análise de Negócios – Great Lakes Institute of Management (estudei este curso e foi bom) Programa de Certificação em Análise de Negócios e Inteligência – IIM BangalorePrograma de Pós-Graduação em Análise de Negócios – Praxis Business School Análise de dados – Jigsaw AcademyEdurekaKudwi Analytics

O que um iniciante deve aprender sobre big data?

1
Abaixo estão as coisas necessárias para aprender big data1) Programação de computador: – É necessário ter os fundamentos da programação de computadores, que incluem estruturas básicas de dados, algoritmos e habilidades de codificação e fundamentos de sistema operacional.2) Aprenda uma das linguagens de programação abaixo: a) Java b ) Scala c) Python3) Se você está interessado em ciência de dados, deve aprender R e R studio4) Deve passar por alguns mapas básicos para reduzir conceitos e exemplos no youtube e aprender um pouco mais. Espero que isso ajude. Se você gosta da minha resposta, por favor, vote.

2
Você pode verificar minha resposta em – resposta de Sri Raghu Malireddi para Como devo começar a aprender Python para ciência de dados? Com que rapidez posso aprender Python para ciência de dados e suas bibliotecas?

Qual é o problema do Big Data?

1
Talvez a minha resposta A resposta de Chris Schrader para Em que situações se deve usar um determinado banco de dados, como MS-SQL, MySQL, NoSQL, MongoDB ou GraphDB sobre outro? Quais são os cenários em que cada um é usado? Qual é a vantagem ou desvantagem de um sobre o outro? pode ser de alguma ajuda.

Quais são os documentos mais influentes no mundo do big data? Por quê?

1
Aqui estão alguns importantes do setor: Dynamo: http: //s3.amazonaws.com/AllThing…BigTable: http: //research.google.com/archi…MapReduce: http: // research. google.com/archi…GFS:http://research.google.com/archi…Spanner:http://research.google.com/archi…Percolator:Processamento incremental em grande escala usando transações distribuídas e notificações

2
Consulte Quais documentos demonstraram que, para aprendizado de máquina, o tamanho do conjunto de dados é mais importante que o modelo que está sendo treinado?

Qual é a melhor maneira de aprender como processar e analisar big data?

1
Leia Como me torno um cientista de dados?

2
O Hue é a interface do usuário da Web de código aberto para facilitar o uso e o início da exploração do Hadoop, permitindo que você brinque com vários editores do Hive, Pig, Impala, Sqoop, Oozie e navegue pelos trabalhos do MapReduce, arquivos HDFS, Hive & Tabelas HBase … no seu navegador.Uma série de tutoriais em vídeo estão disponíveis no blogue Hue e no github.

3
Editado mediante solicitação. A melhor maneira é começar a fazê-lo com as pessoas que podem orientá-lo. Se você tem alguns dados em mãos e uma idéia dos valores comerciais que podem ser extraídos, mergulhar é a melhor opção. O segundo melhor seria participar de competições de análise de dados, como apontou Thirumala Kiran. Além disso, confira minha Lista de verificação de Big Data. Provavelmente, responderia a algumas questões de nível mais profundo que você possa ter e certamente o motivaria a entrar no big data!

Quais são os pré-requisitos para aprender Hadoop e big data?

1
A2A.Para o Hadoop, depende de qual parte da pilha você está falando. Com certeza, você precisará saber como usar o sistema operacional GNU / Linux. Eu também recomendo o conhecimento e a proficiência em programação em Java, Scala ou Python. Coisas como o Storm oferecem vários idiomas para você. Coisas como o Spark se prestam a Scala. A maioria dos componentes é escrita em Java, então existe uma forte tendência a ter boas habilidades em Java (eu pessoalmente não escrevo Java). “Big Data” não é uma coisa, mas sim uma descrição de um problema de gerenciamento de dados envolvendo os 3 Vs. Big data não é algo que você aprende, é um problema que você tem.

Qual é o tamanho do Big Data?

1
A resposta de Jay Zaidi é realmente boa para colocar as coisas em perspectiva. Gostaria de tentar complementá-lo. Os dados grandes não se referem ao tamanho dos dados. Portanto, não podemos quantificar o tamanho do big data. Nos dias e idades atuais (abril de 2016 para referência futura), big data refere-se à tecnologia que lida com dados que possuem certas características. Essas características são volume, variedade e velocidade. Essas três coisas isoladas ou agrupadas não podem ser tratadas pelos sistemas tradicionais de banco de dados. A nova família de tecnologia de dados é comumente referida, coloquialmente ou em marketing, como big data.

2
Citação da minha página de Taglines em Beowulf Down: “Infelizmente, eu receio que [o termo” Big Data “] já tenha sido sequestrado para sempre: ‘Me dê um sanduíche de frango, batatas fritas e uma Coca-Cola, com um lado do Data’ ‘. Servimos apenas a Pepsi, tudo bem? “” Sim, claro. E supersize os dados para Big Data. “” Serão Big Data Estruturado ou Big Data Não Estruturado? “” Qual é a diferença? “” Um é como um hambúrguer e o outro é como uma salada. “” Como assim? “” Um que fazemos de uma pilha com um molho secreto. O outro apenas jogamos juntos no último minuto. “” Ele vem com molho? “” Tanto quanto você pode aguentar! “” Faça isso. “Não está estruturado. Isso custará US $ 20,13 na primeira janela.” “de David Birmingham

3
Isso soa muito uma pergunta de fantasia .. Quão grande é o Big Data O Big Data está em toda parte. Desde os jogos online que jogamos, até como o Uber nos conecta aos táxis e como os governos estão resolvendo problemas relacionados ao bem-estar público. Não há como negar. Em todos os lugares que você vira, há um artigo ou uma notícia sobre como os dados estão crescendo e mudarão ou não – dependendo da fonte – mudarão o futuro como o conhecemos. Embora o contexto em que as informações são apresentadas possa diferir, geralmente há uma coisa em comum em todas essas histórias de Big Data: os números usados para descrever a magnitude do Big Data são bastante difíceis de se relacionar. Quanto custa um Zettabyte? Quantos dados são realmente criados a cada ano? Qual é o tamanho do déficit de cientistas de dados necessário para analisar todos esses dados? Não tenha medo, é aí que entro. Parte da nossa missão no Sisense é tornar os dados acessíveis a todos, independentemente da sua experiência técnica para que você possa criar decisões de negócios orientadas a dados em toda a organização. Então, vamos ver se eu posso detalhar exatamente o quão grande é o Big Data – em números um pouco mais fáceis de digerir. O que podemos fazer, no entanto, é ter uma noção de quantos dados a organização média tem para armazenar e analise hoje. Para esse fim, aqui estão algumas métricas que ajudam a colocar números concretos na escala do Big Data hoje: analistas prevêem que, até 2020, haverá 5.200 gigabytes de dados sobre todas as pessoas no mundo. Em média, as pessoas enviam cerca de 500 milhões de tweets por dia. O cliente médio dos EUA usa 1,8 gigabytes de dados por mês em seu plano de telefone celular. O Walmart processa um milhão de transações de clientes por hora. A Amazon vende 600 itens por segundo. Em média, cada pessoa que usa e-mail recebe 88 e-mails por dia e envie 34. Isso adiciona mais de 200 bilhões de e-mails por dia.O MasterCard processa 74 bilhões de transações por ano. As companhias aéreas comerciais fazem cerca de 5.800 voos por dia.Todos os itens acima são exemplos de fontes de Big Data, não importa como você Defina isso. Se você analisa esses tipos de dados usando uma plataforma como o Hadoop, e independentemente de os sistemas que geram e armazenam os dados serem distribuídos, é uma aposta segura que conjuntos de dados como os descritos acima contariam como Big Data nos livros da maioria das pessoas. Desafio do Big Data Também está claro que os conjuntos de dados representados acima são enormes. Mesmo que sua organização não funcione com os tipos específicos de dados descritos acima, eles fornecem uma noção da quantidade de dados que vários setores estão gerando hoje. Para trabalhar com esses dados de maneira eficaz, você precisa de uma abordagem simplificada. Você precisa não apenas de ferramentas poderosas de análise, mas também de uma maneira de mover dados da origem para uma plataforma de análise rapidamente. Com tantos dados para processar, você não pode perder tempo convertendo-os entre diferentes formatos ou descarregando-os manualmente de um ambiente como um mainframe (onde muitos desses bancos, companhias aéreas e outras transações ocorrem) em uma plataforma como o Hadoop. Para saber mais sobre este tópico, consulte este link: Infografia de Big Data | Quão grande é o Big Data? | Eduerka.I espero que isso ajude 🙂

Quais são os melhores métodos para testar aplicativos de big data?

1
Isso depende do seu processo comercial, se a lógica é simples e a saída é fácil de ser conhecida, você só precisa cobrir todas as filiais e pensar no desempenho. Se a lógica for terrível, mas a saída for fácil de ser conhecida, você poderá usar a cobertura de código para obter algumas amostras do mundo real e tentar cobrir todas as ramificações. O pior é que a lógica é terrível e a saída é muito difícil ou impossível de ser conhecida; se você encontrar o caso como esse, poderá usar testes metamóficos. A idéia básica do teste metamófico é encontrar uma relação entre duas entradas e saídas e, em seguida, obter a resposta.Pergunta O que é big data nos termos do leigo?

1 Eu usaria um exemplo da vida real para responder a essa pergunta. Suponha que eu possua uma loja departamental monitorada por câmeras. Então, o que eu teria no final do dia? Uma coleção realmente enorme de imagens de vídeo … que nada mais são que dados … e imagens de um mês? isso é uma quantidade enorme de dados. Agora, em vez de apenas despejar os dados no armazenamento, que tal ganhar algum dinheiro com isso? Então, o que farei é isso, tentarei descobrir padrões nas imagens de vídeo … por exemplo. descubra se há um dia na semana em que alguns produtos são comprados mais do que o restante, que são os produtos nos quais o consumidor está mais interessado. Então, posso prever com um melhor grau de precisão qual quantidade de produto devo vender e qual é o momento em que a demanda por um produto é máxima. Portanto, no final do dia, essa enorme quantidade de dados me deu a capacidade de organizar melhor meus negócios, aumentar a satisfação do cliente e, assim, ganhar mais dinheiro … isso é GRANDE DADOS … quantidade enorme de dados, que podem ser pesquisados por padrões, o que pode nos ajudar a obter melhores insights sobre uma situação em questão .. Neste caso, é da minha conta. 2 Em termos não técnicos, o Big Data geralmente é uma quantidade muito grande de dados, que é realmente difícil de gerenciar e manipular. O exemplo mais simples pode fazer parte das empresas que lidam com o gerenciamento de dados (geralmente chamado de sistema de gerenciamento de banco de dados em termos técnicos). Coleta, processamento, captura, armazenamento, pesquisa, compartilhamento – esses são os desafios gerais. Tornando-se um pouco técnico, é difícil trabalhar com Big Data usando a maioria dos sistemas de gerenciamento de banco de dados relacional, exigindo, em vez disso, “software paralelo maciço rodando em dezenas, centenas, ou até milhares de servidores “. O que é considerado” big data “varia dependendo dos recursos da organização que gerencia o conjunto e dos recursos dos aplicativos que são tradicionalmente usados para processar e analisar o conjunto de dados em seu domínio. 3 Big Data, Nuvem, Internet das Coisas são palavras-chave de marketing sensuais para descrever as tecnologias existentes prontas para o mainstream. De fato, na LinuxCon eu estava em uma palestra enfatizando a criação de uma gosma de marketing para ajudar a animar a emoção. As histórias em quadrinhos de Dilbert de 29/07/2012 a partir do arquivo oficial de histórias em quadrinhos de Dilbert. Os Big Data costumavam ser chamados de Analytics / Business Intelligence antes que a indústria sentisse a necessidade de um termo mais sexy. Se você já desenhou um gráfico no Excel a partir de uma coluna de dados, usou uma versão minúscula do “Big Data”. Apenas essa escala é enorme. Big data significa apenas entender um grande volume de dados. Ok, chega de cinismo. Como o Big Data é diferente de “pouco dados”? Vamos supor que você tenha um vazamento em um cano de água em seu jardim. Você pega um balde e um pouco de material de vedação para corrigir o problema. Depois de um tempo, você percebe que o vazamento é muito maior e precisa de um especialista (encanador) para trazer ferramentas maiores. Enquanto isso, você ainda está usando o balde para drenar a água. Depois de um tempo, você percebe que um enorme fluxo subterrâneo foi aberto e você precisa lidar com milhões de litros de água a cada segundo. Você não precisa apenas de novos baldes, mas de uma abordagem completamente nova para analisar o problema, apenas porque o volume e a velocidade da água aumentaram. Para evitar que a cidade seja inundada, talvez você precise que o seu governo construa uma barragem enorme que requer uma enorme experiência em engenharia civil e um sistema de controle elaborado. Para tornar as coisas piores, em todos os lugares a água está jorrando do nada e todo mundo está assustado com a variedade. Bem-vindo ao Big Data. Vou dar um exemplo da minha inicialização anterior. [Mais detalhes: as mídias sociais afetam os mercados de capitais?] Tivemos a hipótese de entender a psicologia do mercado observando os tweets. Por exemplo, se eu quiser prever o movimento das ações da Apple, posso ver os tweets relacionados a: Percepções da mídia sobre a Apple – quantas vezes a empresa / produto é mencionado nas principais mídias. Percepções dos clientes sobre a Apple – são os clientes positivos ou negativo sobre o próximo iPhone 6? As pessoas continuarão comprando a Apple? Percepção dos funcionários sobre a Apple – há algum tweet de Cupertino [a localização da empresa] que possa ser vinculado a alguns funcionários da empresa? Quão felizes ou tristes são as percepções dos investidores sobre a Apple – o que pensam investidores e analistas sofisticados sobre a Apple? A soma de todas essas percepções determinará qual será o preço das ações da Apple no futuro. Acertar isso pode significar bilhões de dólares. Em termos leigos, se pudéssemos realmente entender o que as diferentes pessoas estão falando sobre uma determinada empresa e seus produtos, poderíamos prever um pouco seus ganhos futuros e, portanto, a direção na qual o preço das ações se moveria. Isso seriaUma grande vantagem para alguns investidores.Os MBAs da Babson usam as mídias sociais para prever movimentos no mercado de ações No entanto, o problema é o seguinte: existem mais de 500 milhões de tweets por dia que fluem a cada segundo (alto volume e velocidade). twittar significa – de onde é, que tipo de pessoa está twittando, é confiável ou não. (Alta variedade) Identifique o sentimento – essa pessoa está falando negativo sobre o iPhone ou positivo? (Alta complexidade) Precisamos ter uma maneira de quantificar o sentimento e rastreá-lo em tempo real. (Alta variabilidade) Os principais elementos que tornam o Big Data de hoje diferente das análises de ontem são que temos muito mais volume, velocidade, variedade, variabilidade e complexidade de dados. [chamados de os 5 principais elementos do Big Data.] ApplicationsBig data inclui problemas que envolvem conjuntos de dados e soluções tão grandes que exigem um complexo conectar os pontos. Você pode ver essas coisas em todos os lugares. O Quora e o Facebook usam ferramentas de Big Data para entender mais sobre você e fornecer um feed que, em teoria, você deve achar interessante. O fato de o feed não ser interessante deve mostrar a dificuldade do problema. As empresas de cartões de crédito analisam milhões de transações para encontrar padrões de fraude. Talvez, se você comprou pepsi no cartão, seguido por uma compra de um ingresso grande, poderia ser um fraudador? Meu primo trabalha para uma startup de Big Data que analisa dados climáticos para ajudar os agricultores a plantar as sementes certas no momento certo. A startup foi adquirida pela Monsanto por grandes $$. Um amigo meu trabalha para uma startup de Big Data que analisa o comportamento do cliente em tempo real para alertar os varejistas sobre quando devem estocar coisas. Existem problemas semelhantes em defesa, varejo, genômica, farmácia e assistência médica que exigem uma solução. Os dados são um grupo de problemas e tecnologias relacionados à disponibilidade de volumes extremamente grandes de dados que as empresas desejam conectar e entender. A razão pela qual o setor está quente agora é que os dados e as ferramentas atingiram uma massa crítica. Isso ocorreu em paralelo com anos de esforço educacional que convenceram as organizações de que elas devem fazer algo com seus tesouros de dados.

Qual é a diferença entre Big Data e Machine Learning?

1
Em termos simples, os dados (ou conjuntos de dados) gerados a partir de diferentes fontes ou uma única fonte e com um volume enorme podem estar em GBs, TBs e PBs, chamados Big Data. Há uma enorme quantidade de desafios – armazenamento, recuperação, atualização, análise, extração, curadoria e muito mais – o aprendizado de máquinas faz parte da Inteligência Artificial que ajuda as máquinas a aprender com os dados e resolver problemas. Existem conjuntos de algoritmos como aprendizado supervisionado, aprendizado semi-supervisionado (existem muitos algoritmos como parte deles) que são usados para resolver problemas comerciais específicos. Espero que isso ajude!

2
Big Data – a definição principal de “big data” é qualquer dado estruturado ou não estruturado que atenda aos critérios 3-V, a saber; Volume, velocidade e variedade. Simplificando, big data são dados de grande volume coletados de várias fontes e normalmente transmitidos a uma velocidade sem precedentes. Geralmente, as discussões sobre big data incluem ferramentas de armazenamento, ingestão e extração, geralmente o Hadoop. O Where’s Machine Learning é um subcampo da Ciência da Computação e / ou IA que dá aos computadores a capacidade de aprender sem serem explicitamente programados.

Qual é o melhor site para aprender big data?

1
Aqui está a melhor história para saber sobre big data e como analisá-lo rapidamenteMelhor gerenciamento de big data com análise baseada em pesquisa Abordagem mais inteligente para diminuir seu estresse no big data analyticshttps: //www.linkedin.com/pulse/inside-look-big-data- Para obter mais detalhes, visite: www.quora.com/Can-anyone-give-me-some-tips-on-how-to-analyze-large-amounts-of-dataPara obter mais detalhes, visite https://roosboard.com

2
A melhor maneira é fazer cursos básicos de big data nos sites abaixo. Você encontrará muitos, escolha de acordo com sua necessidade.http: //ocw.mit.eduhttps: //www.coursera.org/edX

3
Você pode pesquisar no Google e encontrar muitos. Se você deseja conteúdo de boa qualidade, visite nosso canal no youtube em SelfReflex. Ou você pode ‘curtir’ nossa página no facebook em SelfReflex. Você pode visitar nosso site Hadoop and Big Data Training | SelfReflex para saber mais sobre big data e registrar-se nos próximos cursos gratuitos e pagos

Como o Big Data está mudando o setor bancário?

1
O Big Data nos setores bancário, de serviços financeiros, do governo e dos setores são as áreas de aplicação predominantes do big data. A demanda por big data tem sido maior do setor de serviços financeiros e deve liderar a demanda. instituições, como bancos comerciais e bancos de investimento, provavelmente aumentarão a adoção de soluções de big data no setor de serviços financeiros nos próximos anos.Para obter mais informações, cadastre-se aqui Transparency Market Research

Como aprendo tecnologias de big data?

1
A melhor maneira de aprender é brincar. O Hadoop é um ecossistema com muitos utilitários construídos sobre ele. A maioria dos utilitários, como Hive, Pig, Oozie, etc, pode ser encontrada no site da Apache. No entanto, cada um deles está em versões diferentes e apresenta problemas de gelificação entre si. Para ter um ambiente controlado no qual cada um deles funcione aparentemente, existem distribuições disponíveis, como Cloudera, HortonWorks, etc. Eu usei o Cloudera CDH4.4 pessoalmente e funciona muito bem, oferecendo o poder do Big Data em suas mãos.

Qual é a diferença entre Hadoop e big data?

1
Não há diferença no Hadoop e no Big Data. Você pode dizer que o Hadoop faz parte do mundo do Big Data. O Hadoop é uma construção de estrutura em Java e é de código aberto atualmente gerenciado pela Apache Software Foundation. O Hadoop é uma ferramenta de gerenciamento para armazenar grande volume de dados no HDFS (Hadoop Distributed File System) Hadoop pode lidar com 3Vs de Big Data que são -VolumeVerity Velocity Essas são três principais fragmentações de Big Data.Big Data é enorme, enorme no sentido de grande quantidade de dados que não podem ser manipulados por uma única máquina.

É necessário que um aspirante a carreira em ciência de dados aprenda big data?

1
O Big Data não é necessário, mas ajudará muito na ciência de dados. O Hadoop é apenas um sistema – o sistema mais comum, baseado em Java, e um ecossistema de produtos, que aplicam uma técnica específica Map / Reduce para obter resultados em tempo hábil. Os cientistas de dados terão que interagir com a tecnologia Hadoop, pois há casos raros em que eles podem ser obrigados a desempenhar uma função de desenvolvedor do Hadoop e de um cientista de dados.

2
Se você não possui habilidades em big data, isso limitará suas oportunidades de trabalho no mundo real.No entanto, a maioria dos modelos está atualmente proveniente de bancos de dados relacionais, desde que você tenha habilidades em SQL e consiga um emprego. , a maioria das pessoas não possui habilidades sólidas em SQL, não possui habilidades suficientes em Python para o mundo real.SQL e Python são as habilidades obrigatórias no aprendizado de máquina aplicado.

3
Para ser claro, big data não é um termo técnico. Geralmente, refere-se a uma coleção de coisas não estruturadas que foram lançadas em um farm de servidores porque não havia recursos suficientes para processá-lo. Para usá-lo, você deve processá-lo na leitura. Pode ser útil depois que você trabalha com ele ou pode ser lixo. É necessário? Há um conjunto de habilidades para trabalhar com dados não estruturados que vale a pena ter e necessário para construir modelos. Mas, pelo amor de Deus, isso o deixará louco, e é munging de dados, não ciência de dados.

Qual é o melhor instituto online para aprender big data e Hadoop para iniciantes?

1 Deseja aprender o Big Data Hadoop, basta consultar minha resposta. O Big Data Hadoop é um software de gerenciamento de dados que permite a você gerenciar e gerenciar os dados de maneira mais rápida e fácil, sem precisar se preocupar com o acesso a dados, o que significa que você pode usar o Big Data Hadoop para criar um grande volume de dados. As estatísticas mostram que a porcentagem de dados gerados nos últimos dois anos é de 90%. Vamos dar uma olhada no infográfico abaixo do Mapa de histórias do Big Data.Esses dados são de vários setores, como informações climáticas coletadas pelo sensor, coisas diferentes dos sites de mídia social , imagens e vídeos digitais, registros diferentes da transação de compra.Este dado é grande volume de dadosPara conhecer o Big Data em detalhes: introdução ao Big DataPor que devemos aprender Big Data? As soluções de Big Data fornecem as ferramentas, metodologias e tecnologias usadas para capturar, armazene, pesquise e analise os dados em segundos para encontrar relacionamentos e insights sobre inovação e ganho competitivo que estavam indisponíveis anteriormente. 80% dos dados gerados hoje i No entanto, a quantidade de dados gerados não era tão alta e continuamos arquivando os dados, pois havia apenas a necessidade de análise histórica dos dados. Mas hoje a geração de dados está em petabytes e não é suficiente. É possível arquivar os dados novamente e recuperá-los novamente. Agora, acima de tudo, a descrição era o básico do Big Data. Depois que o básico do aprendizado se move para o Hadoop, o Hadoop é o coração do Big Data. O que é o hadoop e por que o hadoop? ferramenta de código aberto da ASF – Apache Software Foundation. Sua função é armazenar dados e executar aplicativos em clusters de hardware comum. Fornece armazenamento massivo para qualquer tipo de dados. É um projeto de código aberto, significa que está disponível gratuitamente e até mesmo seu código-fonte pode ser alterado de acordo com os requisitos.Hadoop make é uma plataforma exclusiva: flexibilidade para armazenar e extrair qualquer tipo de dados se é estruturado, semiestruturado ou não estruturado. Ele não é delimitado por um único esquema.Excelente ao processar dados de natureza complexa, sua arquitetura em expansão dimensiona as cargas de trabalho em vários nós. Outra vantagem adicional é que seu sistema de arquivos flexível elimina os gargalos do ETL. Escala economicamente, conforme discutido, ele pode ser implantado em hardware comum. Além disso, sua natureza de código aberto protege o bloqueio do fornecedor.Para obter mais detalhes: Introdução ao HadoopArquitetura do Hadoop.Na arquitetura do Hadoop, você precisa aprender três coisas.HDFSMapReduceYarnHadoop file system system-HDFS é o sistema de armazenamento mais confiável do mundo.HDFS armazena muito grande arquivos em execução em um cluster de hardware comum. Ele trabalha com o princípio de armazenamento de um número menor de arquivos grandes, em vez do grande número de arquivos pequenos. O HDFS armazena dados de maneira confiável, mesmo em caso de falha de hardware. Ele fornece alta taxa de transferência, fornecendo o acesso aos dados em paralelo. Falha no hardwareFalha no hardware não é mais exceção; tornou-se um termo regular. A instância do HDFS consiste em centenas ou milhares de máquinas servidores. Cada um deles está armazenando parte dos dados do sistema de arquivos. Existe um grande número de componentes, que são muito suscetíveis a falhas de hardware. Isso significa que existem alguns componentes que não são sempre funcionais.O objetivo principal da arquitetura do HDFS é a detecção / recuperação rápida e automática de falhas.No HDFS, você precisa se concentrar em tolerância a falhas, reconhecimento de rack e alta disponibilidade, principalmente as perguntas de entrevistas part.HDFS – ArquiteturaHDFS – RecursosHDFS – Operações de leitura e gravaçãoHDFS – Blocos de dadosHDFS – Reconhecimento de rackHDFS – Alta disponibilidadeMapreduceMapReduce é a camada de processamento do Hadoop. O MapReduce é um modelo de programação projetado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes. Você só precisa colocar a lógica de negócios da maneira que o MapReduce funciona e as coisas de resto serão cuidadas pela estrutura. O trabalho (trabalho completo) enviado pelo usuário para o mestre é dividido em pequenos trabalhos (tarefas) e atribuído aos escravos. Mapreduce é a parte mais complexa do Hadoop, pois precisa de programação. Para obter detalhes: MapReduceHope Isso ajuda a 2 boa hora para começar sua carreira neste campo. Hoje há um burburinho para o Big Data Hadoop. Quase a maioria das empresas é transferida para o Hadoop. O melhor é que você pode aprender o Big Data Hadoop facilmente se trabalhar duro. Como não existem pré-requisitos para aprender o Big Data Hadoop. Recomendamos que, se você deseja iniciar sua carreira no Big data Hadoop, primeiro planeje em que perfil do Big data Hadoop você deseja iniciar sua carreira. Porque cada perfil tem habilidades diferentes necessárias. Se você escolher seu campo específico, trabalhe nessecampo específico significa focar na área em que esse campo específico precisa. Deixe-me dar um exemplo para que você possa entender claramente. Suponha que você queira iniciar sua carreira como desenvolvedor do Hadoop e depois se concentrar no MapReduce e na parte de programação. Vamos dar uma olhada diferente Perfis e habilidades do Hadoop necessários para vários perfis: Carreiras e cargos no Big Data HadoopNow, vamos começar a aprender o Big Data hadoop: Para aprender o Hadoop, primeiro, você deve ter bons comandos básicos. Então, sempre comece a aprender do zero. Comece o seu aprendizado com big data e seus desafios em profundidade, então por que o big data é muito importante para aprender, para que você possa se interessar pelo aprendizado, depois disso aprenda a introdução do Hadoop, MapReduce e HDFS, No foco do MapReduce principalmente na função de mapeador e redutor, aprenda como o Hadoop funciona e, em seguida, aprenda seus componentes do ecossistema. No final, não esqueça de resolver as perguntas e os questionários da entrevista. As perguntas da entrevista e os questionários são as ferramentas para o sucesso. Isso o ajudará a aprimorar seu conhecimento. Ao resolver quizzes, você revisará os conceitos que aprendeu. Por fim, instale o Hadoop em sua máquina e comece a trabalhar com o Hadoop para que você possa se aprofundar nos conceitos teóricos e práticos tanto. Vamos começar a aprender em detalhes: Por que aprender Big Data ? Para obter uma resposta para Por que você deve aprender Big Data? Vamos começar com o que os líderes do setor dizem sobre Big Data: Gartner – Big Data é o novo Oil.IDC – O mercado de Big Data crescerá 7 vezes mais rápido que o mercado geral de TI.IBM – Big Data não é apenas uma tecnologia – é um negócio Estratégia – para capitalizar os recursos de informação. IBM – Big Data é a maior palavra da moda, porque a tecnologia possibilita analisar todos os dados disponíveis. McKinsey – Faltam 1500000 profissionais de Big Data até o final de 2018. e melhores maneiras de manter sua posição e estar preparado para o futuro. De acordo com especialistas, a análise de Big Data fornece aos líderes um caminho para capturar insights e idéias para permanecer à frente na dura competição.O que é Big Data? De acordo com o Gartner: o big data é um volume enorme, velocidade rápida e ativos de informações de variedade diferentes que demanda uma plataforma inovadora para insights aprimorados e tomada de decisões.Uma revolução, os autores explicam como: o Big Data é uma maneira de resolver todos os problemas não resolvidos relacionados ao gerenciamento e manuseio de dados, um setor anterior foi usado para lidar com esses problemas. Com a análise de Big Data, você pode desbloquear padrões ocultos e conhecer a visão de 360 graus dos clientes e entender melhor suas necessidades. Você pode assistir ao vídeo abaixo para obter uma introdução ao Big Data: se você estiver interessado em conhecer as principais tendências de big data, consulte link abaixo: Big Picture of Big Data – As 10 principais tendências de big data em 2017Você também pode consultar o link abaixo para conhecer os casos de uso de Big Data: Casos de Uso de Big DataDepois de aprender o Big Data, agora vamos para o Hadoop.Então, inicie o Hadoop com sua introdução: O que é o Hadoop O Hadoop é uma ferramenta de código aberto da ASF – Apache Software Foundation. O projeto de código aberto significa que ele está disponível gratuitamente e podemos até alterar seu código-fonte conforme os requisitos. Se determinadas funcionalidades não atenderem às suas necessidades, você poderá alterá-las de acordo com suas necessidades. A maior parte do código do Hadoop é escrita pelo Yahoo, IBM, Facebook, Cloudera e fornece uma estrutura eficiente para executar tarefas em vários nós de clusters. Cluster significa um grupo de sistemas conectados via LAN. O Apache Hadoop fornece processamento paralelo de dados, pois funciona em várias máquinas simultaneamente. Para obter uma resposta mais detalhada, consulte isso.Após a introdução, vá para o MapReduce e o HDFS.O que é o MapReduce? O MapReduce é o componente principal do Hadoop.Map-Reduce é o componente de processamento de dados do Hadoop. Conceitualmente, os programas Map-Reduce transformam listas de elementos de dados de entrada em listas de elementos de dados de saída.Um programa Map-Reduce fará isso duas vezes, usando dois idiomas diferentes de processamento de listaMapReducePara obter mais detalhes, consulte o link abaixo: Mergulho profundo no MapReduceNow, para saber como Os fluxos de dados no MapReduce referem-se ao link abaixo: Hadoop MapReduce Flow – Como os dados fluem no MapReduce As duas tarefas importantes executadas pelo algoritmo MapReduce são: Mapear tarefa e Reduzir tarefa. A fase Mapa do Hadoop pega um conjunto de dados e o converte em outro conjunto de dados, onde o elemento individual é dividido em tuplas (pares de chave / valor). A fase Hadoop Reduce pega a saída do mapa como entrada e combina essas tuplas de dados com base na chave e, consequentemente, modifica o valor da chave.No exemplo acima, podemos dizer que há dois conjuntos de processos paralelos, o mapa e reduzir; no processo de mapa, a primeira entrada é dividida para distribuir o trabalho entre todos os nós do mapa, como mostra uma figura, e cada palavra é identificada e mapeada para o número 1.os pares chamados pares de tuplas (valor-chave) são criados. No primeiro nó do mapeador, são passadas três palavras leão, tigre e rio. Espero que isso ajude 3 O nome mais conhecido para aprender Hadoop e Big Data Science é upGrad.O Best Institute for Big Data e HadoopupGrad oferece vários cursos de alto nível em ciência de dados. Do diploma PG ao diploma, os cursos variam de 6 a 18 meses e abrangem todos os aspectos do assunto. O esboço principal do curso inclui tutoria completa da programação do Hadoop, Apache, Spark com Python e Scala e o uso de consultas de dados com Os cursos incluem entre 7 e 12 projetos e estudos de caso aos quais os alunos têm acesso. Com ensino totalmente personalizado e orientação individual, é perfeito para profissionais de outras áreas, bem como para engenheiros de software que desejam adicionar novas habilidades ao seu portfólio. . A certificação do curso é feita pelo IIIT-Bangalore e pelo LJMU. A estrutura do curso é projetada de tal maneira que nenhuma experiência prévia em codificação é necessária. Outra opção é Cloudera. Eles fornecem uma certificação CCP reconhecida mundialmente no desenvolvimento do Spark e Hadoop. Se você está procurando um curso que possa acompanhar a sua velocidade, está bem alinhado com o setor e a academia, a opção recomendada é o curso upGrad, especialmente se você ‘ Está procurando acelerar o seu crescimento profissional.

Qual é a diferença entre big data, analytics, ciência de dados, análise de dados, mineração de dados, inteligência de negócios, econometria, estatística, aprendizado de máquina (inteligência artificial) e modelagem matemática?

1
A principal diferença entre o BI e o Data Analytics é que o Analytics possui recursos preditivos, enquanto o BI ajuda na tomada de decisões informada com base na análise de dados anteriores. Atualmente, existem vários softwares disponíveis para BI, Big Data e análise, que podem ser facilmente verificados na web.

Onde estão as maiores empresas de big data?

1
Google (empresa) LinkedIn (empresa) Yahoo! (empresa) Facebook (produto) Twitter (empresa) DataStaxRackspaceAmazon.com (produto) @Walmart Labs (Walmart)

2
O grupo 451 possui um ótimo diagrama mostrando como todas as tecnologias mais recentes se encaixam: http: //blogs.the451group.com/inf …

3
As empresas que estão na vanguarda da promoção do BigData são Cloudera, MapR, HortonWorks, essas empresas desenvolvem ferramentas que popularizam o uso do BigData. Até a IBM, a EMC, a SAP e todas as outras grandes empresas têm uma estratégia da BigData, muito em breve haverá consolidação nesse espaço e descobriremos que todas as startups inovadoras da BigData serão adquiridas por esses gigantes.

Qual é o escopo futuro da análise de big data?

1 Se vista logicamente, sua pergunta tem duas partes: GRANDES DADOS E ANALÍTICA DE DADOS.BIG DADOS: À medida que o mundo está se tornando digital, estamos gerando uma quantidade enorme de dados todos os dias. Esses dados são grandes em volume, altos em velocidade e de natureza diversa. Para lidar com esse tipo de dados, são necessários profissionais da BIG DATA. Esses dados continuarão a crescer exponencialmente ao longo do tempo. Hoje, temos o conceito de BIG DATA para lidar com isso. Amanhã algum outro mecanismo pode surgir. Mas sempre haverá uma demanda de profissionais que possam se alinhar a esse padrão de mudança. ANALÍTICA DE DADOS: Com uma quantidade enorme de dados, existe uma possibilidade infinita de obter informações significativas sobre eles. Nesse momento, vem a parte DATA ANALYTICS. Hoje, os dados estão se tornando o novo dinheiro para as empresas. Com a concorrência pescoço a pescoço e as tecnologias de ponta disponíveis, todas as empresas desejam maximizar sua receita usando os dados que possuem. Seja analítica descritiva, diagnóstica, preditiva ou prescritiva, está se tornando parte integrante do negócio estratégia de desenvolvimento das empresas.Portanto, com certeza haverá oportunidades para profissionais merecedores.PS: – A indústria de TI é dinâmica. Os profissionais de TI devem ser flexíveis para mudar de acordo com as últimas tendências do mercado. Os que sofrem são os que se tornaram obsoletos de acordo com as tendências do mercado. Portanto, em vez de perder tempo pensando no escopo de longo prazo, devemos nos concentrar em adaptar nós mesmos de acordo com a demanda do mercado. Boa sorte! 2 Obrigado pela solicitação. Devo dizer que raramente entendo o que motiva essas perguntas. Então eu tenho que colocar muitas suposições para escrever uma resposta. Minha suposição é que você quer saber o que se passa com a tecnologia atual. Se a pergunta é mais aberta do que essa, bem, a resposta é: ela crescerá, se tornará mainstream e depois será retomada por alguma outra tecnologia. Dado o pressuposto: eu tenho uma boa notícia e outra ruim. A boa notícia é que as pessoas são muito ruins em fazer previsões, para que qualquer tipo de tratamento analítico de dados continue crescendo. A má notícia é que, como somos péssimos, as respostas que você receber aqui provavelmente estarão erradas. Este tem sido o caso repetidamente desde o início dos tempos. 🙂 Pelo que ouvi nos podcasts, o próximo avanço talvez no processamento de fluxo e avanços nos processadores e na memória. Ambos têm o potencial de reiniciar a forma como a análise de big data é manipulada atualmente. No entanto, alguma outra coisa pode aparecer. Um novo algoritmo pode ser inovador, por exemplo. Se isso acontecer, voltamos à prancheta de novo … e de novo … e de novo. Ciência dos dados ou não, big data ou não, a previsão é difícil. Especialmente sobre o futuro. 🙂 3 O Big Data é definido como uma enorme quantidade de dados muito grandes e complexos para serem armazenados nos bancos de dados tradicionais. Os dados evoluíram nos últimos 5 anos. Muitos dados estão sendo gerados todos os dias em todos os setores de negócios. Esses dados estão sendo usados em todos os setores de negócios, como – Mídia social, comércio eletrônico, bancos etc. A seguir, alguns fatos sobre o Big Data para algumas empresas : 40.000 consultas de pesquisa são realizadas no Google por segundo, ou seja, 3,46 milhões de pesquisas por dia. A cada minuto, os usuários enviam 31,25 milhões de mensagens e assistem 2,77 milhões de vídeos no Facebook55 bilhões de mensagens e 4,5 bilhões de fotos são enviadas diariamente no WhatsApp O Walmart lida com mais de 1 milhão de transações de clientes A cada hora, até 2025, o volume de dados digitais aumentará para 163 zettabytes. Agora, surge a pergunta: o que as empresas fazem com volumes tão grandes de dados? Bem, essas empresas coletam, armazenam e analisam esses dados para obter insights de negócios. a partir das estatísticas acima, é bastante evidente que os dados continuarão aumentando. Todos esses dados não nos são úteis se não forem bem analisados. O Big Data, por si só, não faz sentido; somente quando analisamos tudo, podemos extrair informações significativas e usá-las em tempo real. A análise de grandes dados é denominada como o processo de análise de Big Data para extrair informações significativas. . A análise de big data tem muito escopo em vários setores.Todas as empresas têm big data, e a maneira como a analisam para aumentar sua receita é conhecida como big data analytics. A análise de big data é usada em várias aplicações, essas aplicações são usadas para resolver vários problemas em vários setores. Setores como assistência médica, previsão do tempo, governo e aplicação da lei usam aplicativos de big data. Por exemplo, no campo da logística, o big data é usado pelos serviços de courier para analisar o caminho mais curto para entrega. Essa análise leva em consideração vários fatores, como tráfego, clima e assim por diante. Você pode assistir a este vídeo abaixo para obter conhecimento completo de big dataaplicação em vários setores e entender quanto desenvolvimento e progresso a análise de big data pode trazer.

 

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Top 20+ Ferramentas de Big Data para se tornar Cientista de Dados (mesmo sem saber programar)

A esta altura, você já deve saber que Big Data é o volume de dados além da capacidade tecnológica para armazenar, gerenciar e processar de modo eficiente, demandando soluções novas, mudanças de paradigma, abordagens e métodos para o desenvolvimento e implementação de tecnologias para análise de dados.

Atualmente as empresas têm acesso a muita informação, mas não conseguem extrair valor dos dados brutos, muitas vezes por estarem semi ou não estruturados, pois não há soluções adequadas para lidar com este tipo de dado. Muitas empresas sequer sabem se vale a pena manter, ou mesmo não possuem condições de manter os dados, até por não conhecerem todas as possibilidades dos serviços em nuvem e outras alternativas acessíveis para armazenamento e tratamento de dados.

Diante desse cenário, resolvi fazer esse levantamento de ferramentas que muita gente não conhece e que podem ser úteis pra você fazer a diferença.

Sim, você!

Já pensou na quantidade de dados que está lá, parada, escondida numa pasta no servidor de arquivos, numa tabela do banco de dados ou mesmo nas redes sociais apenas esperando que você vá lá e faça um uso delas que ninguém pensou antes, mas que faz toda a diferença pra sua empresa, seu trabalho e até mesmo sua vida?

Pois é!

Preparei essa lista de softwares pra que você possa ter uma noção do arsenal que está à sua disposição, seja qual for o seu perfil, desde programadores, analistas de negócio, estatísticos e até gestores.

Confira as opções abaixo depois me diga nos comentários qual ferramenta faz sentido pra você, combinado?

Vamos lá!

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

 

1 – Apache Hadoop

Não dá pra falar de Big Data sem citar o Hadoop, a primeira solução de uso amplo voltada pra análise de grandes volumes de dados. Na minha opinião, a maior contribuição do Hadoop nem é a questão do cluster, processamento distribuído, mas sim a mudança de paradigma que o Map Reduce proporcionou, reduzindo drasticamente a complexidade de desenvolver um sistema distribuído, e o melhor, seguindo uma lógica simples, que pode até ser comparada por analogia a operações de uso comum em linguagem SQL, como select e group by. Por tudo isso, o Hadoop é item obrigatório no arsenal de conhecimentos de um cientista de dados, e uma das soluções mais usadas do mundo até hoje, embora já tenham anunciado sua “morte” algumas vezes.

Mais informações sobre download, instalação e uso aqui.

 

2 – Spark

O Spark nasceu de uma sacada inteligente pra resolver uma limitação do Hadoop. Por que não trabalhar os dados em memória ao invés de disco? Com isso, o Spark chegou a ser considerado um Hadoop-Killer, mas hoje está claro que a integração dos dois pode fazer sentido em muitos cenários, até porque não faria sentido reinventar a roda e criar um novo sistema de arquivos distribuído, quando o HDFS, maduro e robusto, pode atender as mais diversas situações.

O Spark lida com o gerenciamento de tarefas distribuídas, gerenciamento de memória, recuperação de falhas e todo tipo de desafio que um sistema distribuído está sujeito, incluindo a distribuição dos dados através dos Resilient Distributed Datasets (RDD), uma coleção de itens distribuídos que podem ser manipulados em paralelo (somente leitura).

O Spark suporta várias integrações com outras ferramentas e linguagens, sendo comumente usado através do Python Shell (PySpark Shell).

 

3 – Distribuições Hadoop/Spark

Uma distribuição Hadoop/Spark é mais que uma ferramenta, mas uma suite de soluções, integradas e mantidas por uma empresa ou comunidade que garante a compatibilidade entre as versões dos seus vários componentes, atualizações e suporte em caso de dúvidas e dificuldades.

É importante conhecer este tipo de solução, especialmente para empresas de maior porte, cujo volume de dados a ser analisado demanda uma solução mais robusta, versátil e escalável. Por isso listo a seguir algumas das principais distribuições disponíveis para uso gratuito ou avaliação e testes, seja dentro da empresa ou através da nuvem.

3.1 Cloudera – tem versão gratuita chamada Cloudera Quickstart, que vem no formato de máquina virtual, em que você pode testar as ferramentas integradas, incluindo Hadoop, Spark, Hive, Pig, Hue, HBase, Impala e outras. Os requisitos para executar a VM são pelo menos 8GB de RAM e 2 processadores virtuais. Mais informações sobre download, instalação e uso aqui.

3.2 Hortonworks – era uma alternativa de distribuição, semelhante à Cloudera, mas as duas empresas se fundiram recentemente (janeiro de 2019).

3.3 Amazon EMR – O Amazon Elastic Map Reduce é o serviço de big data da nuvem da empresa do Jeff Bezos, que permite processar grandes quantidades de dados com rapidez, de forma econômica e em grande escala. Tem suporte ao Spark, Hive, HBase, Flink e Presto, além dos serviços de instâncias computacionais Amazon EC2, armazenamento S3, e suporte a notebooks baseados em Jupyter para permitir o desenvolvimento iterativo, a colaboração e o acesso a dados. Mais informações sobre download, instalação e uso aqui.

3.4 Microsoft Azure HDInsight – o serviço de big data da nuvem da Microsoft suporta Hadoop, Spark, HBase, Hive, Kafka, Storm e muito mais, fornecendo uma maneira rápida pra provisionar um cluster para processamento de grandes volumes de dados sem a complexidade envolvida na implantação de um ambiente desses dentro da empresa. A Microsoft tem um apelo muito grande não apenas para quem já é cliente das suas soluções, pela integração com Office e Power BI, por exemplo, mas também pela facilidade que oferece na utilização de suas ferramentas, como o Microsoft Machine Learning Studio. Mais informações sobre download, instalação e uso aqui.

3.5 IBM Watson – A IBM possui parceria com a Cloudera e pode oferecer uma distribuição Hadoop naquele modelo, porém o foco da empresa é mesmo os serviços do Watson, a sua plataforma de computação cognitiva, que inclui os mais diversos serviços de análise de dados nos mais diversos formatos, incluindo tratamento de áudio, reconhecimento de imagens e linguagem natural, dentre outras funcionalidades. Mais informações sobre download, instalação e uso aqui.

 

4 – Knime

O KNIME (Konstanz Information Miner) é uma plataforma gratuita de análise de dados, relatórios e integração de dados. O KNIME integra vários componentes para aprendizado de máquina e mineração de dados através de seu conceito modular de pipelining de dados.

O KNIME é uma ferramenta muito versátil, que traz mais de 1000 módulos, com recursos para tratar, analisar e aplicar várias técnicas e algoritmos aos dados, de forma que você pode usá-lo no Linux, MacOS e Microsoft Windows para as mais diversas tarefas.

Mais informações sobre download, instalação e uso aqui.

 

5 – Neuroph

Neuroph é uma aplicação voltada para a criação de redes neurais artificiais, orientada a objetos e escrita em Java. Pode ser usada para criar e treinar redes neurais, e fornece bibliotecas Java, além de uma versão instalável que permite analisar dados texto, imagem e outros utilizando algoritmos de Inteligência Artificial baseados em redes neurais, como Adaline e Multilayer Perceptron, dentre outras.

Você encontra uma lista de projetos interessantíssimos feitos usando o Neuroph aqui.

 

6 – RapidMiner

RapidMiner é uma plataforma de software de ciência de dados desenvolvida pela empresa de mesmo nome que fornece um ambiente integrado para preparação de dados, aprendizado de máquina, aprendizado profundo, mineração de texto e análise preditiva.

É frequentemente citado em pesquisas sobre soluções utilizadas para análise de dados, e você encontra mais detalhes sobre a solução aqui, incluindo guias para começar a usar e tutoriais com exemplos.

 

7 – WEKA

O pacote de software Weka começou a ser escrito em 1993, usando Java, na Universidade de Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de 2006. O Weka é um software livre largamente utilizado para mineração de dados, e oferece uma lista ampla de algoritmos para análise de dados, podendo ser instalado em qualquer computador com Windows ou Linux. Mais informações sobre o projeto aqui.

 

8 – Auto-WEKA

Auto-WEKA é uma iniciativa da Universidade British Columbia, que visa otimizar os chamados hiperparâmetros de modelos de Machine Learning, usando a ferramenta WEKA, de forma automática, buscando facilitar a escolha e aplicação do melhor modelo para a solução de um problema de análise de dados. Mais informações aqui.

 

9 – MLJAR

MLJAR é um projeto que promete automatizar (ao menos em parte) o processo de aplicar um algoritmo de Machine Learning a um conjunto de dados. A princípio, bastaria fazer o upload dos dados para a plataforma na nuvem, selecionar os campos a serem utilizados pelo algoritmo e, com um clique, executar o modelo. A solução tem uma versão gratuita que permite enviar até 250MB de dados para análise. Mais informações aqui

 

10 – OpenRefine (Google Refine)

Este projeto da Google é um pouco diferente, no sentido de que ele foca no tratamento de dados mais que na sua análise. Intitulada como “uma ferramenta livre, de código aberto, e poderosa para tratar dados bagunçados/sujos”, a solução pode ser instalada na sua máquina, e permite organizar, transformar e extender os dados a partir de fontes externas como web services, além de possuir uma vasta lista de plugins e integrações. Mais informações aqui.

 

11 – Orange

Uma ferramenta de código aberto, para novatos e experts, com recursos de Machine Learning, visualização de dados e workflow interativo. Esta é a Orange, uma ferramenta poderosa, como demonstra a seção de screenshots do site, que vai de aplicação de modelos de Deep Learning para reconhecimento de imagens a modelagem de tópicos a partir de tuites. Confira todo o poder dessa ferramenta aqui e, se gostar, instale hoje mesmo e comece a brincar.

 

12 – Gephi

Gephi é uma ferramenta especializada em grafos, com recursos de visualização e exploração para todo tipo de redes de conexões que possa imaginar. Este tipo de ferramenta vem crescendo muito nos últimos anos pela necessidade de analisar relações entre pessoas, objetos, informações, instituições e muito mais, sendo bastante utilizada em investigações e mapeamento de relações entre pessoas nas redes sociais. Mais informações aqui.

 

13 – OctoParse

Web Scraping ou Raspagem de Dados é a técnica que permite extrair da web, sejam sites de notícias, portais, blogs ou redes sociais, informações diversas que estão “soltas” e organizá-las em planilhas e outros formatos. OctoParse é uma ferramenta que promete facilitar este processo para não programadores, com poucos cliques.

A rigor, já encontramos hoje recursos que facilitam bastante as tarefas de raspagem de dados, em ferramentas como Power BI, Qlikview e similares, uma vez que os dados não estruturados são a maior parte na web, não poderiam ser ignorados.

Ainda assim, uma solução especializada e que conta com versão gratuita, tem seu valor. Confira tudo sobre a OctoParse aqui.

 

14 – R/RStudio

A linguagem R é certamente um dos itens obrigatórios na caixa de ferramentas do cientista de dados. Não apenas por ser uma linguagem nativamente orientada a dados (o que me fez ficar fã da linguagem!), mas também por contar com uma vasta biblioteca de recursos para todo tipo de necessidade, seja fazer web scraping de uma página ou rede social, seja criar um robô pra fazer análise de dados financeiros da bolsa de valores e até criptomoedas e Bitcoin, pra ficar somente em dois exemplos que estou envolvido.

Uma linguagem de programação não é o caminho mais fácil para não programadores, certamente. Por outro lado, oferece uma infinidade de possibilidades, inigualável por qualquer outra ferramenta. Afinal, com uma linguagem de programação, tudo é possível, e ainda que não exista biblioteca pronta para sua necessidade, você pode criar uma.

Além disso, as linguagens atuais fornecem tantos recursos facilitadores, que costumo repetir o que li há algum tempo num site especializado: construir software hoje é mais sobre encontrar e combinar os componentes certos que resolvem o problema, do que escrever código (não eram exatamente essas as palavras, mas a ideia é a mesma).

 

15 – Python & Jupyter Notebook

Se o R pode ser considerada mais que uma linguagem de programação, e há quem chame de plataforma, o que dizer do Python, que cresce de forma tão impressionante que já está se tornando a solução padrão para diversos casos de uso, em especial na área de Machine Learning e Deep Learning.

Jupyter Notebook é um ambiente de desenvolvimento web que agrega, além da interatividade e facilidade típicas de um ambiente de navegador, a ideia de notebook, uma tendência que favorece a chamada reprodutibilidade da análise de dados. Ou seja, ao combinar código e texto no mesmo projeto, é mais fácil documentar os detalhes de forma a simplificar o processo de repetição da análise, seja para melhorá-la ou validar os resultados obtidos.

A combinação do Jupyter com o Python é muito comum e há soluções como Anaconda que trazem várias bibliotecas e recursos embutidos visando facilitar ainda mais o desenvolvimento de análises de dados.

 

16 – Pig

Apache Pig é uma plataforma de alto nível para criar programas que são executados no Apache Hadoop. A linguagem para esta plataforma é chamada Pig Latin. O Pig pode executar suas tarefas do Hadoop no MapReduce, Apache Tez ou Apache Spark.

Importante mencionar que o código escrito em Pig Latin é “convertido” para jobs Map Reduce. Isso significa que o Pig é uma abstração que permite criar soluções em linguagem mais simples, que será interpretada e transformada em tarefas apropriadas para execução distribuída.

Você encontra um excelente tutorial com exemplos dos recursos do Pig aqui.

 

17 – Hive

Apache Hive é um projeto de software de data warehouse construído sobre o Apache Hadoop para fornecer consulta e análise de dados. O Hive fornece uma interface semelhante a SQL para consultar dados armazenados em vários bancos de dados e sistemas de arquivos que se integram ao Hadoop.

Seguindo a mesma linha do Apache Pig, o Hive permite simplificar a execução de tarefas no de processamento de dados no Hadoop com uma linguagem SQL-like, uma abordagem comumente denominada pelo mercado de “SQL-on-Hadoop”, que é interpretada e transformada em jobs Map Reduce para execução no Hadoop.

Mais detalhes sobre o projeto, documentação e uso aqui.

 

18 – Sqoop

Sqoop é um aplicativo de interface de linha de comandos para transferir dados entre bancos de dados relacionais e o Hadoop. Uma ferramenta simples porém essencial pra quem precisa levar os dados do ambiente legado de banco de dados para a plataforma Hadoop, usando o HDFS para armazenamento desses dados visando a construção de um Data Lake que permita ampliar as possibilidades de análise de dados da organização.

 

19 – Flume

Apache Flume é um software distribuído, confiável e disponível para coletar, agregar e mover com eficiência grandes quantidades de dados de log. Tem uma arquitetura simples e flexível baseada em dados de fluxo contínuo.

Tive a oportunidade de orientar um aluno num trabalho de coleta de dados do Twitter usando a distribuição da Cloudera, sendo o Flume usado para coletar e armazenar os dados no HDFS do Hadoop, e o Solr usado para indexar e consultar as informações posteriormente visando analisar o conteúdo compartilhado na rede social durante o período da coleta, que se deu próximo às eleições de 2014.

 

20 – Opinion Crawl

Mais um serviço que uma ferramenta, Opinion Crawl permite obter a análise de sentimento em tempo real para vários tópicos, desde economia a Charlie Sheen :). Confira o serviço aqui.

Conclusão

E então?

O que achou da listinha de ferramentas?

Qual a sua preferida?

Sentiu falta de alguma solução?

Comenta aí!

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

 

Estou procurando uma ferramenta de big data para criar perfil de empreendedores e realizar um estudo longitudinal?

1
Olá Carter, o Watson analytics inclui alguns recursos que podem torná-lo ideal para o seu aplicativo. Inclui ferramentas de preparação e seleção de dados que podem ser um problema em um estudo longitudinal. Ele também inclui recursos preditivos, que podem ajudá-lo a avaliar a força dos relacionamentos nos dados. O WA entende CSV e muitos outros formatos de arquivo e possui seu próprio repositório, portanto não é necessária a integração. Parece que você está próximo do início de sua jornada, portanto, a versão gratuita pode ser tudo o que você precisa por um longo tempo. Https://www.ibm.com/analytics/wa…

 

Além do Hadoop, que outras ferramentas de big data podemos usar?

1
Isso realmente depende do que você está tentando fazer. “Ferramentas” é um tópico amplo. Existem ferramentas de transformação para ajudar a limpar os dados em algo utilizável. Trifacta é um bom começo para isso. Existem ferramentas para consultar os dados – Spark, Hive / Impala (para sql, como recurso de consulta). Existem ferramentas para usar os dados no Machine Learning, o Spark possui sua própria biblioteca ML, mas também há o Data Robot. Também existem ferramentas de visualização como o Qlik, que podem ler dados do HDFS e criar tabelas, gráficos e outras visualizações de Big Data agregado.

2
O melhor é a Spark. # DforDataScience – Aprenda ciência de dados O Easy WaySpark é a mais poderosa e alternativa ao Hadoop.É executado no topo do Hadoop e possui seu próprio cluster.park é a pilha completa.Tem sua própria máquina Além disso, ele possui um próprio SQL chamado spark SQL.Além disso, ele possui um spark streaming e processamento grapx.

 

Quais são as ferramentas de big data que devo conhecer para a ciência de dados? Quão bem eu devo conhecer essas ferramentas? Aprender ‘extrair dados de DWH para R’ é suficiente?

1
As ferramentas para movimentação de dados (por exemplo, ETL, REST) podem ser bastante úteis, pois permitem acessar e navegar facilmente pelas fontes de dados para análise. Além de extrair do DWH para o R, eu aprenderia também a enviar dados novamente para um banco de dados – ou melhor – encontre maneiras de seu código R ser executado no banco de dados para permitir que você dimensione sua atividade.

2
Depende do que você quer fazer. A maioria das pessoas começará como analista de dados. R ou Pythons são mais que suficientes para esse papel. Se você progredir no campo, precisará entender SQL e Apache Spark e / ou Hadoop. Eles tendem a ser específicos da empresa e, quando você ficar esperto em um deles, estará trabalhando em empresas que usam variações semelhantes do que aprendeu.

 

Como as empresas estão usando a análise de big data?

1
Muitas empresas se adaptaram a novas tecnologias, como o Big Data, para facilitar a análise de dados complexos. É difícil classificar, analisar e tomar uma decisão sobre dados complexos. Bem, o Big Data resolve o problema de manipular dados variados e permite a extração sistemática de informações ou lida com conjuntos de dados muito grandes e complexos, difíceis de lidar seguindo os processos tradicionais de análise de dados. Tenho um exemplo perfeito desse sucesso história. Mergulhe no estudo de caso para saber como a ferrovia Classe I implementou o Big Data e alavancou o processo de tomada de decisão

2
80% dos dados nas empresas não são estruturados. A IA e as análises avançadas melhoram a experiência do cliente, reduzem as despesas operacionais e de negócios e melhoram os esforços de conformidade. Aprenda a começar com o Opentext-magellan.

 

Qual é o escopo do Big Data Testing? Sugira algumas boas ferramentas para teste de big data.

1
Big Data refere-se a todos os dados que estão sendo gerados em todo o mundo a uma taxa sem precedentes. Esses dados podem ser estruturados ou não estruturados. As empresas de negócios de hoje devem grande parte de seu sucesso a uma economia firmemente orientada para o conhecimento. Os dados impulsionam as organizações modernas do mundo e, portanto, compreendem esses dados e desvendam os vários padrões e revelam conexões invisíveis dentro do vasto mar de dados que se tornam críticos e um esforço imensamente recompensador. Melhores dados levam a uma melhor tomada de decisões e uma maneira aprimorada de criar estratégias para as organizações, independentemente do tamanho, Big Data Hadoop, Spark, Storm, Scala – Classes de treinamento on-line | Big Data Hadoop, Spark, Storm, Scala – Combo Courses Geografia on-line, participação de mercado, segmentação de clientes e outras categorizações. As empresas mais bem-sucedidas de amanhã serão as que conseguirão entender todos esses dados em volumes e velocidades extremamente altos para capturar mercados e base de clientes mais novos.O Big Data possui certas características e, portanto, é definido usando 4Vs, a saber: Volume: the A quantidade de dados que as empresas podem coletar é realmente enorme e, portanto, o volume dos dados se torna um fator crítico nas análises de Big Data.Velocidade: a taxa na qual novos dados estão sendo gerados, tudo graças à nossa dependência da Internet, sensores, máquinas, os dados da máquina também são importantes para analisar o Big Data em tempo hábil. Variedade: os dados gerados são completamente heterogêneos no sentido de que podem estar em vários formatos, como vídeo, texto, banco de dados, dados numéricos, dados do sensor etc. portanto, entender o tipo de Big Data é um fator-chave para desbloquear seu valor.Veracidade: saber se os dados disponíveis são provenientes de uma fonte confiável e são de extrema importância antes de decifrar e implementar Aqui está uma breve explicação de como exatamente as empresas estão utilizando o Big Data: Depois que o Big Data é convertido em pepitas de informações, torna-se bastante simples para a maioria das empresas, no sentido de que agora elas sabem o que seus clientes deseja, quais são os produtos que estão se movendo rapidamente, quais são as expectativas dos usuários em relação ao atendimento ao cliente, como acelerar o tempo de colocação no mercado, maneiras de reduzir custos e métodos para criar economias de escala de maneira altamente eficiente. Assim, o Big Data distintamente leva a grandes benefícios para as organizações e, portanto, naturalmente existe um interesse tão grande por todo o mundo.

 

Como geralmente os big data são processados e visualizados? Quais ferramentas são usadas?

1
Depende da infraestrutura que você possui e do caso de uso. Vamos dividir o Hadoop em: MapReduce (estrutura de processamento) e HDFS (armazenamento de dados). O Spark (estrutura de processamento) geralmente é integrado ao HDFS (estrutura de armazenamento). Além disso, o Spark requer um gerenciador de cluster para que possa ser usado no Hadoop YARN ou Apache Mesos.Real time? O Spark pode ser até 10 vezes mais rápido que o MapReduce para processamento em lote e até 100 vezes mais rápido para análises em memória. O MapReduce opera em etapas, o Spark opera em todo o conjunto de dados de uma só vez. Mas isso significa que você precisa de uma quantidade comparativamente maior de memória para poder usar o Spark. A maneira como a tolerância a falhas é tratada também é diferente. No Hadoop, os dados são gravados no disco após cada operação, tornando-os resilientes a falhas ou falhas do sistema. O Spark tem resiliência interna semelhante. No Spark, os objetos de dados são armazenados nos chamados conjuntos de dados distribuídos resilientes distribuídos pelo cluster de dados.

2
Apache spark é o bebê atual. A limpeza de dados e o ETL ainda são uma tarefa árdua e não há uma maneira ‘boa’ de fazê-lo. Mas existem produtos por aí, como trifacta, tamr etc. etc. Ainda bastante beta. No entanto, quanto à visualização, os dados geralmente processados e agregados são pequenos o suficiente para ser visualizado em qualquer pacote std viz. A maioria dos grandes fornecedores de dados como AWS, azure, pivot etc. também fornece o pacote viz. Mas você pode usar de prateleira como tableau, qliksense ou até criar seu próprio viz em d3 ou webgl.

3
7 ferramentas principais para domesticar o big data. Eu acho que isso iria ajudá-lo um pouco.

 

Como você calcularia a mediana de um grande conjunto de números (digamos 100 milhões) sem usar as ferramentas de Big Data?

1
Eu usaria SQL.100 milhões de linhas não são tão grandes. O código abaixo é o que eu usaria nas minhas caixas SQL para calcular a média. Temos tabelas com vários bilhões de linhas.SELECTAVG (ALL val) FROMt; ** Código mediano abaixo: ** SELECT @Median = AVG (1.0 * val) FROM (SELECT o.val, rn = ROW_NUMBER () OVER (ORDER BY o .val), c.cFROM dbo.EvenRows AS ou CROSS JOIN (SELECT c = COUNT (*) FROMdbo.EvenRows) AS c) AS x ONDE rn IN ((c + 1) / 2, (c + 2) / 2 );

2
Embora esse tamanho de um conjunto de dados esteja certamente entrando no domínio do Big Data, muitos pacotes estatísticos tradicionais (por exemplo, SAS) poderiam lidar com isso. Além disso, isso pode ser feito sem um pacote de estatísticas, por exemplo, ordenando os números, contando quantos existem e depois contando até o ponto médio.

3
Como você encontra a mediana de um grande conjunto de números? Ordene os valores do menor para o maior. Se o conjunto de dados contiver um número ímpar de valores, escolha aquele que está exatamente no meio. Você encontrou a mediana. Se o conjunto de dados contiver um número par de valores, pegue os dois valores que aparecem no meio e calcule a média deles para encontrar a mediana.Sourcehttps: //www.dummies.com/educatio

 

Os partidos políticos podem realmente aproveitar as ferramentas de Big Data e as soluções de análise de dados para alcançar prováveis eleitores?

1
Você primeiro precisará entrar em contato com os Eleitores que não votarão. Para alcançar um grande público, o Digital é o caminho a seguir. Email / SMS / Banner / Ads / Search Ads e muitos outros podem ajudar diretamente a chegar ao fim Você precisará do Big Data and Analytics para analisar sua resposta e estimar quem votará em quem etc. Você pode combinar essas informações com dados disponíveis ao público (como respostas do Quora :), feeds do Twitter e feeds do FB públicos ) e, em seguida, decida ir atrás de um endereçamento mais direcionado…

 

Qual é o livro mais recomendado para aprender o Apache Spark e outras ferramentas de big data?

1
Você não perderá seu tempo com livros, nem quer responder por muito tempo, jargão e sofisticado. Apenas uma palavra para aprender big data é: O site chamado “ITVERSITY” DE DURGA RAJUAND SE VOCÊ NÃO TEM BOM HARDWARE, COMPRE O CLOUDLAB TAMBÉM OFERECIDO POR ELE NÃO UM PATROCINADOR NEM EU QUERO QUE VOCÊ DESPERDIÇA O SEU TEMPO. SE VOCÊ SENTE QUE QUER REALMENTE APRENDER, TENTE A ITVERSIDADE E LEMBRE-SE “NESTE MUNDO NADA É GRATUITO”, então siga o princípio do pagamento e aceite esse caminho de aprendizado.

2
Não é necessário procurar nenhum livro para aprender Sparks e outras ferramentas de big data, pois o dataflair tem ótimos tutoriais disponíveis gratuitamente em seu site. Estes são completamente do zero ao nível avançado, onde cada tópico é abordado com práticas para fornecer conhecimentos.Para iniciantes, você deve ter o conhecimento dos tópicos abaixo: Introdução ao SparkInstalação e recursosComandos de shellRDDs e maneiras de criá-losPara nível intermediário, você deve saber : Mapa versus FlatMapAvaliação preguiçosaTolerância a falhasDAGSparkRTópicos avançados no Spark incluem tópicos como: Spark SQlDataFramesDatasetsAjuste de desempenhoS Streaming de parqueGraphXSpark MLlibTodos esses itens são abordados de maneira adequada em Learn Spark – Spark Tutorials – DataFlair para entrevista depois de aprender a tecnologia corretamente. Para realizar vários projetos no spark, o dataflair tem um bom curso, que você pode conferir no link abaixo: Curso certificado de treinamento Apache Spark e Scala – DataFlairSo comece a aprender agora e aumente sua carreira.Todo o melhor !!!

3
Os 10 melhores livros para aprender Apache Spark2 | Análise avançada com Spark: padrões para aprender com dados em escala Por Sandy Ryza. … 3 Spark: O Guia Definitivo: O Processamento de Big Data Simplificado por Bill Chambers. … 4 Apache Spark em 24 horas, Sams ensina-se por Jeffrey Aven. … 5 | Aprendendo Apache Spark 2 por Muhammad Asif Abbasi.

 

Quais são algumas startups promissoras de Big Data (tanto financiadas quanto não financiadas) e talvez alguns aplicativos ou pilhas de OSS (uma startup nem sempre precisa ser uma empresa)?

1
HortonWorkshttp: //hortonworks.com/

2
Factual (empresa) – http://www.factual.com

3
Olá. Aqui estão algumas das principais descobertas sobre big data: • 80% das organizações vêem o processamento de Big Data como missão crítica • Para empresas que lidam com Big Data, a necessidade de funcionalidade em tempo real é significativa e crescente. A necessidade de soluções de streaming para lidar com os desafios do Big Data e acelerar o processamento de Big Data está aumentando. • 80% das empresas planejam mover seu Big Data para a nuvem ou estão considerando a opção. Você pode ler mais sobre isso aqui ! http: //www.rickscloud.com/big-da … isso é útil!

 

Existem mestres na aplicação de ferramentas de big data / aprendizado de máquina a problemas de medicina (por exemplo, câncer)?

1
Resposta do usuário-11174886681697790289 da Existem exemplos de organizações das ciências da vida alcançando resultados na descoberta de medicamentos por meio de aprendizado de máquina que não seriam possíveis sem o aprendizado de máquina? pode ajudar.

 

Quais são alguns dos melhores blogs sobre desenvolvimentos / inovações em ferramentas / tecnologias de big data?

1
O Kdnuggets – Analytics, Data Mining e Data Science é um bom blog e possui links para materiais de treinamento Smarter Computing Blog – Mantido pela IBM, que inclui artigos sobre Big Data e computação em nuvemPlanet Big Data – Um agregador de blogs mundiais sobre Big Data, Hadoop, e tópicos relacionados. Big Data | Blogs da Forrester – Uma agregação de blogs e artigos de especialistas empresariais com foco em tópicos de Big Data Hadoop Wizard – Um site dedicado a ajudar as pessoas a aprender como usar o Hadoop para análises de “Big Data”

2
Análise computacional: um caminho para melhorar a análise de big datahttp: //blog.qburst.com/2014/10/c … Análise preditiva: http: //blog.qburst.com/2014/11/p

3
O site Big Data and Analytics Blog – Experfy Insights é de longe o meu favorito entre os sites nos quais estou inscrito. Tenho tudo o que preciso para me manter atualizado sobre tudo o que diz respeito a big data, IA e qualquer outro assunto relacionado à tecnologia. Você também pode se inscrever para obter descontos em sua próxima compra com eles.

 

Como substituo o aplicativo Oracle PL / SQL por ferramentas de Big Data, como Hive e Spark?

1
Como você estruturou os dados de um RDBMS, aparentemente não há vantagem real em usar um banco de dados NOSQL baseado no Hadoop. Um SQL no hadoop como o Hive funcionaria bem para você … Você pode usar ferramentas como o Sqoop para mover convenientemente dados do seu RDBMS para o Hive ou até para o HDFS. A vantagem de usar o Sqoop é que ele cria automaticamente a mesma estrutura de tabela no Hive como ele existe originalmente no RDBMS.No entanto, o principal desafio não é mover dados do RDBMS para o Hadoop, mas o principal desafio está na transferência do código PLSQL existente para o Hadoop. Eu tive que corrigir esse problema ao migrar um data warehouse existente baseado em Oracle para o Hadoop há alguns meses. Aqui estão algumas soluções para o problema: Tente usar o HPLSQL, que é uma extensão do Hive. É uma ferramenta primitiva que ajuda a executar consultas PLSQL / T-SQL e DB2 no Hive. mas esta ferramenta não tem suporte…. as mensagens de erro são enganosas e algumas funcionalidades não funcionam bem…. Pode ser necessário obter o código-fonte do GitHub e alterá-lo de acordo com as necessidades do seu projeto. Tente usar o “Oracle Big Data SQL”, caso o seu banco de dados herdado seja o Oracle. Funciona como um encanto e você poderá executar consultas PLSQL e procedimentos armazenados no Hive usando-o. Esta é a abordagem que eu adotei. Tente usar o Presto .. Ouvi coisas boas sobre ele, mas nunca o usei em um projeto ao vivo. O melhor da sorte com a migração .. 🙂

2
Os aplicativos podem ser categorizados, ou seja, OLTP, puro, misto, processado em lote, mini-lotes, misto e também consistência transnacional, número de usuários, tempo de resposta SLA, complexidade de sua relação de requisitos / dados, consulta, padrão de manutenção de dados etc. até você especificar algumas das opções acima, é difícil responder. Além disso, a partir de agora, o modo como está indo será transferido para a chamada “fonte aberta” / pilha de Big Data, como é hoje em dia, assim como “How on Earth Fast and Furious pode ganhar tanto dinheiro, embora a franquia seja pura dor de cabeça, exceto pode ser a primeira ”.

 

Quais são as ferramentas de big data mais sofisticadas e escalonáveis para a descoberta de conhecimento?

1
Originária de Oreilly, esta imagem deve explicar praticamente todas as coisas relacionadas ao conjunto de ferramentas, você em termos simples, com uma ampla escala de conjunto de ferramentas e seu objetivo em cada estágio da ciência de dados.

 

Onde posso encontrar grandes conjuntos de dados abertos ao público?

1
Eu fiz um post no blog sobre dados abertos há muito tempo (http: //bret.appspot.com/entry/we …) e o ReadWriteWeb fez um bom resumo com base em todos os comentários do post: http: / /www.readwriteweb.com/arch….Desde essa postagem, houve muito mais comentários no blog (105 e contando), portanto, você pode querer combinar os comentários de qualquer pessoa que a postagem do RWW tenha perdido.

2
Pete Warden resume algumas das opções aqui que ele cobre no “Data Source Handbook” de O’Reilly: http: //petewarden.typepad.com/se…Aqui estão 18 links relacionados a dados que Warden aponta, além de o que está coberto no livro – para aqueles que desejam aprender mais: http: //petewarden.typepad.com/se

3
Existem alguns corpora de texto aqui: Onde posso encontrar grandes conjuntos de dados abertos ao público? Se você está procurando uma vasta fonte de literatura de domínio público, o Project Gutenberg é maravilhoso: http://www.gutenberg.org/wiki/Ma … O Arquivo do Discurso Presidencial: http://millercenter.org/scripps/… Discursos de Hitler: http://www.hitler.org/speeches/Os Vedas: http://www.sacred-texts.com / hin / The Gita: http://www.gita4free.com/english…The Bible: http://patriot.net/bmcgin/kjvpa… Dê uma olhada no arquivo do NYT: http: // www .nytimes.com / ref / membe

 

Existe uma ferramenta de big data on-line que eu possa usar gratuitamente ou por uma pequena taxa?

1
Você pode experimentar o HDInsight da Microsoft, que é o Apache Hadoop em execução no Azure. É grátis para experimentar, mas custará o uso contínuo. HDInsight | Cloud Hadoop

 

Quais são as melhores ferramentas de software de big data?

1
Já abordamos a questão: Quais são as boas ferramentas para análise de big data? Essencialmente, comece com qualquer distribuição do Hadoop e você já possui um conjunto de ferramentas bastante poderoso.

2
Ferramentas de integração de big data é um termo usado para uma coleção de conjuntos de dados tão grandes e complexos que é difícil processar usando aplicativos / ferramentas tradicionais. São os dados que excedem o tamanho de Terabytes. Devido à variedade de dados que ele abrange, o big data sempre traz vários desafios relacionados ao seu volume e complexidade. Uma pesquisa recente diz que 80% dos dados criados no mundo não são estruturados. Um desafio é como esses dados não estruturados podem ser estruturados antes de tentarmos entender e capturar os dados mais importantes. Outro desafio é como podemos armazená-lo. Hoje, quase todas as organizações usam extensivamente o big data para obter uma vantagem competitiva no mercado. Com isso em mente, as ferramentas de big data para processamento e análise de big data são a escolha mais útil das organizações, considerando o custo e outros benefícios. Agora, quando falamos em ferramentas de big data, vários aspectos aparecem em cena. Por exemplo, quão grandes são os conjuntos de dados, que tipo de análise faremos nos conjuntos de dados, qual é a saída esperada etc. Portanto, em termos gerais, podemos categorizar a lista de ferramentas de big data nas seguintes categorias: com base em armazenamentos de dados Como plataformas de desenvolvimento, como ferramentas de desenvolvimento, ferramentas de integração para ferramentas de análise e relatórios.Por que existem tantas ferramentas de big data de código aberto no mercado? A maioria dos grupos ou organizações ativas desenvolve ferramentas de código aberto para aumentar a possibilidade de adoção na indústria. Além disso, é fácil baixar e usar uma ferramenta. Se olharmos atentamente para a lista de ferramentas de big data, ela pode ser desconcertante. Como as organizações estão desenvolvendo rapidamente novas soluções para obter uma vantagem competitiva no mercado de big data, é útil concentrar-se nas ferramentas de big data de código aberto que estão impulsionando a indústria de big data. Um exemplo perfeito disso seria Rivery.

3
As cinco principais ferramentas de software de Big Data: 1. Máquina de emendaEsta ferramenta oferece a capacidade de utilizar o SQL padrão e pode ser expandida em hardware comum; é uma ferramenta para desenvolvedores que descobriram que o MySQL e o Oracle não podem ser dimensionados para os limites desejados. O MarkLogicMarkLogic foi desenvolvido para lidar com cargas pesadas de dados e permitir que os usuários acessem por meio de atualizações e alertas em tempo real, além de fornecer dados geográficos combinados com a relevância do conteúdo e da localização, além de ferramentas de filtragem de dados. Essa ferramenta é ideal para quem busca o desenvolvimento de aplicativos de pesquisa de conteúdo pago. Esta ferramenta gratuita vem com vários recursos para a visualização de dados de um site, como mapas em árvore hierárquica ou apenas gráficos simples.Esta ferramenta é facilmente implementada incorporando código JavaScript em um site e permite classificar, modificar e filtrar dados, bem como o capacidade de se conectar a um banco de dados ou extrair dados de um site. MongoDBEste é um banco de dados documental de código aberto, ideal para desenvolvedores que desejam ter controle preciso sobre os resultados finais. Isso é fornecido com suporte completo ao índice e flexibilidade para indexar qualquer atributo e dimensionar horizontalmente sem afetar a funcionalidade. As consultas baseadas em documentos e o GridFS para armazenamento de arquivos significam que você não deve ter problemas para comprometer sua pilha.5. O SplunkSplunk é especializado em aproveitar dados de máquinas criados a partir de várias fontes diferentes, como sites, aplicativos e sensores. A empresa também permite que os desenvolvedores escrevam código usando qualquer plataforma, linguagem ou estrutura de tecnologia. As ferramentas de extensão foram desenvolvidas para os desenvolvedores do Visual Studio for .NET criarem aplicativos e usam o Splunk SDK para C # .Você está interessado em aprender ferramentas de Big Data – Clique em Aqui

 

Você sugere aprender Python ou ferramentas de big data para conseguir um emprego em ciência de dados?

1
Aprender Python é um bom começo, mas está longe de ser suficiente.É apenas uma ferramenta.Você precisa aprender: Como ler dados de diferentes fontesLimpar e inserir dadosFazer análises estatísticas simplesFazer gráficosEncontrar informações valiosas para o lado comercial e assim por diante.

 

Big Data: Existe uma convenção para ferramentas de software relacionadas a big data, estruturas de programação etc.?

1
Existem dois objetivos principais com o Big Data. Analítica (primária) e Redução de custos (secundária). A redução de custos baseia-se principalmente na ideia de substituir bancos de dados e datawarehouse caros por código aberto. Se você analisar agora a análise, provavelmente desejará criar um data lake com Big Data. Aeroespacial coleta muitos dados e esses dados podem ser ingeridos em clusters do Hadoop para análises posteriores. Não conheço nenhuma ferramenta específica para o setor aeroespacial, mas provavelmente a configuração mais benéfica para sua empresa seria um engenheiro de dados excepcional para coletar dados e um excelentes cientistas de dados que o interpretam. Ambos os perfis são difíceis de obter.

2
O mundo aeroespacial e aviônico está à beira de uma nova era com o Big Data, nós sabemos. Porém, devido às normas de segurança DO-178, ED109, as tecnologias não se desenvolveram tão rapidamente quanto as outras indústrias nos últimos dois anos. A outra questão pode ser os casos de uso e os dados são tão importantes que o setor não os compartilha com os pesquisadores e empresas que trabalham com Big Data (quero dizer, tão raro). Os artigos a seguir dão uma perspectiva do que as fronteiras (IBM, Hadoop, Hortonworks etc.) estão produzindo sobre o big data e sua análise para a indústria aeroespacial. Aeroespacial, energia e big data: como o Fundo de Conhecimento pode afetar os resultados da Reno – Big Dados simplificados – uma fonte. Muitas perspectivas. IBM Platform Computing Solutions: Resumo da (s) solução (s) aeroespacial e de defesa Publicações BDI – Hortonworks Bem-vindo ao Apache ™ Hadoop®! Cumprimentos

3
Independentemente do setor em que você está, as ferramentas com as quais você deve se familiarizar serão as estruturas de código aberto mais populares e as ferramentas associadas a elas. Os eventos Strata de O’Reilly (Strata + Hadoop World Conference) e o Smart Data / NoSQL Now da Dataversity (Smart Data Conference 2015 e The Premier NoSQL Conference & Expo) são bons lugares para se manter atualizado sobre ferramentas e técnicas de big data e análise de código aberto e tendências. A pesquisa no YouTube exibirá vídeos de sessões de eventos anteriores que você pode ver. Os encontros locais são outra boa maneira de acompanhar os desenvolvimentos nessa área.

 

Qual é o melhor laptop (econômico) da Índia para SAS, Tableau, outras ferramentas de big data / analytics e photoshop?

1
Escolha uma instância baseada na AWS e compre um laptop barato (HP stream 13) ou um chromebook. Você pode conectar-se aos espaços de trabalho da AWS a partir de um aplicativo de navegador e possui um computador baseado em nuvem que pode ser descartado a qualquer momento. Você pode salvar todo o seu trabalho na nuvem. Quando o seu laptop morre após 4 anos, você pode simplesmente substituir a máquina e continuar como se nada tivesse mudado.

2
É necessário comprar um laptop com 8 GB de RAM, disco rígido e processador de 1 TB e pode ser qualquer coisa entre i3, i5, i7 (3a a 6a geração, com base no seu orçamento). Eu recomendaria encontrar alguns laptops da DELL com o disco rígido i3 ou i5 + 8GB RAM + 1 TB. Os revendedores dirão que você deseja que a placa gráfica diga não. Se você encontrar laptop sem placa gráfica, ele economizará seu dinheiro e não terá função no SAS, Tableau. E o laptop de menino apenas com Unix, economiza entre 3000 e 5000 rúpias. Você pode tirar janelas de qualquer loja de TI e hardware ou elas serão instaladas tomando 200 rúpias. Espero que isso ajude.

3
Eu recomendo o Dell Inspiron 11 3000 Series.O laptop em si é muito atraente, com um acabamento prateado cinza brilhante nos componentes externos e um preto frio na área do teclado.Performances: Processador: Intel Pentium N3530 CPURAM de 2,16 GHz CPURAM: 4GBTamanho da unidade: 500GB A bateria do seu notebook é a mais cara do mercado, com um custo de manutenção de R $ 10.000,00.

 

As ferramentas de big data podem ajudar a apagar o ciclo econômico?

1
Improvável. Embora o “big data” seja novo em algumas indústrias, o governo federal possui big data há muito tempo, desde os anos 70, e muitas pessoas inteligentes o observam, e basicamente não chegam a lugar algum. muitas novas técnicas sofisticadas que podem ser aplicadas com as quais os analistas do governo não estão familiarizados. E muito mais poder computacional, o que permite certos tipos de cálculos que não podiam ser feitos antes. Mas o big data por si só não ajuda muito, caso contrário teríamos feito alguns avanços.

 

Quais são algumas idéias interessantes de projetos na área de Big Data com as ferramentas Scala, Apache Spark?

1
Como engenheiro do AppLovin, não posso deixar de pensar que um projeto interessante poderia ser analisar aplicativos na loja de aplicativos. Você pode começar usando a API de pesquisa do iTunes aqui: API de pesquisa do iTunes. (Dica: para obter mais dados de uma só vez, você pode obter vários resultados de uma chamada de API com um termo de pesquisa mais geral ou especificar vários IDs na mesma chamada de API para obter informações sobre aplicativos específicos, como http: //itunes.apple.com/lookup?id=909253,284910350)Depois de obter dados suficientes, você pode fazer todos os tipos de análise com o Spark. Por exemplo, você pode encontrar os aplicativos mais semelhantes por descrição. Ou talvez a palavra mais lucrativa para se ter no título do aplicativo. Na minha opinião, é um bom projeto de brinquedo que permitiria a exposição e a análise de dados.

 

Como político, quais mídias sociais e ferramentas de big data devo usar para minha campanha?

1
Informações do público-alvo do Facebook, sem dúvida. Você terá acesso a dados poderosos e acionáveis que informam MUITO sobre seu público-alvo. Honestamente – você pode executar uma campanha exclusivamente no Facebook. Nem seria muito difícil. E acho que seria uma fração do custo das formas tradicionais de publicidade.

 

Durante uma entrevista para uma posição de cientista de dados, qual é a importância de ter experiência com ferramentas de big data, como Spark e Hadoop?

1
Depende do negócio em que seu empregador está. Na maioria dos casos, é um exagero. Eu nunca precisei disso em pesquisas. Trabalhei em uma equipe desenvolvendo algoritmos de ML para uma grande empresa de fidelidade. Eles tinham milhares de empresas menores como clientes. Eu pensei que seria finalmente necessário usar a computação distribuída. Hoje, as ferramentas de big data são necessárias apenas em certas empresas, como SaaS / serviços de streaming com tráfego considerável. Aconselho a implementar clusters simples para entender como as coisas funcionam.

2
Não encontrei ninguém que os use na minha região do país. É principalmente SQL / Python / R aqui na Flórida (ou C ++ para posições militares).

3
Eu diria que é útil, mas não crítico. A questão maior é sempre “O que você fez com as ferramentas?” O uso do Spark e do Hadoop geralmente significa que você resolveu um problema com milhões de pontos de dados, e o que você fez lá é uma discussão muito mais interessante. Posso dizer honestamente que tenho nunca perguntou sobre o uso do Spark ou Hadoop em mais de 200 entrevistas para cientistas de dados.

 

Qual é o significado das ferramentas analíticas de big data para comércio eletrônico? Todas as empresas de comércio eletrônico, grandes e pequenas, usam essas ferramentas para gerenciar arquivos?

1
O comércio eletrônico não produz necessariamente uma enorme quantidade de dados. Hospedamos quase 50 mil lojas online e até logs ainda podem se encaixar em um grande banco de dados da Vertica até recentemente. O Hadoop é uma ferramenta que só deve ser usada como último recurso, apesar do hype.

 

Quais ferramentas de big data podem analisar arquivos do Excel?

1
Os arquivos do Excel não se ajustam ao volume, velocidade ou variedade de tecnologias de big data. Portanto, e embora você possa usar qualquer um deles, por que o faria? O que será feito pela tecnologia de big data que não pode ser manipulada, provavelmente melhor, pela tecnologia local e / ou tradicional. Portanto, a resposta é todas. Mas eu não usaria nenhum. R, Python, SAS, etc, nem se encaixam na descrição aqui. Eles não seriam usados como ferramentas de big data. Eles estariam operando em uma base local / tradicional.

2
Eu imaginaria praticamente todos eles. Se você pode fornecer mais um exemplo sobre exatamente o que deseja analisar com os arquivos do Excel, posso ajudar um pouco mais. Outras ferramentas para tentar explorar os arquivos do Excel seriam o Tableau ou o Qlik, onde são puramente BI, em vez de análises avançadas. Este pode ser um bom lugar para você começar. Os arquivos do Excel são muito pequenos, de modo que você não precisa colocá-los em um cluster Hadoop para análise. No entanto, se você realmente quiser, aqui está a maneira do RapidMiner: Sim, é isso. Dois operadores, um para ler o arquivo do Excel e o outro para materializá-lo no cluster hadoop para análise e modelagem. Se você não quiser usar o cluster do Hadoop (como seu arquivo provavelmente é razoavelmente pequeno), basta simplesmente usar o operador ou uma das ferramentas que mencionei anteriormente na publicação. Além disso, você já ouviu falar de tabelas dinâmicas?

3
Concorde que muitas ferramentas podem fazer isso. O Excel possui um complemento de COM que permite que um usuário do Excel (ou Word, Powerpoint) acesse a análise do SAS diretamente em uma planilha do Excel. É muito conveniente para usuários que gostam de permanecer no ambiente do Microsoft Office e compartilhar análises entre si.

 

Quais ferramentas de mineração de fluxo de dados podem lidar com big data?

1
Você pode estar interessado em Vowpal Wabbit: http://hunch.net/vw/.

2
Nossa empresa é especializada nesse problema exato – nosso principal produto DataSift http://datasift.net coleta muitos dos dados mais populares de sites de mídia social e permite definir programaticamente o conteúdo que você deseja recuperar. fora da base de conhecimento -> http://support.datasift.net/help/kb Processamos mais de 200 milhões de dados por dia. A saída dos fluxos pode ser consumida via fluxo HTTP, Web Sockets e por meio de uma API REST. Também estamos trabalhando em um sistema de armazenamento + mapreduce, que entrará no teste Alpha dentro de um mês.Pergunta Quais ferramentas de big data estão disponíveis hoje para ajudar no fornecimento de medicamentos de precisão aos pacientes? Quais são os cenários futuros que provavelmente veremos em relação ao aprendizado profundo e ao big data que dão suporte à medicina de precisão? 1 Existem muitas ferramentas que podem potencialmente informar o atendimento ao paciente de maneira precisa. O mais importante no momento em termos do que pode contribuir para a saúde do paciente em um campo de medicina de precisão é sem dúvida o sequenciamento do genoma. O uso de dados genômicos para determinar o risco genético de um paciente para desenvolver uma doença ou sua capacidade de reagir a um medicamento ou até sua impressão digital genética para permitir uma estratificação personalizada de seu tratamento são ótimas maneiras pelas quais a genômica hoje tem um papel no fornecimento de medicamentos de precisão No entanto, além do seqüenciamento do genoma, existem novas tecnologias que também usam a geração de dados de alto rendimento da mesma maneira que a genômica, que será incorporada à clínica de medicina de precisão. Essas outras tecnologias ômicas incluem epigenômica (útil, por exemplo, para prever a idade genética), microbioma (para entender as interações intestino-saúde), proteômica (a concentração de proteínas em uma amostra) ou metabolômica (a verificação de todos os metabólitos em uma amostra). Todas essas tecnologias ôômicas complementarão a visão mecanicista do clínico sobre a expressão de saúde ou doença do paciente. O fato de as tecnologias ômicas catalisarem a implementação de medicamentos de precisão não exclui, no entanto, a existência de outras ferramentas de big data que provavelmente medicina de precisão de impacto. Vários sensores vestíveis que rastreiam nossas constantes vitais, atividades ou medições dinâmicas dos níveis de metabólitos contribuirão para fornecer medicamentos de precisão através do fornecimento de quantidades potencialmente vastas de dados em tempo real e dinamicamente. Esses sensores serão conectados a aplicativos em nosso smartphone que notificarão constantemente nosso médico para informar sua decisão. O outro elemento crucial que também ajudará na implementação de medicamentos de precisão é o campo do processamento de imagens. Exemplos disso incluem a caracterização do tecido tumoral, por exemplo. Houve algumas histórias de sucesso limitadas em que os tecidos patológicos foram segregados dos saudáveis e eu recomendo um artigo de Green et al. (Oportunidades e obstáculos para a aprendizagem profunda em biologia e medicina [1]), onde eles mencionam tais sucessos. o artigo acima diz, e eu concordo com isso, o potencial de aplicação do aprendizado profundo no campo da medicina de precisão ainda precisa ser cumprido. A complexidade dos dados, nossa capacidade de categorizá-los de maneira significativa e sua disponibilidade, dada sua sensibilidade e possíveis usos éticos, dificultam o desenvolvimento integral da promessa da medicina de precisão. Onde eu vejo a oportunidade em termos de novos cenários para apoiar a medicina de precisão estão na integração de registros eletrônicos de saúde, sequenciando informações de dados, dados de dispositivos vestíveis e talvez imagens (como a que vem da ressonância magnética) para prevenir doenças. Para isso, teremos que ter nossa própria nuvem de dados de saúde. Nuvens de dados de saúde são um conceito que foi originalmente apresentado por Leroy Hood e colegas [2], e acho que ele tem muito potencial, supondo que tenhamos a infraestrutura apropriada para cuidar dos problemas de privacidade do paciente e, ao mesmo tempo, compartilhar seus dados de maneira controlada. Se o aprendizado profundo for capaz de lidar com a possibilidade de tais conjuntos de dados heterogêneos (eu esperaria representações complexas de redes neurais para isso), juntamente com perguntas claramente delineadas para as quais esses conjuntos de dados podem ser treinados, então temos a chance de dominar a próxima maneira de precisão medicamentos até sua promessa. Dito isto, os frutos baixos para medicamentos de precisão virão do campo da farmacogenética. Já somos capazes de entender o status metabolizador dos pacientes para certos medicamentos, dada sua genética. Isso só vai melhorar. E se, com a genética do paciente, formos capazes de adicionar o contexto de criação de perfil para estratificá-lo, para que ele possa ser inscrito no ensaio clínico mais apropriado para um determinado medicamento sendo pesquisado, isso acelerará nossa capacidade de colocar novas informações. medicamentos no mercado mais rapidamente ou redirecionar os existentes para novas aplicações úteis rapidamente. Ambos os cenários de diagnóstico e tratamento serão afetados drasticamente pela riqueza de novos dados moleculares e de imagem sobre o paciente. Inicialmente, teremos silos de dados separados (por exemplo, silos de genética, silos de imagem, silos de registros eletrônicos de saúde) que serão usados independentemente para ajudar a melhorar a tomada de decisões clínicas (por exemplo, diagnóstico de doenças raras não caracterizadas, estratificação do paciente para um tratamento específico). À medida que a infraestrutura apropriada para integrar com segurança esses silos começa a surgir, oNo entanto, ainda há muito trabalho a ser feito. Em primeiro lugar, ainda temos um entendimento fraco da maioria dos processos moleculares, bem como do funcionamento da célula em seu ambiente (afinal, as células são a unidade básica da vida). Estamos apenas começando a entender como as células interagem e respondem ao seu ambiente em um nível holístico e sistêmico e, quando realizamos muitas medições moleculares, estamos apenas analisando as médias. Os procedimentos de célula única para a medição de alto rendimento de dados ômicos também estão explodindo como um campo agora e nos ajudarão a ter uma resolução muito mais refinada desses processos mecanicistas. Minha esperança é que governos, indústria e outras organizações [3] ser capaz de criar em breve estruturas legais, éticas e sociais que aumentem os incentivos para mais inovação neste campo promissor. Isso também terá um tremendo impacto nos cenários futuros que provavelmente veremos em relação à aprendizagem profunda e ao big data que apóiam a medicina de precisão. Notas de rodapé [1] Oportunidades e obstáculos para a aprendizagem profunda em biologia e medicina [2] Um estudo de bem-estar de 108 indivíduos que usam nuvens de dados pessoais, densas e dinâmicas [3] GA4GH

 

Quais são as ferramentas de big data que são úteis para um cientista de dados?

1
Essa resposta pode abranger um livro inteiro, uma vez que existe uma variedade imensa de ferramentas de big data disponíveis para o cientista de dados usar, como Spark, Storm, Cassandra, Mongo ou Hadoop Frameworks. Também pode incluir ferramentas relacionadas à análise de dados de BI ou estatística. A parte principal que precisamos entender é que, sem a capacidade de lidar com grandes conjuntos de dados, o que, por sua vez, não pode ser feito sem o uso dessas ferramentas, um cientista de dados não pode executar sua tarefa. responsabilidades de forma eficiente e dependerá de engenheiros de dados especializados para obter ajuda. Para reduzir a resposta e fornecer uma resposta direta – um cientista de dados deve ter conhecimento de todas as ferramentas usadas para construir o Lago de Dados Corporativos de sua organização. Um data lake é um armazenamento de dados robusto, heterogêneo e combinado, que pode ser criado usando a combinação de qualquer pilha de tecnologia disponível, com a qual a organização se sinta confortável. Portanto, a capacidade de trabalhar com o Data Lakes é o requisito máximo para qualquer cientista de dados e, portanto, ele deve ser capaz de trabalhar com o mesmo, pois ele será construído usando as melhores ferramentas de Big Data disponíveis na organização (para implementar armazenamento, pipelines de processamento e fluxo de dados)

 

Ao visualizar big data, que ferramentas você usa e que tipo de recursos você mais usa?

1
O tipo de dados com o qual você lida determina quais ferramentas de visualização você usa sobre as outras. Ao selecionar uma ferramenta, uma vez que a maioria deles realiza todos os vários gráficos e widgets existentes, isso depende do que se sente confortável ou tem experiência anterior em usar mais. Eu sugeriria, você se atenha a um. O Tableau é um líder do setor nesse espaço e vale a pena gastar seu tempo e energia dominando essa ferramenta. Procure manter as tarefas de manipulação de dados ou ETL fora dessas ferramentas, mas use-as para as quais elas são boas, como conhecimento agregado, rotação de dados, renderização de gráficos e tabelas perfeitos de pixels e criação de painéis de negócios mais interativos e de autoatendimento para o final Novamente, se você é analista e deseja apenas inspecionar os dados e iterar rapidamente as informações que obtém, eu preferiria a ferramenta de organização de dados que estou usando neste caso (seja R ou python), também possui dados bibliotecas de visualização, para que eu não gaste tempo e código adicionais mudando meu ambiente de trabalho e movendo dados entre eles.

2
Concorde com a opinião de todos sobre este tópico. Além disso, eu recomendaria considerar o Looker também. Usamos o Looker e o Tableau e cada ferramenta tem pontos fortes. Dependendo do caso de uso e do tipo de usuários, escolhemos uma das ferramentas. Você pode considerar uma ferramenta de BI se houver mandato comercial para disponibilizar dados para os tomadores de decisão e tiver uma solução de autoatendimento em vez de criar insights por um número insuficiente de recursos técnicos.

 

Qual é uma boa fonte de grandes conjuntos de dados no formato JSON para testar ferramentas de análise de dados?

1
Na documentação do Drill: o conjunto de dados AOL Search é uma coleção de dados reais de log de consultas baseados em usuários reais.O conjunto de dados Enron Email contém dados de cerca de 150 usuários, principalmente da gerência sênior da Enron. O Histórico de Edição da Wikipedia é um dump público de o site disponibilizado pela fundação wikipedia. Você pode encontrar detalhes aqui. Os dumps são disponibilizados como dumps SQL ou XML. Você pode encontrar todo o esquema desenhado neste ótimo diagrama. Talvez seja necessário convertê-los para json:) Você deve ler o seguinte: Onde posso encontrar grandes conjuntos de dados abertos ao público?

2
Usar lotes da cidade (formato de arquivo com formato compactado) | Dados e use shp2json para conversão !!! Cortesia (zeMirco) Formatos CSV – grandes conjuntos de dados abertos ao público !!! e use o csv-to-json PS: leia esses dados de preparação

3
Conjuntos de dados JSON – isso fornece um conjunto muito bom de recursos

 

Qual ferramenta de big data você sugeriria para mensagens em tempo real que não sejam o Apache Kafka?

1
Experimente o ZeroMQ, que é um sistema de entrega de mensagens em camadas à sua escolha: TCP, entre encadeamentos, entre processos e PGM / multicast.Se você não se importa de trabalhar com soquetes, dê uma olhada no SCTP, um protocolo resiliente de hospedagem múltipla.

 

Quais são os principais recursos e características do Hadoop que o tornam a ferramenta de Big Data mais popular e poderosa?

1
Na minha experiência, o Hadoop é a plataforma de big data mais famosa, porque é de código aberto, apoiado pela Apache Foundation e possui um enorme ecossistema de aplicativos por trás dele. Você pode fazer praticamente qualquer coisa com o Hadoop: de streaming, real análise de tempo, para uma implementação de armazém de dados. Isso suporta visualização de dados, bem como algoritmos ML, e esse não é o sonho?

 

Quais são as ferramentas do big data?

1
Obrigado pela A2A. Aqui estão as principais ferramentas usadas para armazenar e analisar o Big Data. Uma pesquisa recente diz que 80% dos dados criados no mundo não são estruturados. Um desafio é como esses dados não estruturados podem ser estruturados antes de tentarmos entender e capturar os dados mais importantes. Outro desafio é como podemos armazená-lo. Podemos categorizar as ferramentas do Big Data em duas partes: 1. Armazenamento e consulta 2. AnalysisTools: 1. Apache Hadoop2. Microsoft HDInsight3. NoSQL4. Colmeia5. Sqoop6. PolyBase7. Big data no EXCEL8. Presto

2
As sete ferramentas e tecnologias de big data usadas pelos desenvolvedores de análise bem-sucedidos são: HadoopA plataforma orientada a objetos distribuída de alta disponibilidade, conhecida popularmente como Hadoop, é uma estrutura de software que avalia dados estruturados e não estruturados.Por causa do Hadoop, o dimensionamento de dados é possível sem Ele oferece um armazenamento enorme para uma variedade de dados.Ele pode lidar virtualmente com tarefas coexistentes infinitas.O MongoDBIt é um banco de dados de documentos de código-fonte aberto NoSQL, principal e ágil, compatível com várias plataformas. O MongoDB é famoso por causa de sua capacidade de armazenamento e seu papel na pilha de software MEAN. Ele armazena os dados do documento no formato binário do documento JSON, que é o tipo BSON. O MongoDB é usado principalmente por sua alta escalabilidade, capacidade de obtenção e apresentação.HiveIt é uma ferramenta de armazém de dados, construída na plataforma Hadoop. O Apache Hive é um componente do Hortonworks Data Platform (HDP). Ele fornece uma interface semelhante à SQL para armazenar dados no HDP. A linguagem de consulta exclusiva do Hive é o HiveQL. Esse idioma interpreta consultas do tipo SQL em tarefas do MapReduce e depois implanta-as na plataforma Hadoop. O HiveQL também suporta scripts MapReduce, que podem ser o plug-in para consultas. O Hive aumenta a elasticidade do design do esquema e contribui para a serialização e desserialização de dados.SparkApache Spark é um dos principais projetos de código aberto para processamento de dados. Possui semelhanças com o MapReduce, no entanto, supera o MapReduce com recursos como velocidade, fácil interação do usuário e engenhosidade da análise. O Apache Spark reduz o tempo de desenvolvimento que o Hadoop normalmente leva. Isso resulta em fluxo suave e análise colaborativa de dados. O HBaseApache HBase é um banco de dados NoSQL de código aberto, oferecendo provisão de leitura / gravação em tempo real para grandes conjuntos de dados. É um aplicativo Hadoop que funciona sobre HDFS. Ele se dimensiona linearmente para gerenciar grandes conjuntos de dados com inúmeras linhas e colunas e organiza suavemente fontes de dados de várias fontes com estruturas e esquemas distintos. HBase é um dos complementos do Apache Hadoop. Ele contém ferramentas como Hive, Pig e ZooKeeper.CassandraApache Cassandra ™ é um projeto Apache de primeira linha, com sua origem no Facebook. Foi então construído sobre o Dynamo da Amazon e a BigTable do Google. É conhecido por seu gerenciamento eficaz de grandes blocos de dados. Além disso, o Cassandra oferece alta disponibilidade e escalabilidade, sem um único ponto de falha no funcionamento do hardware do servidor e da infraestrutura de nuvem. O KafkaKafka é uma plataforma de código aberto, particionada, escalável, permissível a falhas, altamente rápida e segura. É importante agir como uma ponte entre vários sistemas principais de código aberto, como Spark, NiFi e as ferramentas de terceiros.

3
No bigdata, muitos frameworks disponíveis, como Hadoop, spark, Kafka, hive, pig oozie…. A partir de agora Spark número um quadro em bigdata

 

Quais são alguns dos desafios atuais do uso de ferramentas de big data?

1
Entendo que a ferramenta de big data que você mencionou é uma ferramenta que facilita a análise de big data, certo? Nesse caso, existem dois grandes problemas. Primeiro, os dados estão dispersos. Para usar ferramentas de big data, os dados devem ser preparados em um só lugar. É por isso que as ferramentas que conectam repositórios de dados foram introduzidas recentemente, como o Dremio, CData. O próximo problema é que as ferramentas de análise de dados estão desconectadas e precisam de habilidades profissionais. Atualmente, os não profissionais da ciência de dados usam a análise para o seu trabalho cada vez mais. Ferramentas como o Metatron Discovery cobrem todo o processo de análise de dados com interface gráfica.

 

Quais são as melhores ferramentas de big data para assistência médica?

1
Estamos fornecendo as melhores ferramentas de big data para assistência médica, as melhores ferramentas de big data para relatórios de BI, as melhores ferramentas de big data para soluções de BI, as melhores ferramentas de big data para o painel de BI. Ferramentas de Big Data para soluções de BI, Melhores ferramentas de Big Data para painel de BIPergunta Devo fazer um curso de “Big Data” ou apenas aprender uma ferramenta analítica como R, Python, Tableau?

1 Obrigado pelo A2A Hemant Singh. Deixe-me primeiro esclarecer o significado das definições para cada termo. Big Data é a enorme quantidade de dados que não podem ser processados efetivamente com os aplicativos tradicionais existentes. Por outro lado, o Data Analytics é a ciência de examinar dados brutos com o objetivo de obter informações valiosas. Big Data Agora, chegando ao ponto, você deve fazer um curso de ‘Big Data’? Claro que você pode! O problema é que quando você diz “Big Data”, sua mente automaticamente aparece com a palavra Hadoop. No Google, você obtém tecnologias relacionadas, como Hive, Pig, Mahout e muito mais. Se você se considera bom em Programação Java, a transição é fácil, já que o Hadoop é uma estrutura de programação baseada em Java de código aberto. As outras tecnologias que mencionei também são baseadas em Java. De acordo com o que fiz no treinamento de verão com a EMC Academic Alliance, posso concluir o seguinte: 1. Implantação e administração da tecnologia Big Data. Você precisa poder usar um sistema Linux e, em seguida, implantar tecnologias e serviços como Hadoop, Pig, Hive etc. Aprendi a usar o PostgreSQL para o banco de dados Greenplum. Você pode até analisar os dados armazenados. A única coisa em que você precisa ser proficiente é em Java. É isso aí. Você precisa ser capaz de escrever códigos de Map Reduce (geralmente Java é usado para isso) para processar dados enormes em um ambiente em cluster. Dados Analytics Em segundo lugar, o Data Analytics é um pouco mais divertido. Todas as ferramentas e tecnologias usadas nos processos modernos de Data Analytics são desenvolvidas em linguagens de programação como Python. Existe até programação R quando você menciona o termo “Análise de dados”. Para obter mais informações sobre a comparação de ferramentas usadas no Data Analytics, você pode consultar minha resposta. Quais cursos on-line devo seguir para me tornar um bom cientista de dados? Devo optar pelo Python ou pelo R para análise de dados? Resumindo, aprender qualquer uma das tecnologias será muito benéfico para você, considerando o fato de que o mercado atual está mudando para essas tecnologias. Não me interpretem mal. Você também pode analisar dados com as tecnologias Apache contidas no Big Data. A única grande diferença é que, se você deseja acessar as soluções tradicionais de Big Data, precisa ser bom com Java (o que não sou, FYI). O outro, ou seja, o Data Analytics, bem, existem essas linguagens de programação interessantes que são fáceis de aprender e divertidas de usar.Com base na sua pergunta, o Data Analytics com Python, R e Tableau seria mais divertido. 2 Graduado em MBA e com experiência em vendas, acho que você deve se concentrar em aprender o Tableau e o SQL. As tecnologias relacionadas ao Hadoop são mais centradas na parte da arquitetura de dados. Não estou dizendo que o Hadoop não é usado como uma ferramenta de análise de dados, mas os trabalhos são mais voltados para a criação de pipelines de dados para gerenciar big data, o que obviamente é mais ou menos um trabalho de arquiteto de dados em vez de analista de dados. já esteja familiarizado com painéis e visualização de dados. O Tableau certamente o ajudará nessa área. E, como parte da análise de dados, recomendo que você inicie o SQL. As pessoas geralmente subestimam seu poder quando se trata de análise de dados. SQL desempenha um papel importante na análise de dados. Além disso, é bastante fácil ser visto com relação às linguagens de programação. Nunca subestimou o MS Excel. Ainda é uma das ferramentas mais usadas para análise de dados. Muitas grandes empresas ainda usam o Excel para suas tarefas de análise de dados. E estando no campo de análise de dados, você simplesmente não pode ignorá-lo. São apenas meus dois centavos. Espero que ajude. 3 Antes de tudo, espero que você esteja apenas começando com o Big Data, sugerindo que você não se apresse e faça uma pesquisa completa sobre esse conceito. No que se refere ao R, Python ou Java, sugiro que você aprenda qualquer um sobre Java. ou Python e, junto com o aprendizado da linguagem R, é o mais usado em Data Analytic. Como você possui MBA e possui 6 anos de experiência, posso assumir que você domina o Excel e que ninguém pode vencê-lo no Excel. O que eu sugiro é que você tente aprender o Tableau, pois está se tornando tão popular e é melhor ou posso dizer melhor que o Excel. Posso garantir que, depois que você começou a aprender o Tableau, você pode imaginar um mundo modificado e mais novo a partir do Excel. Aprendi o Tableau com o Coursera. Você também pode aprender a partir daí, é um passo inicial para aprender o Tableau e adorei esse curso. Por fim, se você está no campo de Big Data, há um grande número de ferramentas e tecnologias para aprender, como a palavra diz Big Data que não tem fim. Portanto, continue pesquisando e aprendendo. Você também pode seguir minha resposta anterior ao Big Data para iniciantes!resposta para Quais habilidades de big data estão sendo procuradas no mercado atual? Quaisquer dúvidas e comentários são bem-vindos, terei o maior prazer em ajudar!

 

Quais são algumas das principais ferramentas de relatórios de big data existentes?

1
Você pode experimentar o Ubiq Reporting, uma ferramenta de BI e relatórios baseada na Web que facilita a análise e o relatório de seus dados, além de compartilhá-los com outras pessoas. Interface do usuário intuitiva: analise e explore dados usando uma interface intuitiva de arrastar e soltar2. Análise poderosa: agregue, classifique, gire, filtre e faça uma busca detalhada dos dados, com apenas alguns cliques. Adicione filtros dinâmicos aos seus painéis e gráficos para filtrar dados em tempo real. Crie drill-down, up e drill-throughs para aprofundar seus dados3. Informações em tempo real: crie relatórios e gráficos em tempo real que mostrem dados em tempo real e atualizem automaticamente em intervalos regulares4. Muitas opções de gráficos: escolha entre uma ampla variedade de opções de gráficos – desde os básicos como linha, área, barra, coluna, torta e plotagem de dispersão até visualizações avançadas como funil, medidores e mapas5. Compartilhe insights facilmente: exporte relatórios e gráficos em diferentes formatos para compartilhá-los com outros, ou programe relatórios por email para distribuir automaticamente relatórios a outros. Gerenciamento avançado de usuário: personalize o acesso do usuário para cada relatório Totalmente personalizável: personalize todos os aspectos de seus gráficos e relatórios – título, cor, fonte, formatação, layout, tamanho, posição, cabeçalhos, seções e muito mais com apenas um clique. Fácil de configurar: como o Ubiq é baseado em nuvem, você pode analisar e relatar dados diretamente usando o navegador da web. Não há necessidade de baixar ou instalar nada. Basta se inscrever e começar a gerar relatórios. O Ubiq se conecta diretamente aos seus dados, sejam eles locais ou remotos, portanto, não há necessidade de mover ou modificar seus dados para que funcionem com o Ubiq. Veja um exemplo de relatório criado usando o Ubiq:

2
Você pode conferir o Ideata Analytics – Big Data Analytics | Ideata Analytics

 

Quais ferramentas analíticas de big data podem ser incorporadas e entregues no seu aplicativo SaaS?

1
Recentemente, soube de uma empresa chamada Gainsight que possui uma ferramenta realmente poderosa que você pode incorporar em um produto SaaS. É focado principalmente em dados para ajudá-lo a gerenciar o uso do cliente. Também existe uma ferramenta bastante simples e econômica chamada Keen.io, que você pode incorporar, embora exija um pouco mais de trabalho para conectá-la às coisas que você deseja rastrear em seu aplicativo.

2
O MUORO é uma ferramenta de ciência de dados que ajuda a gerar análises avançadas usando IA e aprendizado de máquina por meio do algoritmo proprietário do DataShelter. O sistema foi especialmente projetado para tornar o trabalho colaborativo uma tarefa contínua entre cientistas de dados e gerentes de negócios, tornando a análise avançada um processo sem complicações na organização. O MUORO torna a implantação de modelos de aprendizado de máquina menos demorada para um cientista de dados. http: //muoro.io-, consulte o site para obter mais informações

3
O JReport é a ferramenta perfeita para este caso de uso. O principal caso de uso está no espaço incorporado e possui muitos recursos que outros fornecedores podem não ter, como o escopo da personalização da API. Ele suporta totalmente uma variedade de fontes diferentes de Big Data, incluindo coisas como Mongo e Hive, e suporta bancos de dados mais tradicionais. Eu verificaria a página de recursos do BI incorporado para obter mais informações. Aqui estão alguns exemplos: * Divulgação completa Trabalho na Jinfonet Software.

 

Quais são algumas das maiores reclamações ou queixas sobre ferramentas de ‘big data’, como o Tableau?

1
Acho que não consideraria o Tableau uma ferramenta de ‘Big Data’. Se você está carregando milhões de registros no tableau, o desempenho diminui rapidamente e realmente se torna inutilizável nos tamanhos de ‘big data’. Se você implementar muitos cálculos no Tableau ou usar uma conexão ativa no lugar da extração otimizada – esses problemas de desempenho serão exacerbados. Assim, uma das minhas maiores queixas com muitas ferramentas de visualização de dados front-end é a dificuldade de manipular / preparar dados. Embora o tableau ofereça suporte a várias conexões de dados, construindo relacionamentos entre tabelas etc. – eles rapidamente se tornam complexos, pouco claros e podem limitar algumas funcionalidades (por exemplo, comportamento estranho com filtros e cálculos de valor de tabela). Por esse motivo, normalmente faço a preparação de todos os dados em um ambiente SQL e carrego uma única tabela plana no Tableau para facilitar o uso.

 

Qual ferramenta de Business Intelligence (ETL) possui os melhores recursos de big data?

1
Na minha humilde opinião, as ferramentas tradicionais de ETL (apesar de serem ótimos produtos com suporte à era do data warehousing convencional) não funcionam muito bem com o Big Data e não mostram sintomas significativos para acompanhar o Big Data. Na era do Big Data, o conceito de mineração de dados / processamento evoluiu para estado diferente – não monolítico. Agora, espera-se que os dados persistam em um formato bruto consumível, onde o restante da organização tenha acesso ao bruto de acordo com as políticas e protocolos de segurança. O responsável pela mineração / processamento de dados agora está em um indivíduo (um membro da equipe da organização), responsável por limpar, padronizar, transformar e processar com base no caso de uso que ele tem em mãos. O processamento direcionado é atender necessidades muito específicas tratadas por uma ou mais cadeias de tarefas (de preferência microsserviços) executadas na plataforma de big data. Esses trabalhos devem ser escritos usando uma ou mais ferramentas ou pacotes de big data para obter os resultados em escala. Conjunto de dados com curadoria, resultado do processo agora tem a maioria com público-alvo ou finalidade específicos!

2
Depende do que você deseja fazer! Se você deseja criar um data warehouse, NÃO compre uma ferramenta ETL. Tudo o que eles fazem é mover dados de A para B – eles não constroem armazéns de dados. Se você deseja criar um ODS e usar a captura de dados alterados, uma ferramenta de replicação de dados pode funcionar melhor. para BI, obtenha uma ferramenta de automação de data warehouse como Ajilius ou Attunity Compose – dependendo da sua metodologia preferida.

3
Isso depende exatamente do que você está procurando exatamente! Se você está procurando uma solução completa com backup de Big Data, recuperação automatizada de desastres e recursos de ingestão de dados, compactação, criptografia, mascaramento e arquivamento, o MLens by Knowledge Lens é o seu melhor bet.Leia as histórias de sucesso de nossos clientes aqui para ver se atendemos às suas necessidades! Ou entre em contato conosco para obter uma demonstração gratuita, para começar. Envie-nos um e-mail para sales@knowledgelens.comIndia: + 91-9739103723 | Você está em: Página Inicial> Imprensa> Notícias

 

Quais são as ferramentas de análise de big data que não exigem programação?

1
Minha resposta é um pouco fora da trilha para sua consulta, mas acredito que devo colocá-la aqui. Sem programação, você seria como um amputado no ombro de uma pessoa cega. Especialmente no caso, se seus dados tiverem algum tipo de peculiaridade, como classe minoritária, ou se você quiser medir o desempenho da classificação para um rótulo específico ou testar o desempenho de vários modelos com parâmetros ajustados. Eu vim a perceber a importância da programação depois de quase um semestre. Sugiro que você aprenda um pouco de programação, você não precisa ser um especialista nisso. Só pode usar várias estruturas de dados para obter desempenho eficiente com tipos específicos de dados e algum tipo de sql aprimorando os dados.

2
Esses não são especificamente para big data, mas você pode encontrá-los úteis: KNIME – Open for InnovationKEEL – Uma ferramenta de software para avaliar algoritmos evolutivos para problemas de mineração de dados (regressão, classificação, clustering, mineração de padrões etc.) Orange – Orange Data MiningWeka – Mineração de dados com software de aprendizado de máquina de código aberto no JavaRapidMiner – RapidMiner | # 1 Plataforma de análise preditiva de código aberto

3
O Shoodoo Analytics oferece uma plataforma de análise preditiva extremamente rápida, precisa e de baixo custo que usa o aprendizado de máquina para criar previsões perspicazes para as empresas. Nossos modelos são construídos de uma maneira que não se deteriora com o tempo, garantindo resultados constantes, mais atualizados e precisos. O uso da plataforma Shoodoo é uma ferramenta que não requer codificação, pois a maior parte do trabalho é realizada por nossa equipe.

 

Existem ferramentas ETL / ELT de Big Data de código aberto disponíveis?

1
Pentaho vem à mente, especificamente a oferta da Kettle. Um de meus antigos colegas também ajudou a trazer capitalone / Hydrograph para o mundo. Pessoalmente, costumo escrever meus próprios scripts, aproveitando o código do Github sempre que possível. As comunidades python e Go têm algumas ferramentas de manipulação de dados particularmente fortes que funcionam bem para ETL / ELT.

 

Quais são as tendências de desenvolvimento de mercado das ferramentas de mascaramento de big data e das ferramentas de segurança de big data?

1
Essa é uma boa definição de mascaramento de dados estático versus dinâmico. Outra pergunta comum é qual é a diferença entre mascaramento e criptografia de dados, pois ambas são proteções no nível da coluna. Consulte www.iri.com/blog/data-protection/data-masking-and-data-encryption-are-not-the-same-thingsPergunta Que arquitetura / ferramentas os gigantes da tecnologia como o Facebook / Amazon / Apple / Microsoft usam para análise de big data / ML?

1 Encontrei o seguinte em um artigo, link para o artigo completo: https://www.linkedin.com/pulse/b…Data analytics Arquitetura adotada pelo Facebook: O Facebook coleta dados de duas fontes. A camada federada do MySQL contém dados do usuário e os servidores da Web geram dados de log baseados em eventos. Os dados dos servidores web são coletados nos servidores Scribe, que são executados nos clusters do Hadoop. Os servidores Scribe agregam dados de log, gravados no Hadoop Distributed File System (HDFS). Os dados do HDFS são compactados periodicamente e transferidos para os clusters Production Hive-Hadoop para processamento adicional. Os dados do MySQL federado são despejados, compactados e transferidos para o cluster Production Hive-Hadoop. O Facebook usa dois grupos diferentes para análise de dados. Trabalhos com prazos estritos são executados no cluster Production Hive-Hadoop. Os trabalhos de prioridade mais baixa e os trabalhos de análise ad hoc são executados no cluster Ad hoc Hive-Hadoop. Os dados são replicados do cluster de Produção para o cluster Ad hoc. Os resultados da análise de dados são salvos no cluster Hive-Hadoop ou na camada MySQL para usuários do Facebook. As consultas de análise ad hoc são especificadas com uma interface gráfica com o usuário (HiPal) ou com uma interface da linha de comandos do Hive (Hive CLI). O Facebook usa uma estrutura Python para execução (banco de dados) e agendamento de tarefas em lote periódicas no cluster Produção. O Facebook também usa as ferramentas de Business Intelligence da Microstrategy (BI) para análise dimensional. Arquitetura de análise de dados adotada pelo LinkedIn: Os dados são coletados de duas fontes: instantâneos de banco de dados e dados de atividades dos usuários do LinkedIn. Os dados da atividade incluem eventos de streaming, que são coletados com base no uso dos serviços do LinkedIn. Kafka é um sistema de mensagens distribuídas, usado para a coleta dos eventos de streaming. Os produtores de Kafka relatam eventos para tópicos em um corretor Kafka, e os consumidores de Kafka leem os dados em seu próprio ritmo. Os dados do evento de Kafka são transferidos para o cluster ETL do Hadoop para processamento adicional (combinação, deduplicação). Os dados do cluster ETL do Hadoop são copiados para os clusters de produção e desenvolvimento. O Azkaban é usado como um planejador de carga de trabalho, que suporta um conjunto diversificado de tarefas. Uma instância do Azkaban é executada em cada um dos ambientes Hadoop. As cargas de trabalho agendadas do Azkaban são realizadas como tarefas MapReduce, Pig, shell script ou Hive. Normalmente, as cargas de trabalho são experimentadas no cluster de desenvolvimento e são transferidas para o cluster de produção após revisão e teste bem-sucedidos. Os resultados da análise no ambiente de produção são transferidos para um banco de dados de depuração offline ou para um banco de dados online. Os resultados também podem ser retornados ao cluster Kafka. O Avatara é usado para a preparação de dados OLAP. Os dados analisados são lidos no banco de dados Voldemort, pré-processados e agregados / cubificados para OLAP e salvos em outro banco de dados somente leitura do Voldemort.Análise de dados Arquitetura adotada pelo Twitter: Na infraestrutura do Twitter para serviços em tempo real, os corretores do Blender todos os pedidos que chegam ao Twitter. Os pedidos incluem a pesquisa de tweets ou contas de usuário por meio de um serviço QueryHose. Os tweets são inseridos por meio de um serviço FireHose em um pipeline de ingestão para tokenização e anotação. Posteriormente, os tweets processados entram nos servidores do EarlyBird para filtragem, personalização e indexação invertida. Os servidores EarlyBird também atendem solicitações de entrada do QueryHose / Blender. O EarlyBird é um mecanismo de recuperação em tempo real, projetado para fornecer baixa latência e alta taxa de transferência para consultas de pesquisa.Além disso, os mecanismos de assistência de pesquisa são implantados. O coletor de estatísticas no mecanismo de assistência de pesquisa salva as estatísticas em três armazenamentos na memória, quando uma consulta ou tweet é veiculado. As sessões do usuário são salvas no repositório de Sessões, as estatísticas sobre consultas individuais são salvas no repositório de estatísticas de Consulta e as estatísticas sobre pares de consultas simultâneas são salvas no repositório de co-ocorrência de Consulta. Um algoritmo de classificação busca dados dos armazenamentos na memória e analisa os dados. Os resultados da análise são mantidos no Hadoop HDFS. Por fim, o cache front-end pesquisa os resultados da análise do HDFS e atende aos usuários do Twitter. O Twitter tem três fontes de dados de streaming (Tweets, Updater, consultas), das quais os dados são extraídos. Tweets e consultas são transmitidos pela API REST no formato JSON. Assim, eles podem ser considerados como dados semiestruturados de streaming. O formato dos dados do Updater não é conhecido (fonte de dados de streaming). O pipeline de ingestão e o Blender podem ser considerados como armazenamentos de dados temporários de Stream. Tokenização, anotação, filtragem e personalização são modeladas como processamento de fluxo. Os servidores EarlyBird contêm dados processados baseados em fluxo (armazenamento de dados de fluxo). O coletor de estatísticas é modelado como processamento de fluxo. Os armazenamentos estatísticos podem ser considerados como armazenamentos de dados Stream,que armazenam informações estruturadas dos dados processados. O algoritmo de classificação executa a funcionalidade de análise de fluxo. O Hadoop HDFS que armazena os resultados da análise é modelado como um armazenamento de dados de análise de Fluxo. O cache de front-end (servindo armazenamento de dados) serve o aplicativo de usuário final (aplicativo Twitter). Referência: arquitetura de referência e classificação de tecnologias de Pekka Pääkkönen e Daniel Pakkala (facebook, twitter e linkedin A arquitetura de referência mencionada aqui é derivada desta publicação) Arquitetura de solução baseada em nuvem (ClickStream Analysis): 2 Bem, eu recentemente soube desse Tensorflow, para todas as coisas de Deeplearning e Machine Learning, o Google está usando o pacote Tensorflow desenvolvido em Python e é muito legal. Para mais informações, navegue pelo link a seguir em uma Biblioteca de software de código aberto para Machine Intelligence. Não sabe muito sobre o Facebook e outras grandes empresas.

 

Existe algum software de Big Data de código aberto disponível no momento?

1
Existem tantas ferramentas disponíveis para gerenciar o big data. Os bancos de dados Hadoop e NoSQL são estruturas e equipamentos que foram usados pela maioria das empresas de software. Existem também algumas ferramentas de inteligência de negócios que ajudam na computação e na organização dos dados em arquivos diferentes, transferindo-os. Linguagem de programação como java, c c + é usada para executar todo o sistema.Clique aqui para obter mais informações

2
Confira o Metatron Discovery, que recentemente abriu o software de análise de big data. Recentemente, analisei o software e eles são ótimos! Ele cobre quase todos os recursos para análise de dados, desde a preparação dos dados até a ligação do notebook. Verifique o site deles também pode ajudá-lo. https://metatron.app

 

Quais são as principais ferramentas de big data usadas para armazenar e analisar dados?

1
O ecossistema Hadoop é a primeira opção quando se trata de implementar uma solução de Big Data. Para armazenamento: a escolha da ferramenta de armazenamento depende de como (e para que) você vai ler / gravar os dados.Há opções como HDFS, HBase, Para o Analytics: a escolha da ferramenta / interface novamente depende muito de como (e que tipo de consultas) você estará executando. Existem opções como Hive, Spark, Impala + Kudu, etc. exatamente o que você está procurando, mas espero que esta resposta lhe dê uma orientação para começar a pensar.

 

Quais ferramentas de big data gratuitas (de código aberto) posso usar no Amazon AWS para executar análises em tempo real?

1
Você pode executar qualquer ferramenta de código aberto nas máquinas do AWS EC2. Alguns populares são: * Apache Kafka * Storm, computação em tempo real distribuída e tolerante a falhas * Apache Spark ™ – Computação em cluster ultrarrápida * Bem-vindo ao Apache Flume

 

Qual é a melhor ferramenta de big data para 2020, Apache Hadoop ou Cassandra?

1
Na minha opinião (puramente pessoal, sem base em estatísticas), nem o Hadoop nem o Cassandra podem ser considerados a melhor ferramenta de big data para 2020. Acho que o Apache Spark continua popular e será mais popular em 2020. Tem havido muitas ênfase em Inteligência Artificial e aprendizado de máquina. Com seu suporte integrado ao aprendizado de máquina e uma arquitetura que funciona bem no cluster Yarn, o Spark tem recebido muito apoio de muitas organizações que executam seus sistemas de data warehouse no Spark para apoiar seus cientistas de dados.

 

Onde posso obter bons tutoriais em vídeo para aprender as ferramentas de big data do Hadoop?

1
O DataFlair é o melhor lugar para obter um curso ao vivo ou baseado em vídeo no DataFlair. O curso deles é totalmente prático e eu também fiz o curso a partir daí, o que me ajudou a iniciar minha carreira nessa tecnologia.Pergunta Qual é a melhor ferramenta em big data e analytics?

1: Vou falar sobre as melhores ferramentas de análise de Big Data para 2018 disponíveis no mercado, que são gratuitas e interessantes de se trabalhar. Dependendo das suas necessidades, aqui estão algumas ótimas ferramentas de análise de dados com seus usos e limitações: 1. Tableau Publici. O que é o Tableau Public – Ferramentas de análise de big dataÉ uma ferramenta simples e intuitiva. Como oferece informações intrigantes por meio da visualização de dados. Limite de milhões de linhas do Tableau Public. Como é fácil usar tarifas melhores do que a maioria dos outros players do mercado de análise de dados. Com os recursos visuais do Tableau, você pode investigar uma hipótese. Além disso, explore os dados e verifique suas idéias.ii. Utilizações do Tableau PublicVocê pode publicar visualizações de dados interativas gratuitamente na Web. Nenhuma habilidade de programação é necessária. As visualizações publicadas no Tableau Public podem ser incorporadas aos blogs. Além disso, páginas da web e sejam compartilhadas por e-mail ou mídia social. O conteúdo compartilhado pode estar disponível para downloads. Isso o torna as melhores ferramentas de Big Data Analytics.iii. Limitações do Tableau PublicTodos os dados são públicos e oferecem muito pouco escopo para acesso restrito. Limitação de tamanho de dados Não pode ser conectado ao R. A única maneira de ler é através de fontes OData, é Excel ou txt.2. OpenRefinei. O que é o OpenRefine – Data Analytic Tools Anteriormente conhecido como GoogleRefine, o software de limpeza de dados. Como ajuda a limpar os dados para análise. Opera em uma linha de dados. Além disso, tenha células em colunas, bastante semelhantes às tabelas de banco de dados relacional.ii. Usos do OpenRefineLimpar dados desordenadosTransformação de dadosParar dados de sitesAdicionar dados ao conjunto de dados, buscando-o em serviços da web. Por exemplo, o OpenRefine pode ser usado para geocodificar endereços para coordenadas geográficas.iii. As limitações do OpenRefineOpen Refine não são adequadas para grandes conjuntos de dados.Refine não funciona muito bem com big data3. KNIMEi. O que é o KNIME – Ferramentas de Análise de Dados O KNIME ajuda você a manipular, analisar e modelar dados por meio de programação visual. É usado para integrar vários componentes para mineração de dados e aprendizado de máquina.ii. Os usos do KNIMED não gravam blocos de código. Em vez disso, é necessário soltar e arrastar pontos de conexão entre as atividades. Essa ferramenta de análise de dados suporta linguagens de programação. De fato, ferramentas de análise como essas podem ser estendidas para executar dados químicos, mineração de texto, python e R.iii. Limitação da visualização de dados KNIMEPoor4. RapidMineri. O RapidMiner – Data Analytic Tools O RapidMiner fornece procedimentos de aprendizado de máquina. E a mineração de dados, incluindo visualização de dados, processamento, modelagem estatística e análises preditivas. O RapidMiner escrito em Java está rapidamente ganhando aceitação como uma ferramenta de análise de Big Data.ii. Utiliza o RapidMinerEle fornece um ambiente integrado para análise de negócios e análise preditiva. Junto com aplicativos comerciais e de negócios, também é usado para o desenvolvimento de aplicativos.iii. Limitações do RapidMinerRapidMiner possui restrições de tamanho em relação ao número de linhas.Para o RapidMiner, você precisa de mais recursos de hardware que ODM e SAS.5. Google Fusion Tablesi. O que é o Google Fusion TablesQuando se trata de ferramentas de dados, temos uma versão mais legal e maior das planilhas do Google. Uma ferramenta incrível para análise de dados, mapeamento e visualização de grandes conjuntos de dados. Além disso, o Google Fusion Tables pode ser adicionado à lista de ferramentas de análise de negócios. Essa também é uma das melhores ferramentas de Big Data Analytics.ii. Utiliza o Google Fusion TablesVisualize dados de tabela maiores on-line.Filtre e resuma em centenas de milhares de linhas.Combine tabelas com outros dados na WebVocê pode mesclar duas ou três tabelas para gerar uma visualização única que inclua conjuntos de dados.Você pode criar um mapa em minutos iii. Limitações das tabelas do Google Fusion Apenas as primeiras 100.000 linhas de dados de uma tabela são incluídas nos resultados da consulta ou mapeadas. O tamanho total dos dados enviados em uma chamada de API não pode ser superior a 1 MB.6. NodeXLi. O que é o NodeXLIt é um software de visualização e análise de relacionamentos e redes. O NodeXL fornece cálculos exatos. É um software de análise e visualização de rede gratuito (não o profissional) e de código aberto. O NodeXL é uma das melhores ferramentas estatísticas para análise de dados. No qual inclui métricas avançadas de rede. Além disso, acesso a importadores de dados de redes de mídia social e automation.ii. Usos do NodeXLEsta é uma das ferramentas de análise de dados do Excel que ajuda nas seguintes áreas: Importação de dadosVisualização gráficaAnálise de gráficosRepresentação de dadosEste software integra-se ao Microsoft Excel 2007, 2010, 2013 e 2016. Abre como uma pasta de trabalho com uma variedade de planilhas que contêm os elementos de uma estrutura gráfica. Isso é como nós e arestas. Este software pode importar vários formatos de gráfico. Tais matrizes de adjacência, Pajek .net, UCINet .dl, GraphML e edge lists.iii. Limitações do NodeXLYVocê precisa usar vários termos de propagação para um problema específico.extrações em momentos ligeiramente diferentes. Wolfram Alphai. O Wolfram Alpha é um mecanismo de conhecimento computacional ou mecanismo de resposta fundado por Stephen Wolfram.ii. Usos do Wolfram AlphaÉ um complemento para o Siri da Apple Fornece respostas detalhadas para pesquisas técnicas e resolve problemas de cálculo. Ajuda os usuários corporativos com tabelas e gráficos de informações. E ajuda na criação de visões gerais de tópicos, informações sobre mercadorias e histórico de preços de alto nível.iii. O Wolfram Alpha só pode lidar com números e fatos conhecidos publicamente, e não com pontos de vista. Limita o tempo de computação para cada consulta. Alguma dúvida nessas ferramentas estatísticas para análise de dados? Por favor, comente. Operadores de pesquisa do Googlei. O que são operadores de pesquisa do GoogleÉ um recurso poderoso que ajuda a filtrar os resultados do Google. Isso instantaneamente para obter as informações mais relevantes e úteis.ii. Utilizações dos operadores de pesquisa do GoogleFiltro mais rápido dos resultados de pesquisa do GoogleA poderosa ferramenta de análise de dados do Google pode ajudar a descobrir novas informações.9. Solveri. O que é o Excel Solver O suplemento Solver é um programa de complemento do Microsoft Office Excel. Além disso, ele está disponível quando você instala o Microsoft Excel ou o Office. É uma ferramenta de programação e otimização linear no excel, que permite definir restrições. É uma ferramenta de otimização avançada que ajuda na rápida solução de problemas.ii. Utilizando o Solvert, os valores finais encontrados pelo Solver são uma solução para a inter-relação e a decisão. Ele usa uma variedade de métodos, desde a otimização não-linear. E também programação linear para algoritmos evolutivos e genéticos, para encontrar soluções. Limitações do Solver O dimensionamento ruim é uma das áreas em que o Excel Solver não existe.Pode afetar o tempo e a qualidade da solução.O Solucionador afeta a capacidade de resolução intrínseca do seu modelo. Dataiku DSSi. O Dataiku DSST é uma plataforma colaborativa de software de ciência de dados. Além disso, ajuda a equipe a construir, prototipar e explorar. No entanto, ele fornece seus próprios produtos de dados com mais eficiência.ii. Usos do Dataiku DSSDataiku DSS – As ferramentas analíticas de dados fornecem uma interface visual interativa. Assim, eles podem criar, clicar e apontar ou usar linguagens como SQL.iii. Limitação do Dataiku DSS Recursos de visualização limitados Barreiras da interface do usuário: Recarregamento de código / conjuntos de dadosInabilidade de compilar facilmente todo o código em um único documento / notebook Se você gosta da resposta, por favor, vote!

 

O que devo resolver com ferramentas de big data e o que devo resolver com business intelligence?

1
Se você estiver trabalhando, procure um problema nos projetos com os quais está trabalhando. Certamente há dados transacionais em algum lugar que você pode analisar. Você ficará surpreso com a quantidade de informações interessantes que poderá obter. Se estiver estudando, entre para um grupo de pesquisa que trabalha com big data. Se não houver grupos específicos de big data, procure por qualquer grupo de pesquisa com dados transacionais. Um bom número deles terá. Você pode analisá-los e estudá-los conforme minha sugestão acima.

 

Existe alguma ferramenta de visualização de dados de código aberto para big data?

1
O Tableau é uma ferramenta rápida de inteligência comercial e visualização de dados. É de código aberto para a academia. Oferece plataforma interativa de visualização de dados.

2
Confira nossa solução de Business Intelligence de Big Data (NoSQL), chamada Databasel. E sim, é de código aberto. Ele foi desenvolvido para desenvolver e implementar seus projetos de análise NoSQL de maneira rápida e fácil. Nossa visão é que você deve manter os dados onde estão e usar ferramentas inteligentes o suficiente para visualizar dados diretamente do banco de dados. Tudo o que você precisa para começar é apenas um navegador. Basicamente, plug and play! Se você tiver alguma dúvida, entre em contato conosco.

 

Como as empresas executam análises preditivas usando as ferramentas Hadoop / Big Data em larga escala?

1
Alguns de nós ainda usam a computação em grade (via Sun Grid Engine ou um pacote relacionado). Isso é muito simples se comparado ao código Hadoop: basta escrever scripts no estilo Unix e dividir seu trabalho em partes. Geralmente, é necessário algum script especial para lidar com as etapas de “redução”. O MPI aberto também é popular. O MPI aberto permite manter os processos em execução entre as etapas de “redução”. Isso pode ser crítico quando carregar dados repetidamente a cada iteração é muito caro. Usar o Open MPI é um pouco complicado, pois você precisa compilar seu código com o compilador Open MPI especial e usar sintaxe especial.

 

Qual é o futuro das ferramentas analíticas para big data?

1
Não prevejo grandes mudanças nas ferramentas. O domínio é muito grande e não há uma bala mágica. Atualmente, as ferramentas existentes são boas o suficiente quando usadas pelas pessoas com experiência. Haverá mais visualização e mais mecanismos de consulta difusa em tempo real. Ainda seria necessário algum trabalho manual para cavar os dados.

2
Hue é um projeto que está crescendo muito. Novas versões melhoram continuamente a integração das ferramentas de Big Data e fornecem melhores gráficos e interatividade com a ajuda do Search, Impala, Spark.

3
Não tenho dúvidas de que o Aclaro é o futuro quando se trata do mundo dos dados. Analisar o big data permite que analistas, pesquisadores e usuários de negócios tomem decisões melhores e mais rápidas usando os dados que antes eram inacessíveis ou inutilizáveis! Com eles, existe o não tenha mais medo de depender de papéis ou documentos offline, que geralmente podem ser manipulados, alterados ou alterados! Então, para mim, o Aclaro é provavelmente a ferramenta MAIS importante para QUALQUER empresa, independentemente do tamanho!

 

Quais são as ferramentas de big data do Excel para fazer uma análise predetiva de nossas eleições com bancos de dados de resultados primários e dados demográficos em municípios?

1
A resposta de Paulo é extremamente pessimista. Você pode usar o Power Pivot e o Power Query no Excel para lidar com milhões de linhas de dados com bastante agilidade, mesmo em um laptop. É verdade que provavelmente existem ferramentas melhores para esse tipo de coisa, mas se você quiser usar o Excel para isso, poderá. Existem alguns bons vídeos de visão geral do Power Pivot online. Analise primeiro os itens para ter uma ideia melhor do que é e por que é útil.

 

Quais são as 10 principais ferramentas de big data que devo usar hoje?

1
Essa é absolutamente a abordagem errada para o Big Data. Quais são suas necessidades primeiro? Depois de estabelecer o requisito, você poderá iniciar o processo de seleção para você. Em seguida, escolha a ferramenta que você deve usar para suas necessidades. Existem literalmente centenas de ferramentas. A maioria se sobrepõe à funcionalidade e todos têm concorrentes no mesmo domínio.

2
AnswerMinerTableaudatapinePower BIGoogle Data StudioQlikDataheroHadoopRCloudera

 

Quais são alguns bons recursos para aprender Hadoop, Hive e outras ferramentas de big data?

1
Existem vários recursos que ajudarão você a dominar o big data, o Hadoop e suas ferramentas. Big data são basicamente dados muito grandes para serem armazenados, processados e analisados usando métodos tradicionais. Para superar esse desafio do big data, o Hadoop surgiu. O Hadoop é uma estrutura que gerencia o armazenamento de big data de maneira distribuída e o processa paralelamente. O Hadoop possui suas próprias ferramentas, usadas para análise de dados. Tomemos o Hive como um exemplo; no Hadoop MapReduce geralmente o Java é usado para processar dados. Os usuários acharam difícil codificar, pois nem todos eram versados nas linguagens de codificação. Os usuários exigiam uma linguagem semelhante ao SQL, que era bem conhecida por todos os usuários. Como resultado, o Hive foi adotado pelo Facebook. O Hive foi desenvolvido com uma visão para incorporar os conceitos de tabelas, colunas como o SQL. O Hive é um sistema de armazém de dados usado para consultar e analisar grandes conjuntos de dados armazenados no HDFS. O Hive usa uma linguagem de consulta chamada HiveQL que é semelhante ao SQL. Você pode aprender sobre o Hive, Pig, HBase e outras ferramentas lendo blogs ou assistindo a alguns vídeos do YouTube. Em anexo, há um vídeo que eu pessoalmente acho útil para aprender o Hive.

2
Consulte estas respostas para perguntas semelhantes: Resposta de Saurabh Gupta para Quais habilidades precisamos para big data? Resposta de Saurabh Gupta para Qual é a ordem em que se deve aprender diferentes tecnologias para Bigdata e Hadoop? Happy Learning!

3
O Big Data está em todo lugar e os trabalhos de Big Data estão em todo lugar. Vamos deixar os clichês para trás e ir direto ao ponto – um profissional do Hadoop pode ganhar um salário médio de US $ 112.000 por ano e em San Francisco o salário médio pode chegar a US $ 160.000. Agora que temos toda a sua atenção, vamos nos aprofundar no que exatamente queremos dizer com um Hadoop Professional e quais são as funções e responsabilidades de um curso profissional do Hadoop Intellipaat que é uma marca reconhecida globalmente e que possui Big Data. Além disso, você obtém a certificação de conclusão do curso juntamente com o certificado de experiência de 3 meses, pois eles o fazem trabalhar em projetos industriais exaustivos durante o curso.

 

Como alguém pode viver projetos no Big Data Analytics para ter uma carreira nesse campo? Quais são as boas ferramentas de análise de big data para começar?

1
De acordo com mim, à medida que os anos precedem sua carreira, as ferramentas são alteradas. As novas ferramentas e novos pacotes mudam com muita frequência. Em vez disso, nas primeiras idades, concentra-se mais e aprende mais sobre estatística e probabilidade, distribuição de probabilidade, programação R ou Python e Álgebra linear.Se você é bom com esses tópicos, as ferramentas que serão úteis para você são: Para plotagem de dados e Estatística -Rstudio (GUI OF R) Para visualização de dados -RstudioSe você usa Python, então vá com Notebooks Jupyter e tenha pacotes )

2
O Programa de Certificação em Business Analytics do IIT Madras e o Programa GFMP Edge Data Scientist do BSE Institute permitem que os aspirantes compreendam profundamente as principais tecnologias usadas na análise, a saber. mineração de dados, aprendizado de máquina, técnicas de visualização e estatística. O programa foi desenvolvido com um cronograma que minimiza interrupções de trabalho e atividades pessoais, espalhadas por um ano (tempo parcial), com foco na visão geral do campo da análise, para que você possa tomar decisões de negócios informadas

3
Para perguntas da entrevista de Big Data e cenários de casos de uso criados a partir do Scratch, confira o conteúdo em nosso canal! Além disso, deixe-nos saber se você deseja aprender algum tópico específico ou caso de uso.

 

Por que tantas ferramentas populares de Big Data estão em execução na JVM em vez de no código nativo?

1
A JVM pode executar com mais eficiência do que o código nativo devido ao JIT, que pode adaptar sua geração de código nativo de algumas maneiras interessantes sobre as quais não posso fornecer detalhes. Ideia principal: Java e C ++ têm potencial semelhante de desempenho quando usados corretamente. A única desvantagem da JVM e da maioria dos idiomas disponíveis, exceto C ++, Rust e D, é a coleta de lixo que requer uma parada do mundo por pelo menos uma parte de seu trabalho. Isso está afetando apenas os aplicativos sensíveis à latência, e não os orientados à taxa de transferência, como toda a área de computação. Então, sim, o HBase é afetado e este é o principal ponto de venda do concorrente HyperTable. No entanto, seguindo o exemplo do HBase, a principal fonte de latência seria um hot spotting em uma região, em vez de apenas o GC. Ou cascata de compactação. Ou movendo regiões. Ou coprocessadores problemáticos. Portanto, geralmente os principais culpados de latência e indeterminismo são outras coisas além da GC, e a engenharia adequada conta muito mais que a linguagem. O Google tem isso em C ++. Mas a maioria das empresas não contrata talentos como o Google. Java é uma linguagem mais fácil e ainda oferece ótimo desempenho. Além disso, o ecossistema existente já é JVM. E uma execução virtualizada tem seus benefícios: você sempre verá uma mensagem e normalmente um rastreamento de pilha em Java, enquanto em C ++ ou Go você verá apenas “Falha na segmentação”. Uh A JVM possui o melhor ecossistema de instrumentação, você pode ter visibilidade na JVM com NewRelic, VisualVM, Java Melody e outras que não tenho certeza de que sejam possíveis no código nativo. Ah, e sobre o GC: existem maneiras Java de andar pelo GC: gerenciar seu próprio heap, como o Apache Flink e o Apache Spark estão prestes a fazer.

2
A implementação dessas ferramentas pelo Google é executada em código nativo. Especulo que, para grandes conjuntos de dados e os grandes grupos que o Google executa, o código nativo é importante. No entanto, para conjuntos de dados menores, você pode ser dominado pelo acesso à rede e à E / S do disco. Além disso, observe que o Google tem um problema legado. Pode ser que, com a chance de compilar tudo de novo, o Google possa optar por executar a JVM.

3
Você mencionou duas ferramentas: Hadoop (e seus componentes) e Cassandra. Existem alternativas como Microsoft Dryad e Greenplum, além de novas tecnologias como HyperDex (disponível em Python)

 

Qual é o melhor blog / site para se manter atualizado sobre as mais recentes big data, ferramentas e tecnologias de aprendizado de máquina?

1
Meus favoritos são os belov: r / MachineLearningMachine learningMachine Learning & BI blogAs pessoas estão na minha lista superior. Você obterá desses conhecimentos do blog sobre o Machine Learning como conceito básico e entenderá como ele influencia o mundo e também como casos de uso reais e estudos de caso de soluções de aprendizado de máquina. Isso ajudará você a entender melhor como o Machine Learning é usado no mundo real e de que tipo de problemas ele resolve.Por favor, deixe-me saber se foi útil.

2
Aqui está uma coleção dos artigos mais recentes sobre big data. Este briefing é atualizado a cada poucas horas. Isso fará com que você tenha que visitar vários sites diferentes todos os dias para atualizações.Tendências de grande volume de dados – Anders PinkAqui está o aprendizado de máquinaAprendizagem de máquina – Anders Pink

3
Análise computacional: um caminho para melhorar a análise de big datahttp: //blog.qburst.com/2014/10/c … Análise preditiva: http: //blog.qburst.com/2014/11/p

 

É possível transmitir perguntas do Quora usando qualquer uma das ferramentas de big data?

1
É possível usando raspagem na web. Existem várias bibliotecas usadas para descartar dados da web. Uma das bibliotecas de raspagem da web para python que eu uso é ‘Beautiful Soup’. Seria muito mais fácil se o Quora tivesse fornecido uma API.

 

Cassandra é uma ferramenta de grande volume de dados?

1

Sim, Cassandra é uma ferramenta de big data. O Apache Cassandra é baseado em um banco de dados NoSQL e adequado para dados transacionais online de alta velocidade. O Apache Cassandra é gratuito e oferece DBMS No-SQL distribuído de código aberto, construído para gerenciar grandes volumes de dados espalhados por vários servidores comuns, oferecendo alta disponibilidade. Algumas das empresas de alto nível que usam Cassandra incluem Accenture, American Express, Facebook, General Electric, Honeywell, Yahoo, etc.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Amazon Web Services: Tudo que Você Deve Saber – Parte 9 (Big Data com EMR)

Amazon Web Services: Tudo que Você Deve Saber

Amazon EMR
É óbvio que, dentre a infinidade de serviços que a Amazon oferece através da sua plataforma de computação em nuvem, haveria algum serviço voltado para análise de grandes volumes de dados.
Sim. Este serviço existe.
E atende pelo nome de Elastic Map Reduce (EMR).

A rigor, hoje o serviço se estende para muito além do map-reduce, oferecendo implantação gerenciada de Hadoop, HBase e Spark e reduzindo o ônus de gerenciamento de configurar e manter esses serviços você mesmo.

Alternativas ao EMR e Lock-in


  • A maioria dos componentes do EMR é baseada em tecnologia de código aberto que, em princípio, pode ser implantada por qualquer um, em qualquer lugar. No entanto, os fluxos de trabalho e muitas outras ferramentas são específicos do AWS. A migração de EMR para seus próprios clusters é possível, mas nem sempre simples.

Dicas de EMR


  • A EMR conta com muitas versões do Hadoop e outros softwares de suporte. Certifique-se de verificar quais versões estão em uso para usar as ferramentas mais adequadas ao seu projeto.
  • O EMR e o Hadoop disponíveis podem ter sobrecarga significativa quando comparados com o processamento eficiente em uma única máquina. Se seus dados forem pequenos e o desempenho for importante, você pode considerar alternativas, como esse post ilustra.
  • Os programadores Python podem querer dar uma olhada na mrjob da Yelp.
  • Uma vez que os trabalhos de EMR são faturados em uma granularidade de uma hora, considerando a alteração do número e/ou do tipo de instâncias que o trabalho executa para melhor fazer uso desse tempo (instâncias menores para fazer uso mais eficiente de uma hora não subscrita, instâncias maiores para reduzir o tempo de execução do seu trabalho).
  • É preciso tempo para ajustar o desempenho dos trabalhos EMR, e é por isso que serviços de terceiros como o Qubole’s data service estão ganhando popularidade como formas de melhorar o desempenho ou reduzir custos.

EMR – Problemas e Limitações


  • Os custos de EMR podem aumentar rapidamente, pois envolvem muitos fatores, a eficiência pode ser fraca, dependendo da configuração do cluster e da escolha da carga de trabalho, e os acidentes como os trabalhos suspensos podem custar caro. Vale a pena avaliar o uso das instâncias Spot e evitar o faturamento por hora. Este post tem dicas adicionais.
  • Cuidado com o “mergulho duplo”. Com EMR, você paga pela capacidade da EC2 e as taxas do serviço. Além disso, o EMR sincroniza registros de tarefas para S3, o que significa que você paga o armazenamento e as solicitações PUT nas taxas padrão de S3. Enquanto os arquivos de registro tendem a ser relativamente pequenos, todo trabalho Hadoop, dependendo do tamanho, gera milhares de arquivos de log que podem somar milhares de dólares na conta da AWS.  O log de dados da YARN  não está disponível no EMR.

Inteligência Artificial: 100+ Ferramentas pra você usar hoje!

Inteligência Artificial - 100+ Ferramentas pra você usar hoje!

Lyra é um assistente virtual de IA que te ajuda a monitorar suas emissões de carbono.

O pessoal que desenvolveu esta solução resolveu fazer um levantamento IN-CRÍ-VEL, e listaram mais de 100 ferramentas de IA para uso pessoal!!!

Veja bem.

É apenas a primeira parte de um levantamento com 3 etapas, a primeira voltada para ferramentas que usam IA para te ajudar a usar melhor seu dinheiro, cuidar da saúde, planejar viagens, encontrar emprego e muito, muito mais!

Eu não resisti e pedi ajuda pra traduzir a lista, completinha, e compartilhar aqui com você.

Então vamos lá conferir estas 100+ ideias geniais?

A
inteligência artificial é como escalar uma árvore para tentar
alcançar a lua; pode-se relatar um progresso constante, mas sempre
há mais para descobrirmos.

Nota:
alguns dos produtos ainda não foram lançados, e ainda podem ser
Beta, embora sejam ideias emocionantes, bem embasadas e promissoras.
A maioria você já pode acessar..

Inteligência Artificial para uso pessoal

🏠 Pessoal / Casa
Ems
– ajuda a encontrar o lugar perfeito para viver

Bridge
Kitchen
– assistente de cozinha para orientações
passo-a-passo na cozinha

UnifyID
– verifica a sua identidade pelo modo como você anda, digita e senta
👔
Trabalho
Carly
– ajuda a gerenciar chamadas telefônicas

ETCH
– ajuda você a gerenciar suas redes em um banco de dados pesquisável

Findo
– seu assistente de busca inteligente em e-mail, arquivos e nuvem
pessoal
Leap
– recomenda em quais empresas procurar por empregos baseado em suas
habilidades
Lomi
– identifica leads de vendas
Mosaic
– ajuda a escrever melhores currículos
Newton
– ajuda a encontrar o emprego dos sonhos
Notion
– ajuda com a sobrecarga de e-mails, organização e comunicação
Robby
– um calendário melhor e mais inteligente
Stella
– procura empregos e ajuda a gerenciar seu processo de candidatura
Woo
– ajuda você a tomar decisões mais inteligentes para sua carreira,
de forma anônima
👯
Social
Brightcrowd
– ajuda a encontrar conexões profissionais significativas

Capsule.ai
– lembre-se dos bons momentos da sua vida

Dating.ai
– aplicativo de namoro com pesquisa de rosto
ETCH
– ajuda você a gerenciar suas redes em um banco de dados pesquisável
Eezy
– deixe o Eezy cuidar da sua noite para que você possa se divertir
Hashley
– gerador de hashtags irônicas e de comentários para suas fotos
Hotness.ai
– consegue dizer o quão sexy você é
Rey
– apresenta-lhe as pessoas que você realmente deve conhecer (para
trabalhar e jogar)
🎓
Educação
Thirdleap — ajuda
as crianças a aprender matemática
Woogie —
o robô de IA conversacional que torna a aprendizagem e a descoberta
divertidas para crianças
🏥
Saúde / Medicina
Abi
– seu assistente de saúde virtual

Ada
– pode ajudar se você estiver se sentindo mal

Airi
– treinador de saúde pessoal
Alz.ai
– ajuda você a cuidar de seus entes queridos com Alzheimer
Amélie
– chatbot para saúde mental
Bitesnap
– reconhece alimentos com fotos das refeições e ajuda a contar
calorias
Doc.ai
– torna os resultados de laboratório fáceis de
entender
Gyan
– ajuda você a ir de sintomas para prováveis condições
Joy
– ajuda você a acompanhar e melhorar sua saúde mental
Kiwi
– ajuda você a reduzir e parar de fumar
Tess
por X2AI
– terapeuta de bolso
Sleep.ai
– diagnostica o ronco e moagem de dentes
🕵️
Agentes – Pessoal
Amazon
Echo / Alexa
– assistente pessoal diário para a casa

Apple
Siri
– assistente pessoal diário no iPhone e no Mac

Cortana
– assistente pessoal diário no PC e em dispositivos Windows
Facebook
M
– concorrentes da Siri, Now e Cortana
Focus
– ajuda você a se concentrar, priorizar o seu dia
Gatebox
– um assistente de anime holográfico em uma máquina de café
expresso
Assistente
do Google
– assistente pessoal diário
Hound
– assistente pessoal diário
Ling
– semelhante ao Amazon Echo
Mycroft
– é o primeiro assistente de voz de código aberto do mundo
Remi
o Siri com uma interface
Spoken
– assistente virtual com uma interface
Viv
– tipo o Siri mas 10x melhor
📅
Agentes  – Profissional
Clara
– assistente de agendamento de reuniões

Julie
Desk
– assistente de agendamento de reuniões
(direcionado a C-Suite)

Kono
– assistente de agendamento de reuniões
Mimetic
– assistente de agendamento de reuniões
My
Ally
– lida com agendamento de reuniões e gerencia
seu calendário
SkipFlag
– descobre e organiza automaticamente o seu trabalho
Vesper
– assistente virtual para o C-Suite
X.ai
assistente de programação de reuniões
Zoom.ai
– assistente pessoal para ajudá-lo no trabalho
🙍
Agentes – Diversão
Fembot
sua namorada de IA

Lifos
– entidades dinâmicas e independentes que interagem com a web e com
o social

Replika
seu amigo de IA que você conhece através de mensagens texto
📝
Agentes –  Chatbot
Brin
– ajuda você a tomar decisões de negócios mais inteligentes

Chatfuel
– criar um Facebook chatbot em 7 minutos

Luka
– chatbot messenger para pessoas e outros chatbots
MyWave
– chatbot que o ajuda em toda a sua vida
Lyra
– monitor analisa suas emissões de carbono
🗞️
Entretenimento / Notícias

Jottr
– aplicativo de conteúdo e notícias que aprende o que você gosta e
não gosta

News360
– aprende o que você gosta e encontra histórias que você vai
gostar
✈️
Viagens
Ada – chatbot que ajuda você a navegar e tomar decisões

Emma
calcula e adiciona automaticamente o tempo de viagem da reunião

ETA
– ajuda a gerenciar itinerários e reuniões de viagens
HelloGbye
– marcar vôos será muito mais simples
Mezi
– ajuda com a reserva de voos, hotéis, reservas de
restaurantes e muito mais
Ready
– Previsão de tráfego e previsão do tempo de viagem
🚗
Veículos
Vinli — transforma
qualquer carro em um smart car
🏃‍
Fitness
Mara —
aplicativo de corrida inteligente
🎵
Música
Aiva
– compõe uma trilha sonora emocional

Pandora
– encontra músicas que você pode gostar

🏛️
Seguros
Docubot
– pode aconselhá-lo sobre questões jurídicas

Driveway
– rastreia e recompensa motoristas cautelosos

🛒
Compras
Entrupy
– ajuda a detectar se os produtos high-end são autênticos

Fify
– ajuda você a comprar roupas

GoFind
– ajuda-o a encontrar roupas online tirando uma foto
Mode.ai
– ajuda você a encontrar roupas online
💰
Finanças
Abe
– respostas rápidas sobre suas finanças

Andy
– um contador pessoal

Ara
– ajuda o seu orçamento
Bond
– ajuda você a atingir seus objetivos financeiros
Mylo
– arredonda pra cima suas compras diárias e ajuda a guardar dinheiro
Olivia
– ajuda você a gerenciar suas finanças
Roger
– ajuda você a pagar suas contas facilmente
Wallet
– IA para suas decisões financeiras diárias
Xoe.ai
– IA que empresta o chatbot
📱
Mídias Sociais / Gerenciamento de Sites

Firedrop
– sites projetados automaticamente, basta adicionar o conteúdo e
publicar

Hashley
– hashtags irônicas e gerador de comentários para suas fotos
Millions.ai
– lance o índice nele e ele irá lhe construir um Web site
Oly
– seleciona e ajuda a publicar conteúdo em suas mídias sociais
Signature
– cria páginas de destino elegantes usando seu conteúdo de mídia
social
Zen.ai
– recomendações personalizadas para a sua loja Shopify
💡
IoT / IIoT
Aerial
Sensor de atividade, movimento e identidade

Bridge.ai
– plataforma de smart-home focada na fala e no som

Cubic
– um lugar para conectar seus dispositivos domésticos
inteligentes
Grojo
– um ótimo sistema de monitoramento
Home
– operações domésticas autônomas com dispositivos conectados
Hello
– ajuda você a monitorar e melhorar seu sono
Josh
– controle de voz da casa inteira
Mycroft
– é o primeiro assistente de voz de código aberto do mundo
Nanit
– o monitor de bebês reinventado
Nest
– uma gama de dispositivos internos como termostatos, segurança e
alarmes

‘’Vestíveis’’
Eli
– ajuda a aprender um
novo idioma a partir de conversas através do seu dia

Kick.ai
– lhe ajuda a analisar seus chutes e lutas

🌐
Línguas Traduções
Liv
– transcreve conversas em inglês e hindu

Microsoft
Translator
– tradutor de línguas baseado em redes
neurais

🤖
Robôs

Dispatch
– entrega por robôs

Roboy
– um robô humanóide destinado a ser tão capaz quanto um ser humano
Spoon
– um robô (eu não consegui entender seu propósito, mas parecia
legal!)
💌
Útil – Divertido – Aleatório
CaptionBot
– Microsoft descreve qualquer foto
Crowdfunding.ai
– plataforma de crowdfunding para projetos de IA
Elevador
– ajuda a encontrar e comprar cannabis (com recomendações)
Fieldguide
– guia de campo universal que sugere possíveis correspondências
Frankenstain.ai
– é uma experiência colaborativa de contar histórias usando a IA,
aprendizagem de máquinas, robótica, bio-engenharia e IoT
#Laugh
– risos visualizados em formato digital, que podem ser enviados para
o espaço
IntelligentX
Brewing Co
. – cerveja fabricada por inteligência
artificial
Spark
– faça um pedido de cannabis através de mensagens de
texto
Token
– ajuda a enviar o presente perfeito
Wixi
– ajuda a corrigir problemas com a Wifi
📚
Pesquisa
Apollo
– divide artigos e PDF’s em pontos de pontos rápidos e legíveis

Ferret.ai
– ajuda-o a pesquisar resumindo artigos e a habilidade da busca

Iris
– lhe ajuda a pesquisar e visualizar conceitos em trabalhos de
pesquisa
🎫
Eventos, Conferências e Comunidades
Events.ai
– o balcão único para eventos e conferências de AI / ML / DL
Nucl.ai
– conferências e cursos de IA
Oh.hai.ai
– jogo de nome forte!
Amesterdão
– comunidade e eventos de IA aplicados
Bangalore
– comunidade e eventos de IA aplicados
Berlim
– comunidade e eventos de IA aplicados
Bucareste
– comunidade e eventos de IA aplicados
Budapeste
– comunidade e eventos de IA aplicados
City.ai
– comunidade e eventos de IA aplicados
Hamburgo
– comunidade e eventos de IA aplicados
Hongkong
– comunidade e eventos de IA aplicados
Londres
– comunidade e eventos de IA aplicados
Madrid
– comunidade e eventos de IA aplicados
Milão
– comunidade e eventos de IA aplicados
New
York.ai
– comunidade e eventos de IA aplicados
Cracóvia
– comunidade e eventos de IA aplicados
Oslo
– comunidade e eventos de IA aplicados
Tallinn
– comunidade e eventos de IA aplicados
Tirana
– comunidade e eventos de IA aplicados
Seattle
– comunidade e eventos de IA aplicados
Cingapura
– comunidade e eventos de IA aplicados
Sofia
– comunidade e eventos de IA aplicados
Estocolmo
– comunidade e eventos de IA aplicados
Valletta
– comunidade e eventos de IA aplicados
📰
Notícias e blogs
AI
Weekly
– uma coleção semanal de notícias e recursos
sobre IA e ML
Approximately
Correct
– IA e um blog sobre o aprendizado de máquinas
Axiomzen
– Boletim informativo da IA a cada 2 semanas
Concerning.ai
– Comentaristas com IA
Fast.ai
– dedicado a tornar o poder da aprendizagem profunda
acessível a todos
Machinelearning.ai
– notícias dedicadas e atualizações para ML e IA
Machine
Learning Weekly
– um boletim de notícias manual
PRAI
– forum para IA, ML e Robótica
Narrador
– o surgimento de novas narrativas como algoritmos
inteligentes

Conclusão

Resta alguma dúvida de que a Inteligência Artificial veio pra ficar?
E que já está transformando a maneira como compramos, investimos, nos exercitamos, relacionamos com outras pessoas (e com as máquinas!), planejamos o futuro, cuidamos da saúde, etc etc etc?
O profissional de TI que buscar aproveitar as oportunidades que a explosão da IA já está proporcionando vai se dar muitíssimo bem!
Boa sorte e sucesso!
E não deixa de indicar nos comentários qual a ferramenta que achou mais legal… Eu achei a UnifyID uma viagem (identificar você pelo modo como anda?!?!?!). Diz aí! Qual te chamou a atenção?

E se você quer descobrir mais listas interessantes, fatos estranhos e curiosos, acesse http://biglistas.com.

Tudo que você queria saber sobre Agrupamento (Clustering) e não tinha a quem perguntar!

Por André Camacam
Diferentes clusters em diferentes pontos coloridos (De Matthew Mayo’s Palavras Chave de Aprendizagem de Máquina, Explicado)
Iniciando com Ciência de Dados (Data Science) ou precisando dar aquela refrescada na memória?
O agrupamento encontra-se entre as ferramentas mais utilizadas pelos Cientistas de Dados.
A seguir você vai ver 10 termos relacionados ao “tal de clustering” e suas definições.
Agrupamento é um método de análise de dados, que agrupa pontos de dados em conjunto para “maximizar similaridades dentro da classe e minimizar similaridades entre as classes” (Han, Kamber & Pei), sem utilizar rótulos de pontos pré-definidos (ou seja, uma técnica de aprendizagem não supervisionada).
Esse texto introduz palavras-chave para técnicas comuns na análise de clustering.

Seleção de Atributos

É uma etapa de pré-processamento de dados, no qual atributos redundantes e/ou irrelevantes são retirados para melhorar a qualidade do agrupamento.

Seleção de atributos podem também ser integrados diretamente ao algoritmo de agrupamento para ganho de compreensão. 

Maximização de Expectativa (EM)

É um algoritmo utilizado para estimar parâmetros de uma forma específica oriunda do modelo de dados generativo (p. ex.: Mistura de Gaussianas).

Método Baseado em Distância

K-means é um método de agrupamento utilizando distância. Possivelmente, é o exemplo mais conhecido do algoritmo de agrupamento.

É o método mais amplamente utilizado em implementações práticas, por causa da sua simplicidade. A distância Euclidiana é utilizada para computar distâncias.

Assim, os grupos particionados correspondem à média de cada agrupamento.

K-medians

É bem semelhante ao método k-means, mas utiliza a mediana junto com a dimensão, ao invés da média.

Essa abordagem é mais estável em casos de ruído e outliers, porque a mediana é geralmente menos sensível a valores extremos dos dados.

Método baseado em Densidade e Grade

Esses métodos tentam explorar o espaço dos dados em níveis elevados de granularidade.

Desse modo, eles podem ser utilizados para reconstruir toda a forma da distribuição de dados. 

Método baseado em Densidade

Em qualquer ponto particular no espaço dos dados é definido tanto em termos do número de pontos de dados em um volume pré-especificado de sua localidade quanto em termos de estimativa de densidade kernel mais suave.

Este método é naturalmente definido em um espaço contínuo, logo, são tipos de dados arbitrários, por exemplo, séries temporais, que não são tão fáceis de utilizar com métodos baseados em densidade sem transformações especializadas.

Método baseado em Grade

São uma classe específica de métodos baseados em densidade, na qual as regiões individuais da área de dados, que são exploradas, são moldadas em uma estrutura na forma de grade.

DBSCAN pode encontrar clusters não-linearmente separáveis e supera k-means ou o modelo EM de agrupamento de mistura de Gaussianas.

DBSCAN pode encontrar clusters não-linearmente separáveis e supera k-means
ou o modelo EM de agrupamento de mistura de Gaussianas

Fatoração de Matrizes

Fatoração de Matrizes é para dados que são representados como matrizes não-negativas esparsas, também é referido como co-agrupamento, que agrupa as linhas e as colunas de uma matriz simultaneamente.


Métodos Espectrais

Métodos espectrais utilizam a matriz de similaridade (ou distância) nos dados subjacentes ao invés de trabalhar com dados de pontos originais e dimensões.
Eles podem realizar uma dupla tarefa ao incorporar esses objetos em um espaço Euclidiano enquanto realizam a redução de dimensionalidade.
Deste modo, este tipo é comum para agrupamento em objetos arbitrários, tais como conjuntos de nós em um grafo.


Técnicas baseadas em grafos

Métodos espectrais podem ser considerados como uma técnica baseada em grafos para agrupamento de qualquer tipo de dado, ao converter a matriz de similaridade em uma nova estrutura de redes. 
Diversas variantes existem em termos de escolhas diferente para construir a matriz de similaridade W. 
Algumas variantes mais simples utilizam o grafo K-Vizinhos Mais Próximos, ou simplesmente o grafo binário, no qual as distâncias são menores que em um dado limite.


Cenários Streaming

Cenário streaming é a acumulação contínua de dados ao longo do tempo.
Isso leva a inúmeros desafios nos casos de análise em tempo real e em questões de escalabilidade. 
Agrupamento é um dos principais métodos utilizados em mineração de dados, por exemplo, em aplicativos para segmentação de clientes, público-alvo e resumo de dados.
Na literatura, foram propostos inúmeros grupos de métodos.
Métodos probabilísticos, métodos baseados na distância, métodos baseados na densidade, métodos baseados em grade, técnicas de fatorização e métodos espectrais são agrupamentos típicos.
A integração de métodos de redução de seleção de atributo / dimensionalidade com agrupamento é geralmente encontrada em métodos de agrupamento.

Conclusão

Com a proliferação de dados compartilhados através da web nos últimos anos, o desenvolvimento de métodos e técnicas que permitam analisar e, em especial, classificar estes conteúdos segundo algum critério, se tornaram de extrema importância.
Através das técnicas de agrupamento e classificação de grandes volumes de dados é possível, dentre outras coisas, analisar fenômenos sociais (classificação de hashtags no Twitter representando movimentos sociais) e naturais (identificação de terremotos e epidemias pela análise de redes sociais).
Portanto, o conhecimento destas técnicas é essencial para qualquer profissional que se interesse por análise de dados.
Texto traduzido e adaptado de Thuy T. Pham – Universidade de Sydney, Austrália.
Referências:
M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Conferência ACM KDD, páginas 226–231, 1996.
W. Wang, J. Yang, and R. Muntz. Sting: A statistical information grid approach to spatial data mining. Conferência VLDB, 1997.
B. W. Silverman. Density Estimation for Statistics and Data Analysis. Chapman and Hall, 1986

Para saber mais

  1. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, e vamos trocar idéias!
  2. Se inscreva na lista que criei para discutir o tema no Google Groups.

Guia do Consumidor para Big Data e Ciência de Dados (tudo que você precisa saber pra começar a adotar a tecnologia)

Tudo que você precisa saber pra começar a adotar a tecnologia de Big Data

Introdução

Estamos nadando em dados – estruturados e não estruturados, gerados por pessoas e máquinas. Os dados estão sendo criados a taxas quase inimagináveis e este cenário tende a aumentar. Estamos criando oceanos de dados provenientes de empresas, agências governamentais e até mesmo a interação de indivíduos através de redes públicas e privadas ao redor do globo.
Ao longo dos próximos anos, outro bilhão de usuários vão se conectar à Internet, com mais e mais dispositivos inteligentes, conduzindo transações on-line de dados a níveis cada vez mais elevados. O fluxo de informação digital dentro e entre empresas também está crescendo rapidamente. Muitas empresas estão integrando sensores em seus produtos e processos, criando novas fontes de fluxo de dados de alto volume.
Modelos de implementação de cloud computing estão reduzindo o tempo que leva para implantar os produtos no mercado e diminuindo o custo necessário para prestar serviços aos consumidores através da Internet. Por conta disso, é cada vez maior o grau em que as empresas estão buscando modelos e-commerce que, por sua vez, adicionam à explosão de dados.
No entanto, ainda estamos sedentos de conhecimento e inteligência. Em muitos casos, a capacidade de recolher dados ultrapassa a capacidade de analisar o significado e ações fora dele.
Algumas das empresas mais bem sucedidas do mundo devem seu sucesso, em parte, às estratégias inovadoras que tenham desenvolvido para acessar, gerenciar e usar partes dos dados para identificar oportunidades, tomar melhores e mais rápidas decisões de negócios, às vezes quase que em tempo real e proporcionar experiências personalizadas aos clientes. De acordo com a Gartner, até 2015 apenas 10 a 15% das empresas vão aproveitar plenamente Big Data, superando os seus concorrentes despreparados em 20% em métricas financeiras.


Objetivo

Big Data está tomando forma para alavancar uma mudança profunda. Como tal, a Open Data Center Alliance (ODCA) vê esta área como um próximo passo lógico para os seus membros tomarem medidas.
Além disso, existe uma interseção entre Big Data, Análise de Dados e Cloud Computing que a ODCA pretende abordar em trabalhos futuros. O escopo deste guia está focado apenas em torno do Big Data. Isto foi feito para estabelecer uma base sobre a qual o trabalho futuro, incluindo a interseção de Big Data e Cloud Computing, podem ser exploradas.
O objetivo deste documento é promover Big Data e determinar como os grupos de trabalho da ODCA podem fornecer recomendações concretas e insights que podem beneficiar tanto os provedores de soluções de Big Data e consumidores empresariais de Big Data.
Ao fornecer uma introdução ao Big Data e ilustrar os seus vários casos de uso, este artigo estabelece as bases para um conjunto de trabalhos futuros, que incluirá fornecedores de soluções e consumidores de Big Data (empresas) em conjunto para ajudar a impulsionar a criação de tecnologias de Big Data que estão abertas e baseadas em padrões, com um maior grau de interoperabilidade e eficácia de custo para grandes empresas.
As empresas podem usar as informações contidas neste documento para entender melhor o Big Data e alcançar um equilíbrio entre os investimentos existentes e os novos que melhor endereçam o crescimento exponencial do volume, velocidade e variedade de dados da empresa.

Big Data

Antes das empresas determinarem por que e como usar Big Data e antes que os provedores de soluções possam começar a elaborar a tecnologia que atende as necessidades das empresas, é importante entender o que é Big Data e como ele surgiu.

Definindo Big Data

Big Data refere-se a quantidades maciças de dados, ao tamanho e variedade, os quais estão além das capacidades de processamento de ferramentas de gerenciamento de dados tradicionais para capturar, gerenciar e analisar em tempo hábil.
Big Data vem de todos os lugares. As fontes comuns incluem:
• Máquinas que geram dados de sensores, dispositivos RFID, logs de máquinas, sinais de telefone celular, GPS e muito mais;
• Proliferação de mídias digitais (tanto on-line quanto off-line) e mídias sociais;
• Registros de transações on-line.
De acordo com a IDC, os dados não estruturados são responsáveis por mais de 90 por cento dos dados nas organizações  hoje, armazenados em mensagens de email, documentos, notas e conteúdo da Web.
De acordo com a Gartner, os dados não estruturados dobram a cada três meses e sete milhões de páginas da Web são adicionadas a cada dia.
Big Data também inclui dados estruturados tradicionais que existem em quantidades maciças.
A Walmart é um bom exemplo:
Mais de 1 milhão de transações de clientes ocorrem a cada hora, gerando mais de 2,5 PB de dados equivalente a 167 vezes a informação contida em todos os livros da Biblioteca do Congresso dos EUA.
Big Data tem inspirado abordagens novas e complementares para armazenar, consultar e analisar dados estruturados e não estruturados. Bancos de dados NoSQL são úteis para trabalhar com grandes quantidades de dados estruturados ou não estruturados, quando o que realmente importa é a capacidade de armazenar e recuperar grandes quantidades de dados, não a capacidade de examinar as relações entre os elementos de dados.
NewSQL é uma nova categoria de bancos de dados relacionais que melhora a velocidade de transação e escalabilidade.
MapReduce é um modelo de programação recentemente desenvolvido para o processamento de grandes conjuntos de dados.
Todas estas novas ferramentas e abordagens incorporam uma definição comum de Big Data como uma combinação de três Vs: Volume, velocidade e variedade.
• Volume. Como o nome Big Data sugere, o seu volume pode levar até terabytes e petabytes de espaço de armazenamento. Tem surgido como um resultado de uma crescente demanda empresarial de usar e analisar mais tipos de dados estruturados e não estruturados, que não se encaixam em sistemas operacionais e analíticos existentes. Os dados estão crescendo a uma taxa exponencial, tanto que 90% dos dados no mundo de hoje foram criados nos últimos dois anos.
• Velocidade. Cada vez mais, as empresas precisam de respostas não na próxima semana ou no próximo mês, mas agora. O carregamento em lote noturno é pouco adequado para o e-commerce, a entrega de conteúdos multimídia, a segmentação de anúncios e outras aplicações em tempo real. Isso coloca pressão sobre a aceleração do carregamento de dados, ao mesmo tempo em que os volumes de dados estão subindo rapidamente. Streaming de dados, processamento de eventos complexos e tecnologias relacionadas, predominantemente em serviços financeiros e governo, estão emergindo como requisitos de arquitetura de dados corporativos em vários setores.
Da mesma forma, como mais empresas se envolvem em mídias sociais e da Web, respondendo em tempo real ou quase em tempo real torna-se cada vez mais necessário.
• Variedade. Variedade relaciona-se com a complexidade de tipos de dados e as fontes de dados. Além disso, grande parte dos dados de hoje são não estruturados ou semi-desestruturados. Isso significa que eles não se encaixam em linhas e colunas dos tradicionais sistemas de gerenciamento de banco de dados relacionais (SGBD) puros.
Nota: outros “Vs” também podem ser usados para discutir Big Data, como Variabilidade e Valor; no entanto, os três descritos acima são os mais comumente discutidos na indústria.

Evolução do Big Data

Big Data surgiu porque estamos vivendo em uma sociedade que faz uso crescente de tecnologias intensivas de dados. Há 4,6 bilhões de assinaturas de telefonia móvel em todo o mundo e entre 1 e 2 bilhões de pessoas que acessam a Internet. Basicamente, existem mais pessoas que interagem uns com os outros e com a informação, do que nunca. As ações de cada usuário resultam em uma cascata de ações subsequentes, as quais estão agora conectadas, criando dados adicionais. Isso às vezes é chamado de “exaustão de dados.”
Apesar de Big Data ter algumas novas e bastante perturbadoras características, é simplesmente o próximo passo em uma longa evolução da dependência da empresa em dados. No início de 1980 RDBMs eram sistemas incipientes e depois se tornaram empresas de bilhões de dólares, como Oracle e SAP.
Com o crescimento da Internet, não demorou muito para que as empresas se voltassem para o processamento de transações on-line (OLTP), em seguida, aos armazéns de dados dimensionais (DW) para satisfazer as suas necessidades de armazenamento de dados e análises.
Hoje estamos no limiar de mais uma transformação, onde aqueles que se engajarem vão continuar a crescer e aqueles que permanecerem em tecnologias obsoletas vão cair no esquecimento. O que costumava ser considerado um problema de armazenamento é agora um ativo estratégico.

Porque Big Data é Importante

Combater Big Data usando abordagens tradicionais de gestão e análise de dados pode não ser sempre uma opção viável. Por exemplo, uma empresa pode decidir que o retorno do investimento (ROI) associado a ampliação de seu RDBMS não é suficiente, aplicando uma abordagem diferente e mais rentável. Ou então, uma empresa pode ser sensível à latência de determinadas questões e não pode se dar ao luxo de esperar três dias para os dados serem processados.
O fundamental é que as empresas não podem ignorar Big Data, pois ele contém informações convincentes e poderosas sobre a evolução das necessidades do cliente, pontos fracos de produto e questões de serviço recorrentes.
Utilizando novas tecnologias que vão além de RDBMS e que permitem novos tipos de agregação de dados e análise, as empresas podem obter uma percepção mais profunda e mais rica, acelerando assim a tomada de decisões e o ritmo da inovação, bem como aumentar o valor do negócio através de economias de custo significativas e aumento das receitas.
Aqui estão apenas dois exemplos onde a velocidade e o volume de dados de entrada é simplesmente muito grande para caber em um RDBMS tradicional. Antes de Big Data, esses tipos de cenários foram resolvidos utilizando amostragem e agregação.
• Operações de Rede – Provedores de serviços de telefonia fixa e de cabo precisam de uma visão holística da rede, aplicações, dispositivos e dados do assinante para obter insights para o planejamento de rede e otimização que afetam as camadas inferiores da companhia.
Análise de Big Data pode ajudar a responder perguntas como “Qual é o uso de tráfego em cada plano de dados?” e “Como é que vamos criar o plano de preços certo para nossos clientes?”
As empresas podem usar Big Data para obter mais detalhes sobre a rede, dispositivos, assinantes e aplicativos para identificar os dispositivos ou aplicativos mais populares em um determinado local, criar perfis de tráfego e identificar os principais padrões de uso do assinante.
• Uso Utilitário. Imagine a fusão de dados de um sistema doméstico de gestão de energia e fontes de dados utilitários externos. Isso tornaria possível a realização de um padrão de uso e análises que podem ajudar a detectar uma possível degradação de aparelhos ao longo do tempo, correlacionar os dados meteorológicos com gastos de energia para entender o conforto e custo, fornecer uma melhor compreensão do que impulsiona o consumo de energia e como os motoristas mudam com o tempo.
Embora muitos dos casos de uso que podem se beneficiar de Big Data já existem há algum tempo, agora eles são caracterizados pela capacidade de alavancar novos dados obtidos a partir de tipos de dados não estruturados.
Anteriormente, os dados não estruturados eram ignorados ou, na melhor das hipóteses, usados de forma ineficiente. Ao combinar as novas fontes de dados com as fontes tradicionais, as empresas podem alcançar novos e mais valiosos conhecimentos a um nível mais granular.
Antes de Big Data, a maioria das ideias foram generalizadas para um grupo ou segmento.
O custo também é um grande diferencial para os casos de uso de Big Data.
Historicamente, as empresas precisavam gastar uma quantidade significativa de dinheiro em hardware, software e desenvolvimento de aplicações customizadas para obter resultados semelhantes. 
Com o poder de servidores de commodities de hoje e soluções de código aberto, as empresas podem agora implementar esses casos de uso em uma fração do custo e com muito menos esforço. Antes de soluções de código aberto como o Apache ™ Hadoop® chegarem, a programação paralela era muito difícil, especialmente em situações em que consultas SQL não eram suficientes para expressar a análise necessária.
Nestes casos, a programação personalizada era necessária, o que é caro. Hadoop agora permite processamento paralelo acessível.
No entanto, muitas empresas atualmente não compreendem a importância de Big Data ou como começar a aproveitá-lo.
Na Conferência da Gartner Catalyst 2012, em San Diego, afirmou-se que “A compreensão de quando usar Big Data está faltando agora.”
O restante deste documento identifica uma variedade de casos de uso em potencial, descreve as tecnologias existentes e também algumas considerações de planejamento que empresas devem ter em mente ao formar suas estratégias de Big Data.
A solução certa de Big Data para uma determinada empresa depende da escolha certa do caso de uso, ferramentas e pessoal, bem como a tomada de decisões de alto nível sobre o investimento e infraestrutura.

Casos de Uso de Big Data

Uma das vantagens do Big Data é que ele pode trazer valor para quase qualquer setor da indústria, possibilitando novas perspectivas e melhorando o apoio à decisão para uma ampla variedade de projetos. A seguir, estão exemplos dos setores da indústria que podem beneficiar de Big Data.
• Mídias sociais e motores de busca
• Seguros, bancos e finanças
• Prestadores de serviços de telecomunicações e de Internet
• Prestadores de serviços móveis
• Análise de Varejo e de ponto-de-venda
• Otimização de fabricação
• Utilidade e energia
• Cuidados da saúde
• Operações de TI
• Pesquisa e desenvolvimento
• Transporte
• Computação em nuvem
• Marketing
Os consumidores podem se beneficiar através da compreensão dos casos de uso que abrangem indústrias ou que podem ser usados ​​para fins específicos da indústria para extrair valor a partir de conjuntos de dados analisados.
Por outro lado, os provedores de soluções podem projetar melhores soluções, se eles entendem as necessidades da empresa.
Esta seção fornece alguns exemplos de casos de uso que abrangem vários setores da indústria. Ela não se destina a ser uma lista exaustiva; a aplicação de grandes volumes de dados é uma área emergente e os novos casos de uso surgem numa base regular.

Exemplos da Indústria

A utilização comum de Big Data pela indústria inclui, mas não se limita a: ciência de dados de computação intensiva e armazenamento de baixo custo. Uma empresa particular pode usar Big Data em qualquer um dos seguintes casos de uso:
• Acumulação de dados e arquivamento. Tecnologias de Big Data estão sendo usadas ​​para preservar e arquivar dados.
A natureza redundante do Hadoop, juntamente com o fato de que é open source e fácil de acessar sistemas de arquivos, obrigou várias organizações a usar Hadoop como uma solução de arquivamento.
Em alguns aspectos, com servidores de commodities reduzindo o custo de armazenamento, Big Data tornou-se o “o novo backup em fita.” O arquivamento de enormes quantidades de dados pode ajudar as empresas a atender às normas de conformidade regulamentar, bem como preservar os dados, mesmo que a empresa ainda não esteja completamente certa do que fazer com os dados.
• Pesquisa e desenvolvimento. Muitas empresas, como fabricantes de produtos farmacêuticos, usam Hadoop para navegar através de enormes volumes de pesquisa baseada em texto e outros dados históricos para ajudar no desenvolvimento de novos produtos.
• Análise preditiva. Os analistas têm usado algoritmos avançados para correlações e cálculos de probabilidade em relação aos dados atuais e históricos para prever mercados como prática padrão. As grandes quantidades de dados históricos do mercado e da velocidade com que novos dados precisam ser avaliados, tornar esta uma excelente aplicação da tecnologia de Big Data. A capacidade de realizar cálculos mais rápido e em hardware commodity, faz Big Data um substituto confiável para a abordagem legada relativamente lenta e cara.
• Otimização de rede para impedir falhas. Tecnologias de Big Data são usadas ​​para analisar as redes de qualquer tipo. Redes, como a rede de transporte, a rede de comunicações, a rede de proteção da polícia e até mesmo uma rede de escritórios locais, todos podem se beneficiar de uma melhor análise.
Considere uma rede local. Com estas novas tecnologias, grandes quantidades de dados são coletados a partir de servidores, dispositivos de rede e outros hardwares de TI. Padrões que conduzem a problemas de rede podem ser identificados para que gargalos e outros problemas possam ser evitados antes que eles introduzam um efeito adverso sobre a produtividade.
• Tomada de decisão em tempo real e ajuste de cenário. Cada vez mais, os OEMs estão adicionando sensores para plataformas para que possam ser utilizados para o pagamento, autorização e identidade.
Estes incluem sensores para muitos outros fatores além da tradicional localização e conectividade, como umidade, temperatura e luz ambiente. Os sensores podem gerar uma grande quantidade de dados e as empresas podem usar esses dados para adaptar um ambiente, produto ou serviço para atender com mais precisão as necessidades dos consumidores (ou provedores) em tempo real.
• Uso do sistema. Monitoramento do uso do sistema – se os recursos são servidores, memória, armazenamento, rede ou serviços comuns, como Lightweight Directory Access Protocol (LDAP) – gera grandes quantidades de dados que podem iluminar as tendências e habilitar as empresas a planejar melhor.
Usando esses dados, a equipe de operações pode controlar a forma como os subsistemas estão se comportando e estabelecer regras e políticas para responder a limites de uso. Além disso, a equipe de operações pode otimizar a utilização do sistema por meio do rastreamento de picos e baixos de uso, ajudando a evitar tanto o excesso de alocação (desperdício) e sub-alocação (potencialmente catastrófico).
• Análise de causa raiz. Em casos onde existe uma grande falha no sistema, a causa de raiz pode ser pouco clara. Muitas vezes, uma cascata de eventos ocorre e a história do que aconteceu está contida no conjunto completo de arquivos de log e dados de monitoramento recolhidos em todo o centro de dados.
Portanto, encontrar a causa raiz pode envolver análise de grandes conjuntos de dados, em busca de um ponto específico, correlacionando dados de fontes díspares.
• Análise de sentimento e gestão de fidelização dos clientes. As empresas podem usar a análise de voz e análise de texto, com base em modulação de voz e análise de palavras-chave, para entender melhor os sentimentos do cliente.
Extrair percepções oportunas ​​sobre os sentimentos do cliente, pode habilitar as organizações a melhorar a satisfação do cliente em tempo hábil e gerenciar a rotatividade de forma adequada.
• A preservação de dados. Encontrar a informação certa e descobrir tendências.
• A movimentação de dados. Extração, transformação e carregamento (ETL) offload.
• Análise de funil de marketing (análise de conversão).
• A segurança da informação. Detecção de malware e detecção de fraudes.
• Motor de recomendação. App Store e e-commerce.
• Testes A/B de páginas da web.
• Análise de Cohort e gráficos sociais.

Conclusão

O texto acima é uma tradução parcial e adaptada do Guia do Consumidor, da ODCA, cujas informações são de extrema importância para a compreensão de como a tendência Big Data pode ser aproveitada pelas organizações mundo afora.
Vemos que as empresas ainda têm um caminho a percorrer, buscando amadurecer o entendimento das tecnologias para Big Data, de forma que seja possível fazer o melhor uso possível das inḿeras ferramentas já disponíveis no mercado, resolvendo problemas até então insolúveis ou melhorando as soluções existentes.

Para saber mais

  1. Baixe o ebook sobre soluções para Big Data que escrevi;
  2. Se inscreva na lista que criei para discutir o tema no Google Groups;
  3. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, e vamos trocar idéias!

Carreira em Big Data é uma escolha inteligente? 6 Provas que SIM!

Como ingressar em uma carreira em Big Data e Inteligência Artificial?

Planeje-se para investir seu tempo em obter a certificações para adquirir experiência em frameworks relacionados, como Hadoop, Spark etc.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Neste caso uma conversa pode ajudar…

Conversar com alguém mais experiente ajuda…

A ter mais CLAREZA dos seus objetivos…

A identificar os maiores DESAFIOS que vocẽ terá pela frente…

A traçar um PLANO pra superar esses desafios…

Parece interessante?

Ótimo!

Você pode agendar sua CONVERSA GRATUITA clicando aqui.

Está preocupado se você está cometendo um grande erro?

Basta passar alguns minutos lendo este blog e você terá seis razões pelas quais você está fazendo uma escolha inteligente ingressando uma carreira na big data.

Por que Big Data?

Existem várias pessoas que acreditam que Big Data é a próxima grande coisa que ajudaria as empresas a se destacar a frente das outras e ajudá-las a posicionarem-se como a melhor em seus respectivos setores.

Atualmente, as empresas geram uma quantidade gigantesca de informações, independentemente da indústria as quais pertencem e há uma necessidade de armazenar estes dados que estão sendo gerados para que eles possam ser processados ​​sem perder informações importantes que poderiam levar a um novo avanço em seu respectivo setor.

Atul Butte, da Faculdade de Medicina de Stanford, evidenciou a importância dos dados, dizendo “o que se esconde dentro desses montes de dados é o conhecimento que poderia mudar a vida de um paciente, ou mudar o mundo”.
E é aqui que o Big Data Analytics desempenha um papel crucial.
Com o uso de plataformas de Big Data, gigantescas quantidade de dados podem ser reunidas e processadas para desenvolver padrões que ajudem
a empresa a tomar melhores decisões que vão ajudá-la a crescer, aumentar a sua produtividade e ajudar a criar valor aos seus produtos e serviços.

Por que escolher uma carreira em Big Data?