Carreira de Cientista de Dados, Inteligêcia Artificial e Big Data: 50+ Dúvidas Respondidas!

Dúvidas Big Data

A carreira de Cientista de Dados, Inteligência Artificial e Big Data é uma das mais badaladas dos últimos anos, e neste texto você encontra dicas para encontrar o caminho mais curto para trilhar essa carreira tão promissora.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Há alguns anos fiz uma pesquisa junto os leitores do Tecnologia que Interessa!, sobre suas dúvidas e desafios em relação a Big Data e Ciência de Dados.

Agora, resolvi atualizar este levantamento e complementar a lista de dúvidas respondidas com uma compilação que fiz de dúvidas comuns postadas em fóruns especializados e outros sites.
O resultado foi a lista enorme de perguntas e respostas que você vai ter acesso agora.
Mas antes, uma rápida análise sobre as informações coletadas no levantamento junto aos leitores do blog.
Será que muita coisa mudou de lá pra cá? O que você acha?
Algumas observações preliminares sobre as respostas:
  1. A pesquisa solicitava informar se o respondente estava empregado e sua área de atuação, e com isso foi possível perceber algumas peculiaridades dos perfis. Enquanto desenvolvedores e engenheiros de software estavam mais interessados em entender como funciona a tecnologia, exemplos e projetos, analistas e técnicos de suporte queriam saber “tudo”, já que a maioria não tinha praticamente nenhum conhecimento sobre o assunto, assim como alguns gestores. Outros gestores estavam interessados na aplicabilidade da tecnologia, por onde começar, e como adotar em pequenas e médias empresas. Vamos tentar endereçar tudo isso nas próximas linhas.
  2. O nível de importância da tecnologia foi de aproximadamente 6, variando de 1 a 10, o que demonstra que, de forma geral, os profissionais reconhecem a importância de aprender sobre a tecnologia em termos de mercado e carreira.
  3. Foram 75 respondentes, sendo a maior parte composta de Gestores de TI, seguidos de perto pelos Analistas de Suporte e, mais longe, dos Desenvolvedores. Pode parecer estranho, mas isso reflete o perfil dos leitores do blog (mais infra e gestão, menos dev);
  4. A fonte de informação mais comum nas respostas foi do tipo portais de notícias, seguida por sites de vídeo e blogs, praticamente empatados. Entendi o recado, e pretendo escrever ainda mais e gravar vídeos sobre o tema em breve.
  5. A rede social mais usada é o Facebook, seguido de longe pelo LinkedIn e, mais longe ainda, o Google+.
Vamos às dúvidas, enfim.
Neste Conteúdo Você Vai Saber... hide

1 – Por Onde Começar?

A resposta, ainda que óbvia, revela uma “pegadinha”. Embora a melhor opção pra começar seja estudar, eu não recomendo a leitura exclusivamente de blogs e sites.
Como assim, Christian? Você tem um blog!
A resposta pode parecer estranha, mas a verdade é que, para entender “direito” uma tecnologia, é necessário buscar conhecimento estruturado, e não apenas informações soltas, parciais, ainda que úteis.
Há muito mais conteúdo aqui no blog sobre o tema, mas se você está partindo do zero, é necessário seguir uma sequência lógica para um melhor entendimento do assunto.
E este é o grande defeito dos blogs, as informações ficam, por padrão, organizadas cronologicamente, e não são agrupadas por tema e estruturadas
Tentando resolver essa questão, aqui está a sequência lógica que entendo ser mais interessante pra que você possa obter o máximo dos conteúdos sobre o tema aqui no blog.
  1. Confira os números do mercado para Big Data neste infográfico;
  2. Aprenda o que é Big Data, seus conceitos básicos, veja casos de uso e exemplos no Guia do Consumidor;
  3. Entenda como determinar quanto é Big, ou seja, o que pode ser considerado Big Data, clicando aqui;
  4. Aprenda sobre Hadoop, uma das principais ferramentas para Big Data, bem como sobre HDFS e Map Reduce, seus principais componentes, aqui e aqui;
  5. Descubra o que fazer para trilhar uma carreira de sucesso como Cientista de Dados neste guia e neste infográfico;
  6. Por fim, fique antenado com as novidades da tecnologia através desses grupos do LinkedIn e Facebook. E, claro, acompanhando o blog! 🙂
  7. BÔNUS – se quiser ir além, você ainda pode conhecer técnicas e ferramentas específicas aquiaquiaquiaqui e aqui.

2 – Como Aplicar Big Data, Inteligência Artificial e Ciência de Dados em Empresas de Pequeno e Médio Porte?

O melhor caminho pra começar um projeto Big Data é perguntando qual a utilidade da tecnologia para a sua empresa.A resposta não é fácil, pois depende de um embasamento mínimo que permita identificar um caso de uso válido.

IBM lista 6 passos pra iniciar um projeto Big Data, começando pela identificação de um problema a ser resolvido na organização, seleção de pessoas de negócio e TI, definição de arquitetura, escolha de ferramentas, parceiros, etc.

Talvez o início seja a parte mais difícil, pois encontrar um problema relevante para o negócio e que dependa de análise de dados é complicado.

Ainda que a solução para quase todos os problemas de uma empresa hoje envolva algum tipo de análise de dados, encontrar um problema relevante, cuja solução vai impactar na organização a ponto de impulsionar avanços na adoção da tecnologia, pode ser um grande desafio.

O mais importante é encarar o desafio com a certeza de que há alguns facilitadores. O acesso a conhecimento na tecnologia é fácil e barato, e vários fornecedores como IBMAmazonMicrosoftClouderaHortonworksMapr e outros oferecem cursos gratuitos (obviamente, voltados para suas soluções – ainda assim muito úteis!).

Há também uma série de parceiros, alguns com conhecimento multi-fornecedor, que podem ajudar a identificar um caso de uso e apoiar na implantação de um projeto piloto. A carência de profissionais especializados faz com que as empresas forneçam um nível maior de apoio aos clientes, e isso deve ser aproveitado com sabedoria.

3 – Preciso ser um Cientista de Dados?

Projetos de análise de grandes volumes de dados têm, por natureza, uma característica mutidisciplinar, exigindo, com frequência, equipes compostas de profissionais com perfis diversos.De acordo com a Pentaho, uma “equipe ideal” teria executivo patrocinador, usuário de negócio, especialista de negócio, cientista de dados, engenheiro de software/dados, jornalista de dados e arquiteto de sistemas/plataforma.

Evidentemente, a complexidade do projeto vai determinar o tamanho e diversidade de perfis da equipe, mas, respondendo objetivamente a pergunta: não necessariamente você precisa ser cientista de dados pra participar de projetos de Big Data e Ciência de Dados.

Entretanto, ser um cientista de dados garante a sua participação em qualquer projeto 🙂

4 – Onde (e o quê) Estudar para trabalhar com Inteligência Artificial e Big Data?

Já mostrei aqui o caminho a trilhar para se tornar um Cientista de Dados neste Infográfico.
Em resumo, estes são os assuntos mais importantes:
  1. Estatística e Matemática;
  2. Programação (Python, Java, R, Scala);
  3. Bancos de Dados (SQL e NoSQL);
  4. Visualização de Dados e Relatórios;
  5. Sistemas Distribuídos (Hadoop, Spark);
No outro texto sobre a Carreira de Cientista de Dados, relacionei os seguintes cursos no Brasil:
Especialização da Universidade Presbiteriana Mackenzie em Ciência de Dados (Big Data Analytics), com custo de 12 x R$ 1159,00 + 9 parcelas a definir.
MBA Analytics em Big Data, da FIA, com custo de R$ 28 mil.
MBA em Big Data (Data Science), da FIAP, a partir de 24 x R$ 950,00.
No exterior há muito mais opções, inclusive cursos em português.
Coursera (em inglês)
Big Data University (IBM – em inglês)
Udemy (vários cursos em português!)
Udacity (os famosos nano-degrees têm opções em português!)
E há também as opções de cursos, mas é importante ter cuidado.
Não recomendo os cursos do IGTI, por exemplo, tive referências ruins deles.
Já a Data Science Academy oferece alguns cursos gratuitos, e tem ótimas referências.
Agora, se você busca custo/benefício, então só há uma alternativa.

5 – Quais as principais ferramentas?

E aí, assustou?
Pois é.
O ecossistema Big Data é tão grande que já há quem diga que cresceu demais!
Mas não se desespere.
Comece pelas linguagens de programação, pois o tratamento dos dados é a etapa mais importante.
Eu sou fã do R, mas há quem defenda Python com unhas e dentes e Scala vem ganhando popularidade. E tem o Java, claro.
Hadoop Spark são requisitos obrigatórios pra qualquer profissional que busque uma formação completa.
A partir daí, as ferramentas a serem usadas dependem do objetivo.
Escalar seu DW usando o Hive;
Migrar os dados estruturados do SQL pro Hbase;
Analisar dados em tempo real com o Storm;
Consultar dados não estruturados usando SQL com Drill;
Indexar dados estruturados ou não com o Solr/Lucene;
Enfim… a lista de possibilidades é infinita.

6 – Como integrar Big Data, Inteligência Artificial e SGBDs/DW/BI tradicionais?

Essa pergunta é interessante e importantíssima para qualquer organização, afinal toda empresa tem seu legado, seus sistemas tradicionais, de uso essencial para sua operação. Muitas têm BI e já fazem análises mais sofisticadas dos dados dos sistemas transacionais.

Percebendo esta realidade, os fornecedores de soluções para Big Data Analytics e Ciência de Dados criaram a abordagem denominada Data Lake, em que o objetivo é estruturar um conjunto de dados que permita enriquecer e ampliar as análises tradicionais já realizadas.

Com isso, é possível utilizar ferramentas como Hadoop, Spark, R e muitas outras para coletar, tratar e integrar dados de fontes diversas, estruturados ou não, ao ambiente de análise de dados da empresa, ao seu DW/BI por exemplo.

Um exemplo prático disso é a possibilidade de usar R pra coletar dados de sites na web e redes sociais com notícias e comentários sobre a empresa, fazer um trabalho de análise de sentimento e armazenar o resultado no DW, integrando posteriormente com o ERP através do BI. Isso permitiria relacionar a opinião do mercado com os resultados financeiros da empresa e determinar o grau de impacto que uma notícia ruim pode ter nos lucros, por exemplo.

Imagino que a Volkswagen precisou fazer um trabalho desse tipo (caso já não tivesse) para lidar com o escândalo da falsificação dos resultados da emissão de poluentes, que arranhou gravemente sua imagem em 2015.

Algumas Considerações

A tecnologia está amadurecendo rápido.

O ecossistema de soluções é gigantesco.

São infinitas possibilidades de aplicações.

Isso tudo assusta.

Por isso escrevo tanto sobre este assunto aqui no blog.

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.

Voltemos às dúvidas!

Como devo me preparar para uma entrevista com cientistas de dados no Facebook?

1
Outro ponto a ser observado: lembra-se da escola quando você faz um exame e estuda as anotações do professor porque provavelmente haverá perguntas palavra por palavra com base nas anotações dele? Imagino que algumas entrevistas possam ser assim. Falar com um ou dois entrevistadores e funcionários recentes por suas habilidades e conhecimentos no LinkedIn pode não ser uma idéia terrível.

2
Juntamente com as sugestões de outras pessoas, você pode tentar descobrir o que o Facebook de P&D está fazendo e tentar contribuir de alguma forma. Ter competência é boa, mas não suficiente, tente criar alguns casos de uso / projetos pessoais que o ajudem a abrir portas no Facebook. Conecte-se com as pessoas que estão por aí e entenda quais compromissos seu papel precisa dos indivíduos.

3
Não apenas no Facebook, você pode se preparar para todas as entrevistas de ciência de dados em qualquer campo. Para obter mais informações, entre em contato com o Data Monk para obter entrevistas de emprego sem problemas, além de ler esses livros que ajudarão você a entender as necessidades de uma entrevista. .in: Kindle Store5 Entrevistas reais completas sobre ciência de dados Q e A eBook: TheDataMonk: Amazon.in: Kindle Storehttps: //www.amazon.in/dp/B07QW3NBLW

Preciso de um diploma para me tornar um cientista de dados?

1
Em teoria, você pode aprender tudo o que precisa saber sem precisar ir à escola. Mas, realisticamente, você não conseguirá um emprego em ciência de dados sem um diploma.

2
Sim. Toda indústria precisa de alguma credibilidade de que você é um cientista de dados. Isso só pode ser cumprido por um diploma. Para uma pessoa normal ter uma base em ciência de dados, é necessário um diploma. A outra abordagem é tediosa e demorada. trabalho na indústria, especialmente no campo de TI.Saiba Big Data on-line por conta própria (embora seja difícil organizar o que estudar porque o big data é um campo enorme). Depois de algum tempo, procure trabalhos internos em big data e dê um salto em sua organização .

3
Analisei 350 descrições de cargo com o título “Data Scientist”, publicado principalmente em Bay Area, para descobrir a resposta a esta pergunta: “O mercado determina quem é um cientista de dados”

Os cientistas de dados ganham um ótimo salário, mas deve haver uma desvantagem. Qual é a desvantagem de ser um cientista de dados?

1
Dois grandes riscos: com algumas raras exceções, os empregadores não sabem para que serve a ciência de dados – ou que oportunidades podem ter com os cientistas de dados. Além disso, com algumas raras exceções, a disponibilidade e a qualidade dos dados costumam ser insuficientes para produzir valor ciência de dados. Qualquer uma das alternativas acima ou acima dificultará sua taxa de sucesso como cientista de dados, transformando-a em um trabalho ingrato. Nem todo mundo tem a sorte de trabalhar em um ambiente do tipo Google ou Facebook e você precisará estar pronto para criar sua descrição de trabalho, tanto quanto executá-la.

Quais são as melhores certificações de cientista de dados?

1
O DexLab Analytics é um instituto que fornece treinamento decente e orientado para a indústria em ciência de dados. Eles têm aulas on-line e off-line e têm faculdades experientes. O DexLab é conhecido por seu ambiente de sala de aula interativo e horários flexíveis. Eles também estão dando descontos para estudantes universitários interessados em aprender ciência de dados em seus centros de Gurgaon e Pune. Todos os detalhes sobre esta promoção podem ser encontrados na página do Facebook. Definitivamente, eu recomendaria este instituto se você quiser ser um cientista de dados bem-sucedido.

Quais são algumas das perguntas de quebra-cabeças / quebra-cabeças feitas em uma entrevista de cientista / analista de dados?

1
Aqui está um quebra-cabeça que me foi perguntado em uma de minhas entrevistas para o perfil de analista. Em um país em que as pessoas só querem meninos, toda família continua tendo filhos até ter um menino. Se eles têm uma menina, eles têm outro filho. Se eles têm um menino, eles param. Qual é a proporção de meninos para meninas no país? Dica: Tente responder a essa pergunta intuitivamente e depois prove sua resposta matematicamente.

É melhor ser um cientista de dados pesados de “banco de dados / programação” OU um cientista de dados pesados de “estatística”?

1
Resposta a curto prazo – Programação pesada. A maior parte do trabalho atualmente no mercado está em Data Munging. De qualquer projeto de ciência de dados, cerca de 60% a 70% dos esforços atualmente são dados Munging. Com ferramentas como datameer, platfora e várias outras, amadurecendo. Estamos passando da idade da pedra de Data munging para a idade do ferro. A necessidade está mudando para a solução de problemas de análise. Resposta a longo prazo: Equilibre os itens acima com uma grande dose de conhecimento do domínio e uma mentalidade analítica. Consulte mais pensamentos aqui Como posso me candidatar a um emprego no Data Scientist sem ter um doutorado?

Eu quero me tornar o melhor cientista de dados. O que devo ler? Quais são os melhores livros?

1
Para um iniciante completo, recomendo: Data SmartPython Machine Learning

2
O objetivo deste artigo é apresentar os principais conceitos e ferramentas para o desenvolvimento de um projeto de arquitetura de dados, com o objetivo de otimizar o tempo de execução dos projetos, otimizando o tempo de execução e otimizando o tempo de execução. livro muito bom, com o nome “OpenIntro Statistics”, de Diez, Barr e Çetinkaya Rundel.3. Encontrei uma publicação muito útil no Analytics Vidhya, compartilhando abaixo o link.15 Livros de leitura obrigatória para empreendedores em ciência de dadosHá 15 livros listados com explicação detalhada. Espero que ajude. Aprendizado feliz!

Qual é o pior pesadelo de um cientista de dados?

1
Meu pior pesadelo é não técnico. É ter pessoas que dizem que amam dados, mas na verdade não sabem como usá-lo, dizendo que os dados estão errados porque “eles sabem”.

2
O pior pesadelo não é realmente sobre dados – eu gosto de lidar com todos os tipos de problemas de dados, incluindo situações em que não temos dados suficientes.Em vez disso, é sobre como as pessoas usam seus resultados de maneira inadequada – talvez exagerem incorretamente o resultado para atacar seus clientes. oponentes (política do escritório); ou talvez eles não entendam / apreciem o processo científico, mas só querem usar a ciência de dados para empacotar suas ideias.

3
Quando os dados não seguem uma DISTRIBUIÇÃO NORMAL … (Os que trabalham no Google Analytics poderão entendê-los;): P)

Um cientista de dados é considerado um cientista ‘real’?

1
Enfim, o que é um cientista? Se você é pago para criar modelos, projetar e conduzir experimentos, publicar resultados na literatura revisada por pares, orientar estudantes e pós-docs, solicitar subsídios etc., não tenho nenhum problema com você se chama cientista. A maioria das posições de “cientista de dados” não possui um componente de pesquisa, publicação ou orientação; você está fazendo uma mistura de programação, estatística e matemática aplicada. Existem alguns cientistas de dados que pesquisam, mas, para uma primeira aproximação, você é um programador ou, possivelmente, um analista.

2
Alguns são. Alguns não são. Procurei propositadamente posições mais orientadas para a pesquisa, a fim de permanecer na ciência a maior parte do meu trabalho. O estatístico bayesiano é provavelmente mais preciso que o cientista, mas eu faço um monte de desenho de estudo, além de análises. No entanto, estou em uma unidade de negócios de operações e já ocupei unidades de negócios em posições anteriores, em vez de equipes de tecnologia.

Quais são os cursos recomendados para cientistas de dados?

1
Por favor, leia minha resposta a uma pergunta semelhante Resposta de Emmanuel Ibidunmoye a Quais aulas devo fazer em estatística / ciência de dados?

2
O aprendizado de máquina aplicado é Python.Pule as coisas de construção de modelo de ciência de dados até que você esteja bem versado em Python.A maioria do aprendizado de máquina não é modelagem de construção de qualquer maneira… é disputa de dados. Siga a foto abaixo e você estará muito melhor do que ninguém Quem está focado na construção de modelos.Inicie aqui: O Curso Completo de Python para Engenheiros de Aprendizado de MáquinaÉ gratuito e é no mundo real.

Como é uma entrevista com cientistas de dados no Google?

1
O Google não tem um papel explícito de cientista de dados. Portanto, quase nenhuma das entrevistas tem perguntas sobre aprendizado de máquina / ciência de dados. Você começa a trabalhar em projetos de aprendizado de máquina de uma das seguintes formas: 1) ser reconhecido mundialmente em aprendizado de máquina como Geoffrey Hinton, Andrew Ng. sob um dos pesquisadores de aprendizado de máquina de renome mundial.3) Já trabalha no Google em outros projetos há mais de 6 a 7 anos e conseguiu transferir internamente para o projeto ML.

Qual das opções de carreira é melhor desenvolvedor Full Stack ou cientista de dados?

1
Eu pessoalmente estou treinando para ser um cientista de dados, mas sei que os desenvolvedores de pilha completa precisam conhecer tecnologias JavaScript, NodeJS, HTML, CSS.Quando se trata de cientista de dados, você precisa conhecer não apenas Python e R, você precisa conhecer matemática, análises , estatísticas, probabilidade, pensamento estatístico e muitos outros resultados finais. Ambos são bem recebidos e difíceis, mas valem a pena quando realizados.Pergunta Como é ser cientista de dados no Yahoo? 1 # Nome da pergunta: Como é ser cientista de dados no Yahoo 1? TOP 25 DICAS PARA SER UM CIENTISTA PRO DE DADOS Olá amigos, eu trabalho em uma empresa de caça de cabeças desde 2014, principal campo em d, ata ciência, IA, aprendizado profundo…. Deixe-me compartilhar dicas incríveis para se tornar um cientista profissional e especialista, como abaixo. Espero que você ame. (ref do kdnuggets) .1. Aproveite fontes de dados externas: tweets sobre sua empresa ou seus concorrentes ou dados de seus fornecedores (por exemplo, estatísticas personalizáveis do eBlast do boletim informativo disponíveis nos painéis do fornecedor ou no envio de um ticket) 2. Físicos nucleares, engenheiros mecânicos e especialistas em bioinformática podem ser ótimos cientistas de dados. Declare seu problema corretamente e use métricas sólidas para medir o rendimento (acima da linha de base) fornecido pelas iniciativas de ciência de dados. Use os KPIs certos (principais métricas) e os dados certos desde o início, em qualquer projeto. Mudanças devido a más fundações são muito caras. Isso requer uma análise cuidadosa dos seus dados para criar bancos de dados úteis. Refira este recurso: 74 segredos para se tornar um cientista profissional de dados6. Com grandes dados, sinais fortes (extremos) geralmente são ruídos. Aqui está uma solução. Big dat, a tem menos valor do que dat útil, a.8. Use big dat, de fornecedores de terceiros, para obter inteligência competitiva. Você pode criar ferramentas baratas, excelentes, escalonáveis e robustas com bastante rapidez, sem usar a ciência estatística antiquada. Pense em técnicas sem modelo. Big dat, a é mais fácil e menos oneroso do que você pensa. Obtenha as ferramentas certas! Aqui está como começar.11. Correlação não é causalidade. Este artigo pode ajudá-lo com esse problema. Leia também este blog e este livro. Você não precisa armazenar todos os seus dados, permanentemente. Use técnicas inteligentes de compactação e mantenha apenas resumos estatísticos, para dados antigos, a.13. Não se esqueça de ajustar suas métricas quando seu da, ta mudar, para manter a consistência para fins de tendências.14. Muito pode ser feito sem da, tabases, especialmente para grandes da, ta.15. Sempre inclua EDA e DOE (análise exploratória / desenho do experimento) no início de qualquer projeto científico da. Sempre crie um dicionário da, ta. E siga o ciclo de vida tradicional de qualquer projeto científico da. Da, ta pode ser usado para muitos propósitos: – garantia de qualidade – para encontrar padrões acionáveis (negociação de ações, detecção de fraude) – para revenda aos clientes da empresa – para otimizar decisões e processos (pesquisa operacional) – para investigação e descoberta (IRS, litígios, detecção de fraudes, análise de causa raiz) – comunicação máquina a máquina (sistemas de lances automatizados, direção automatizada) – previsões (previsões de vendas, crescimento e previsões financeiras, clima) 17. Não despeje o Excel. Adote a análise de luz. Da, ta + modelos + sentimentos + intuição é a combinação perfeita. Não remova nenhum desses ingredientes em seu processo de decisão.18. Alavancar o poder das métricas compostas: KPIs derivados dos campos da, tabase, que têm um poder preditivo muito melhor do que as métricas d, atabase originais. Por exemplo, sua base de dados da tab pode incluir um único campo de palavra-chave, mas não discrimina entre a consulta do usuário e a categoria de pesquisa (às vezes porque d, ata vem de várias fontes e é combinado). Detecte o problema e crie uma nova métrica chamada tipo de palavra-chave – ou d, ata source. Outro exemplo é a categoria de endereço IP, uma métrica fundamental que deve ser criada e adicionada a todos os projetos de análise digital. Quando você precisa de processamento em tempo real? Quando a detecção de fraude é crítica ou ao processar d, ata transacional confidencial (detecção de fraude no cartão de crédito, 911 chamadas). Fora isso, a análise atrasada (com uma latência de alguns segundos a 24 horas) é boa o suficiente.20. Verifique se o seu d, ata sensível está bem protegido. Verifique se seus algoritmos não podem ser adulterados por hackers criminosos ou hackers de negócios (espionando seus negócios e roubando tudo o que podem, legal ou ilegalmente, e comprometendo seus algoritmos – o que se traduz em severas perdas de receita). Um exemplo de hacking comercial pode ser encontrado na seção 3 deste artigo. Misture vários modelos para detectar muitos tipos de padrões. Média desses modelos. Aqui está um exemplo simples de mistura de modelos.22. Faça as perguntas certas antes de comprar o software.23. Execute simulações de Monte-Carlo antes de escolher entre dois cenários. Use várias fontes para o mesmo d, ata: sua fonte interna, e d, ata de um ou dois fornecedores. Entenda as discrepâncias entre essas várias fontes, para ter uma idéia melhor sobre quais devem ser os números reais. Às vezes, ocorrem grandes discrepâncias quando uma definição de métrica é alterada por um dos fornecedores ou alterada internamente, ou dados são alterados (alguns campos não são mais rastreados). Um exemplo clássico são os dados de tráfego da Web: use arquivos de log internos, o Google Analytics e outro fornecedor (por exemplo, Accenture) para rastrear esses dados.25. Entrega rápida é melhor que extremaprecisão. Todos os conjuntos de dados estão sujos de qualquer maneira. Encontre o compromisso perfeito entre perfeição e retorno rápido.

Qual seria o seu conselho para um cientista de dados aspirante?

1
Aprenda a matemática e procure o ponto principal de um projeto, em vez de um documento de requisitos entregues a você. Ambas as habilidades ajudarão você a aplicar o algoritmo correto para os dados e o problema em questão. Ambos também são sutis, e é possível obter emprego e permanecer empregado um pouco sem eles. No entanto, ambos ajudarão você a passar de um bom cientista de dados a um bom ou ótimo cientista de dados, o que é crucial para o avanço na carreira e permanece empregado quando os padrões são definidos para o campo (provavelmente nos próximos 5 anos).

2
Habilidade, habilidade, habilidade. O mais importante é acompanhar as ferramentas e técnicas atualmente benignas usadas ou experimentadas. Se você tem uma idéia da ferramenta existente, tem uma chance muito maior de escolher a ferramenta certa para o trabalho. Isso não significa que você precise escrever todas as linguagens de programação sob o sol. significa apenas saber que existe e se você encontrar um problema que precisará dele, poderá buscá-lo rapidamente 🙂

Qual é o salário do Facebook para um cientista de dados?

1
Depende da sua experiência e do departamento em que você foi contratado. Geralmente, as ações são abertas e o bônus é relativamente grande em relação ao salário (comum em todo o Vale do Silício). Considere também o custo da habitação na área da baía ou em um escritório satélite. O que você faz não vai muito longe em alguns lugares; no entanto, vai muito mais longe em lugares mais baratos para se viver.

Muitas pessoas se autodenominam “cientistas de dados”. Como você identifica um cientista de dados real?

1
Há um simples exame de sangue para isso. Você só precisa desistir de dois litros de suco de sua vida. Brincando à parte, aqui estão alguns sinais de cientistas de dados reais e falsos. REAL: sabe como executar uma tarefa ETL a partir de um banco de dados local ou na nuvem armazenado. Você não pode fazer nada sem dados. Na maioria das vezes, os dados não serão entregues a você no seu formato preferido. (a menos que você já esteja no último ano e tenha lacaios no escritório que fazem o trabalho sujo para você) FAKE: Pensa que os bancos de dados estão abaixo dele (eu uso o pronome masculino aqui porque as mulheres raramente são tão ilusórias). Pensa que o SQL é um negócio do analista. REAL: Tenha pelo menos alguns anos de treinamento formal ou prático (experiência) em estatística preditiva e inferencial. As idéias não vêm do céu (a menos que você seja Jesus ou Moisés). Mesmo quando você cria uma visualização de dados impressionante que mostra padrões e relacionamentos, você precisa fazer backup com testes de hipóteses e intervalos de confiança e (eu sei que é um furo, mas) valores p. Talvez você nunca precise relatá-las, mas essas são as verificações de robustez definitivas para o seu modelo bonito. FAKE: Os testes estatísticos são tão ultrapassados agora. Eu tenho esse novo método de visualização. Isso vai explodir sua mente. REAL: Conhece a teoria / conceitualidade por trás do seguinte (no mínimo): regressão linear, regressão logística, análise de componentes principais (também necessária para análise de fatores), análise de agrupamento, teste A / B , Erro tipo I, erro tipo II, ajuste / desajuste, ajuste excessivo. (Observe, estes são o mínimo que você precisa. Se você também quiser se aventurar no ML ou na IA com mais seriedade, não poderá evitar redes neurais, processamento de linguagem natural, árvores de decisão etc.) FAKE: Ei, baixei as últimas redes Jupyter e I também conhece pandas. Olha, eu ajustei um conjunto de dados de aprendizado de máquina da UCI existente para replicar algum resultado de dois anos atrás. Eu também coloquei na minha conta do github. Estou pronto para lançar babyREAL: sabe que 70% da ciência de dados geralmente está preparando seus dados para análise. Tenha experiência em limpar e transformar dados confusos (você já viu os dados da Netflix com 90% de linhas com valores ausentes? Hmmm…). Está ciente de que o mundo gera dados confusos com valores ausentes, rótulos inconsistentes, erros de digitação, uso de maiúsculas inconsistentes e similares. Também sabe que preparar os dados para análise é tão crucial quanto aplicar o algoritmo ML mais complicado. Afinal, você pode cantar apenas os dados que você canta.FAKE: Pensa que a preparação dos dados é apenas uma abertura para as coisas reais.E, finalmente, os cientistas de dados ou, digamos, os profissionais que obtiveram uma visão dos dados para viver, geralmente tendem a perceber que eles trabalham em um setor bastante fluido, com muito feedback entre campos. A maioria dos cientistas de dados tende a ter (além de sua perspicácia técnica) experiência específica de domínio (ou seja, experiência com o processo do mundo real que gera os dados com os quais eles precisam trabalhar). Isso significa que eles entendem o processo de geração de dados e podem antecipar problemas que podem surgir durante a coleta e / ou processamento de dados. Eles tendem a possuir um certo grau de curiosidade natural para interessá-los pela tarefa e fazer alguma pesquisa sobre o domínio específico (pelo menos eu).

Quais são as melhores ferramentas de código aberto para um cientista de dados?

1
Embora ‘cientista de dados’ possa parecer um novo termo para muitos, a prática existe há muito tempo usando identificadores de domínio específicos. Existem muitas ferramentas excelentes disponíveis. Assim como nas linguagens de programação, a ‘melhor’ ferramenta depende da natureza dos problemas que você está tentando resolver, da forma dos dados, do histórico do (s) desenvolvedor (es), da infraestrutura disponível e de outras variáveis. Sem conhecer esses detalhes, o conselho geral seria examinar R, SciPy e Hadoop, considerando o exposto acima.

2
A partir dos resultados da pesquisa de software do KDnuggets 2016 do ano passado – que eu gosto porque tende a ter uma melhor distribuição geográfica, o ecossistema R é seguido de muito perto pelo ecossistema Python (incluindo o scikit-learn), e é possível que o Python possa superar R em no futuro próximo. No entanto, os dois não são equivalentes – portanto, pode ser um caso de ambos, e não de qualquer um. Nossa equipe considera R (e Shiny) bom para prototipagem e análise estatística, enquanto o Python funciona melhor em um ambiente de produção. Isso também é consistente com os resultados – o crescimento do Python pode ser uma função da evolução natural de uma equipe de ciência de dados, desde experimentos e trabalhos ad-hoc até uma integração mais estreita com o software da empresa.

3
Na minha opinião, o The R Project for Statistical Computing e seu ecossistema, consistindo em uma infinidade de pacotes para todas as análises sob a luz do sol, sua comunidade instruída e responsiva e uma riqueza de todos os tipos de documentação e recursos para todos os níveis de habilidades e experiência. Embora o artigo a seguir não seja abrangente (se possível), ele apresenta um bom ponto de partida para o raciocínio em direção a uma estrutura de valorização e adoção de R (o termo é meu): http: //www.econometricsbysimulat ….

Como é ser cientista de dados na Tesla?

1
Não sou cientista de dados, mas colaborei com muitos deles e nosso trabalho tende a se sobrepor. Especificamente no meu campo de engenharia de testes de trem de força, os cientistas de dados nos ajudam a estabelecer ferramentas de visualização para ajudar em nossa análise. Por exemplo, os dados dos testes de resistência da unidade de acionamento são carregados em um banco de dados onde métricas importantes são extraídas. Qualquer engenheiro pode procurar esses dados e comparar o desempenho de diferentes projetos de unidades de acionamento entre si, tudo em visualizações bem organizadas. Cada teste pode consistir em gigabytes de dados e seria difícil analisar os dados brutos. O banco de dados também nos ajuda a entender como o desempenho de uma unidade diminui com o tempo. A análise automatizada ajuda muito, porque esses dados nos dão uma indicação do que falhou. Quando a unidade com falha é destruída, as informações dos dados servem como um mapa para descobrir onde ocorreu a falha. O tipo mais comum de falhas está relacionado às engrenagens ou rolamentos, e você pode dizer quais específicas falharam com base nos padrões nos dados do acelerômetro (é realmente uma loucura!)

2
Você precisa ser forte em matemática, análise, probabilidade, etc. para se tornar cientista de dados e deve ter muito mais experiência em análise de dados para se tornar cientista de dados. Você tem que aprender várias coisas sobre Big Data e análise de dados e, em seguida, somente você pode se candidatar a um cientista de dados. O cientista de dados em Tesla é como uma nova vida para qualquer cientista / analista de dados. você deve fazer esta pergunta a qualquer engenheiro que atualmente trabalha em Tesla.

Como é ser cientista de dados no Instagram?

1
Eu tenho um amigo que analisa dados para ganhar a vida. Seu TOC quando se trata de números e certificando-se de que eles sempre estão indo em uma direção positiva. Eu acho que os dados do Instagram são da mesma forma que o TOC e estão sempre gamificando a maneira como fazem seu trabalho. Seria divertido fazer parte de uma empresa que parece estar assumindo o domínio da mídia social. Vamos ver o que acontece no próximo ano – 5.

Por que o LinkedIn demitiu todos os seus cientistas de dados?

1
O LinkedIn continua a ter uma das equipes mais fortes de cientistas de dados atualmente. Como foi apontado, eles tiveram uma reorganização, mas não demitiram sua equipe de ciência de dados. Algumas pessoas foram embora, mas espero que seja uma rotatividade anual normal em uma grande organização. Como qualquer cientista sério de dados pode atestar, pessoas como Deepak Agarwal são alguns dos principais líderes, inovadores e mentores dessa comunidade. Tenho a maior consideração por muitos dos cientistas de dados da empresa, embora não trabalhe no LinkedIn.

2
O LinkedIn não demitiu todos os seus cientistas de dados. Deseja fazer uma pergunta diferente?Pergunta Qual é o melhor laptop para um cientista de dados?

1 Eu me perguntei exatamente a mesma pergunta há um ano e encontrei uma solução que agora funciona surpreendentemente, aprendi muito e economizei um monte de dinheiro no processo. Eu já havia construído meu ideal (isto é, poderoso ) computador de análise de dados cerca de um ano antes, mas era um desktop. Imaginei que realmente poderia comprar um laptop realmente barato, manter a área de trabalho em funcionamento o tempo todo e usar o RDP *, Teamviewer * ou um programa VNC * para conectar-me a ele sempre que eu precisasse fazer uma análise de dados. laptop barato (AU $ 350, tela sensível ao toque de 11 polegadas, Windows 8, HP net book book) e comecei a tentar configurar o VNC. Eu consegui fazê-lo funcionar, mas isso significava que eu precisava sempre deixar minha área de trabalho em execução e depois descobri o Amazon AWS EC2, um serviço que permite criar computadores virtuais com qualquer sistema operacional desejado e personalizar como você os acessa.Eu configurei um deles (Linux) e me ensinei a usar o Linux. O mais útil é que eu instalei um IDE baseado na Web para R (Rstudio), o que me permite acessar um site hospedado pelo meu servidor EC2 e usar o R como se estivesse sentado naquele computador. quer fazer algum trabalho, posso fazê-lo em qualquer computador do mundo com uma conexão à Internet, simplesmente visitando um site e, todo o processamento é feito no servidor Amazon. Você precisa pagar pelo servidor, mas eles são baratos e pagam valores diferentes com base no processador (virtual), RAM, GPU etc. do servidor. Além disso, existe um teste gratuito de um ano que permite usar o servidor virtual menos poderoso sem nenhum custo. Entendo que R pode não ser o único idioma que você deseja usar, mas, como é possível instalar o que quiser no seu servidor, ele parece ser uma opção viável.Vantagens: pode acessar o servidor a partir de qualquer dispositivo com o InternetFiles estão sempre acessíveis. Nem precisa baixá-los (como você faria com a caixa suspensa), basta ver no servidorCustos muito menos que o poderoso laptopServer pode ser programaticamente projetado para ser dimensionado, dependendo das necessidades de análise, usando uma tela APIDisvantagesLaptop é bem pequena, mas agora acho que eu acessar o servidor principalmente de outros computadores de mesaRequer conexão com a Internet para usarPode levar algum tempo para aprender a usar o EC2 * Todos esses programas permitem exibir e controlar um computador a partir de um segundo computador, pela Internet. 2 Na minha opinião, um PC para jogos é ideal para um cientista de dados. Eles geralmente vêm com especificações muito boas, necessárias para levar a sério a ciência de dados.OS: Windows, OS X ou Linux. Atualmente, não importa muito, mas os PCs para jogos são fornecidos com o Windows.Memória: 16 GB de RAM é o mínimo, repito, o mínimo. Obviamente, 32 GB ou 64 GB são melhores, mas a maioria dos laptops não vem com isso como padrão. Verifique se ele suporta adicionar RAM extra. É a peça de hardware mais importante para a ciência de dados, tanto para manter grandes conjuntos de dados na memória quanto para executar VMs.CPU: Core i7 ou equivalente. A computação rápida é importante ao executar algoritmos de aprendizado de máquina. Disco rígido: Duas opções aqui na minha experiência. Um SSD de 256 GB com um disco rígido de 1 TB adicional ou um SSD de 512 GB. Os HDDs não são ideais devido ao desempenho, mas hoje em dia não são tão ruins e compensam com capacidade pura.GPU: Pelo menos GTX1060. Não pegue as 9 séries, elas foram preteridas. Os algoritmos de aprendizado de máquina podem ser executados significativamente mais rapidamente na GPU usando bibliotecas como o TensorFlow.Screen: se você não deseja conectar o laptop a monitores externos (o que você deveria), deseja ter uma tela o maior possível. Os PCs para jogos geralmente vêm com telas de 17 ″. 3 Como Jesse ressalta, a nuvem de análise é a melhor opção. Em algum momento, reduziríamos a capacidade de uma única máquina. Já o disse para conjuntos de dados que são gerenciáveis: Opção 1: MacBook Pro 15 “com quad core I7, 16 GB de RAM (a Apple agora atualizou isso, mas é decepcionante. Eu estava Opção 2: MacBook Pro 13 “com I7 dual-core, 16 GB de RAM (a Apple atualizou esta máquina e é bastante decente em termos de portabilidade e poder de computação) Opção 3: Macbook Air 13”, dual core I7, 8GB de RAMPergunta interessante, enquanto estou refletindo sobre esse tópico.Algumas considerações que estou analisando: Portabilidade – Uma pessoa acaba usando a máquina em aeroportos, trens, sala de estar, bibliotecas … você entendeu.Eu geralmente tenho idéias interessantes sobre Wrangling de dados em momentos ímpares e uma máquina seria útil. Frameworks – Um estará trabalhando em R, Spark, H2O e outros.Portanto, um cluster de nuvem (1 ou mais instâncias) é muito mais flexível do que a máquina local.R servidor e iPython o notebook pode ser hospedado na nuvem.O Spark & H2O também pode ser implantado como estrutura de computação orks. Conjuntos de dados – Conjuntos de dados maiores (como o Criteo ou o RecSys2015) precisam de um cluster de nuvemtransformações, treinamento de modelos e outros – Ultimamente, a maioria das minhas corridas dura mais de 10 horas; muito mais fácil de executar na nuvem. A máquina local seria desligada / modo de suspensão à medida que se leva adiante o essencial da vida. Por isso, estou me inclinando para a opção 3 e me forço a trabalhar na AWS.

Qual o grau necessário para se tornar um cientista de dados?

1
Com a chance de refazer a graduação, eu me especializaria em Ciências da Computação e menor em Estatística. Os estudantes de Ciência da Computação trabalham em projetos durante a graduação, para que você tenha uma sólida experiência em programação. Eles também têm cursos introdutórios decentes em Machine Learning para passar o pé pela porta. O conhecimento de estatística ajudaria a entender melhor a matemática por trás da análise de dados, modelagem estatística, teste de hipóteses e uma série de outros campos no pipeline do Machine Learning. Também poderia recomendar um especialista em Estatística e um menor em Ciência da Computação – desde que haja alguns ” Ciência da Computação ”envolvida. Alguns caras de estatísticas que conheço são brilhantes, mas acham difícil colocar seus conhecimentos em código. O conhecimento tanto em Estatística quanto em Ciência da Computação é o melhor.

2
A2A. As descrições de cargos em ciência de dados informam o requisito de graduação para o trabalho, geralmente é um diploma de bacharel em qualquer disciplina e treinamento em ciência de dados que pode variar de especializações, certificações ou nanodegistros MOOC disponíveis no Coursera, edX ou Udacity (respectivamente ) ao Mestre da UIUC em Ciência da Computação em Ciência de Dados (MCS-DS) | Antes de tomar uma decisão sobre um diploma, eu recomendo que você leia 5 coisas que você deve saber antes de se formar em Data Science.

3
Analisei 350 descrições de cargo com o título “Data Scientist”, principalmente de Bay Area CA, Nova York, para descobrir que tipos de educação são mais exigentes para um cientista de dados. Existem alguns postos de trabalho nos quais os requisitos de educação são aprendizado de máquina, ciência de dados ou inteligência artificial. Como eles são uma combinação perfeita para a posição de cientista de dados (boa sorte), eu não os considerei.

Por que tantos cientistas de dados estão deixando seus empregos?

1
Aposto que é duplo. Primeiro, muitas pessoas não qualificadas estão tentando entrar em campo. Eles tendem a não durar muito tempo em cargos de ciência de dados, então você tem muita rotatividade nos primeiros meses de uma empresa. Há um pequeno número de pessoas com habilidades, educação e experiência para serem eficazes como cientistas de dados em relação a a necessidade, e essas pessoas podem basicamente escolher onde querem trabalhar (segunda razão). Aqueles que não estão satisfeitos com o avanço ou o trabalho designado em uma empresa podem facilmente encontrar outra posição.

Por que o Apache Spark é popular entre os cientistas de dados?

1
Sean Owen deu uma excelente resposta e provavelmente também queria mencionar que o uso de algoritmos iterativos de ciência de dados em conjuntos de dados muito grandes agora é prático com o Spark.Spark pode manter de forma confiável grandes conjuntos de dados na memória de cluster com paginação do disco conforme necessário e pode executar com eficiência iterativa algoritmos (por exemplo, Gradient Descent, Graph Traversal, …) sem várias sincronizações para o disco, esses algoritmos agora são executados 100 vezes mais rápido.Os outros aspectos mencionados facilitam a adoção do Spark, mas o Spark é necessário para a execução de algoritmos iterativos em um grupo.

Quais são as quatro principais linguagens de programação usadas pelos cientistas de dados?

1
A pesquisa mais recente do KDnuggets de 2014 mostra o crescente domínio de quatro idiomas principais para Analytics, Data Mining e Data Science: R, SAS, Python e SQL – usados por 91% dos cientistas de dados – e declínio na popularidade de outros idiomas, exceto para Julia e Scala. Consulte Quatro idiomas principais para Analytics, Data Mining, Data Science. Aqui estão os resultados de uma pesquisa anterior do KDnuggets de 2012, que perguntou “Quais linguagens de programação você usou para analytics / data minin”, http://www.kdnuggets.com/polls/2. ..e os três primeiros foram R (52%), Python (36%) e SQL (32%)

2
Antes de tudo, como o OP disse, é mais difícil do que parece a princípio distinguir um cientista de dados de um analista de dados. Na minha experiência, os analistas de “dados intermediários” (Gigabytes e Terabytes) usam muito SQL, R, Matlab e SAS. E isso se reflete, eu acho, nos dados do Kaggle relatados por Leo Polovets. Os analistas de big data provavelmente usarão mais linguagens orientadas a big data como Hive e PIG e outras linguagens para programar um trabalho do MapReduce (como Java). Finalmente, se você precisar fazer uma varredura na Web e analisar o texto, poderá usar linguagens de uso geral, como Python.

3
A O’Reilly Media fez uma pesquisa sobre o assunto e publicou seus resultados em janeiro de 2014. Eles agruparam os entrevistados na pesquisa com aqueles em uma função de dados e aqueles em uma função de dados. A partir disso, parece que os idiomas mais comuns usados são R e Python. Uma observação – não sei por que o Matlab não está na lista … Fonte – http://www.oreilly.com/data/free. ..

Quais habilidades de negócios os cientistas de dados precisam?

1
Não acho que os cientistas de dados precisem exatamente de habilidades de negócios. Em vez disso, eles precisam de conhecimento de negócios. É o mesmo tipo de coisa que todos os estatísticos aplicados precisam. Você não precisa administrar uma empresa, vender um produto, projetar um anúncio, equilibrar um orçamento etc. para ser um bom cientista de dados. Mas você precisa saber algo sobre como a empresa em que está envolvido trabalha.

Quanta codificação é feita por um cientista de dados?

1
Não posso falar por todos, mas codifico muito: preparando dados, realizando análises estatísticas, treinando modelo de aprendizado de máquina, desenvolvendo protótipo de algoritmo e etc.

2
Grande parte da codificação que nós cientistas de dados fazemos é como configurar uma interface de usuário altamente personalizável, massageando matérias-primas em insumos que podemos usar com mais facilidade posteriormente no pipeline e personalizando ferramentas para nos ajudar a contar a história da maneira que queremos da maneira como o público-alvo preferiria ouvi-lo. Grande parte da ciência de dados parece ser uma almagamação de papéis que costumavam ser desempenhados por um analista de negócios, um pesquisador, um gerente de requisitos, um programador e um escritor técnico que existiam em muitas empresas quando eu comecei minha jornada.

3
Boa pergunta! A codificação é parte integrante de ser um cientista de dados. No entanto, não é a única parte. Você também se encontrará com seus stakeholders para entender o problema que eles gostariam que você resolvesse, apresentar seus resultados a eles e também ver o impacto do seu trabalho.

Como posso me tornar um cientista de dados de um nível iniciante absoluto para um avançado?

1
Você pode fazer cursos on-line no coursera! Existe um programa de John Hopkins que meu professor fez enquanto lecionava meu curso de CS na UTSA. Ela pagou o certificado para todos os cursos. Eu a procurei recentemente no LinkedIn e ela agora é cientista de dados 2 na Microsoft! Nota: você pode conferir os cursos antes de pagar. Eu acho que você pode realmente fazer o curso inteiro sem pagar. (Mas você não receberá um certificado) Se esses cursos forem um pouco difíceis, recomendo que você faça alguns cursos introdutórios semelhantes aos oferecidos pela coursera.

2
Primeiro, certifique-se de ter uma sólida formação em matemática, pois a ciência de dados é principalmente estatística (estatística de pós-graduação, cálculo multivariável, álgebra linear, teoria das probabilidades). Em seguida, avance para os documentos de aprendizado de máquina e as aplicações desses métodos em dados de código aberto (veja aqui para documentos de referência: https: //www.slideshare.net/Colle …).

Como é trabalhar como cientista de dados no Walmart Labs?

1
A resposta a esta pergunta não é mais verdadeira. Neste ponto, o comércio eletrônico do Walmart é uma organização muito política, com muitos executivos ineficientes e gerentes de nível intermediário. Portanto, há muito caos e não há chance de crescimento na carreira. Você não aprenderá nada com a atual liderança sênior. Minha sugestão será não considerar o Walmart como uma opção se você tiver outras ofertas.

2
O Walmart Labs tem uma boa descrição de seu trabalho – Business Analytics & Intelligence

Quais empresas estão contratando trabalho remoto / virtual / de cientistas de dados domésticos?

1
Sou contactado por recrutadores de tecnologia o tempo todo sobre novas posições em ciência de dados. A maioria está fora da minha localização geográfica (Silicon Beach, em Los Angeles), exigindo realocação. Não vi uma única posição remota / de teletrabalho. Penso que, pela natureza da ciência de dados, tendo que interagir estreitamente com especialistas em domínio, analistas, pessoal de TI etc., você provavelmente precisará ser um funcionário local. Dito isto, eu ainda estou esperando para ouvir sobre uma oportunidade legal de trabalho remoto! Talvez um dia. Daniel

Vale a pena fazer um curso de cientista de dados? As empresas contratam pessoas que fizeram um curso como “cientista de dados”?

1
Tudo depende de quanto você aprende durante esse curso. Lembre-se de que não existe nenhum curso que possa prepará-lo para um emprego. O que você precisa é de dedicação e muito estudo. Eu próprio fiz um curso de ciência de dados em período integral e fui colocado no campus da Deloitte. Apenas esteja preparado para estudar muitos conceitos novos e resolver muitos problemas no kaggle. Tudo de bom para você.

2
sim. Se claro, com currículo em R, Python e Estatísticas. Algumas organizações importantes, como o IIT / IIM, também estão realizando cursos sobre isso. Se você se qualificar e for treinado por eles, aumentará sua chance. e qualquer instituto que ensina isso também pode melhorar sua chance. Antes disso, você deve revisar o cargo de cientista de dados e verificar o que é / é o conjunto de habilidades necessárias. Se o mesmo é ensinado por esse instituto.

Que trabalho um cientista de dados faz 80% do seu tempo? Para ser mais específico, qual é a tarefa mais importante que se espera de um cientista de dados?

1
Você está fazendo duas perguntas diferentes. Entendo sua origem, mas é importante que você perceba que o que faz 80% do seu tempo não é a coisa mais crítica. O que você gasta mais tempo fazendo Você deve ter ouvido falar que a maior parte do tempo de um cientista de dados é gasto realizando tarefas de transferência de dados, e isso é amplamente verdade. Isso é especialmente importante para entender, porque muitos jovens cientistas de dados que saíram da escola só tiveram experiência na aplicação de técnicas de aprendizado de máquina a conjuntos de dados organizados e agradáveis. O mundo real não é assim (e isso é mesmo quando você tem a sorte de ter acesso aos dados necessários). Eu sempre aconselho jovens cientistas de dados a praticarem projetos em que precisam lidar com conjuntos de dados do mundo real; caso contrário, ninguém os levará a sério quando se candidatarem a empregos. O que é realmente mais importanteAgora, isso é diferente de “o que é a tarefa mais importante esperada de um cientista de dados ”. O mais importante é poder se comunicar com clareza. Isso envolve tanto a escrita, oral e o que eu chamo de comunicação “bidirecional”. Isso também envolve a comunicação com colegas, gerentes não técnicos e outras partes interessadas. Se você não consegue se comunicar de maneira clara e convincente, isso realmente não importa o quão habilidoso você seja. Caso em questão: ontem, informei uma peruca no departamento de vendas da empresa em que trabalho. Ele não é muito técnico, mas é um dos principais “clientes internos” dos modelos que estou desenvolvendo. Não demorou muito tempo para criar o deck de slides, e a reunião real durou apenas uma hora. Certamente, isso não levou 80% do meu tempo. Mas se eu não convencê-lo do valor do que estou fazendo, ele perderá o interesse e / ou a confiança, o que acabará com o meu projeto. Recomendações para cientistas de dados iniciantes Desde que você marcou isso como “Empregos e carreiras In Data Science ”, suponho que você esteja se perguntando porque é um cientista de dados júnior que está procurando informações sobre como conseguir um bom emprego. Embora eu tenha um curso completo de 40 vídeos sobre isso, as partes mais relevantes para sua pergunta são: Qualifique-se na transferência de dados. A maioria das empresas que você entrevista fornece um problema de levar para casa, que deve ser concluído em um curto período de tempo (geralmente de 3 a 6 horas). A maior parte do tempo será gasta na preparação dos dados. Quanto mais rápido você estiver nisso, mais tempo terá para modelar e escrever seus resultados. Seja bom em se comunicar. Ninguém quer trabalhar com alguém que eles não conseguem entender. Isso pode fazer você realmente se destacar de outros candidatos, já que a maioria das pessoas se concentra quase inteiramente nas técnicas de aprendizado de máquina. Na verdade, aconselho os cientistas de dados a se voluntariarem para dar uma palestra, se você for convidado para uma entrevista no local. Mesmo que eles recusem, eles ficarão impressionados com a confiança que você tem para sugerir. Descubra o que o seu (futuro) chefe e a empresa como um todo precisam e se posicione como a solução para essa necessidade. Fazer pesquisas sobre a empresa (e sobre quem irá entrevistá-lo!) É um tempo bem gasto. O que isso tem a ver com ser um cientista de dados? Como esse exercício não apenas o contratará, ele o treinará a pensar da perspectiva de outras pessoas. De longe, muitos cientistas de dados vivem em sua própria cabeça e ficam chocados quando seu projeto é morto. “Malditos idiotas!” eles murmuram. “Eles não entendem a importância do meu trabalho!” Sim, é verdade. Mas de quem é a culpa? Espero que ajude, -Mark

2
A tarefa mais importante de um cientista de dados é o gerenciamento de dados, e que a verificação dos dados quanto à sanidade, correção etc. – A construção e a otimização de modelos são importantes, mas essa não é a tarefa que consome mais tempo em geral. Se a etapa 1 estiver incorreta, todas as análises posteriores serão inúteis.

Que livros um grande programador deve dominar para se tornar um cientista de dados respeitado?

1
Não sei, mas sei quais livros ler.1. R Livro de receitas de Paul Teetor Machine Learning for Hackers, de Drew Conway e John Myles White3. Livro de receitas de gráficos R de Winston Chang Programação da inteligência coletiva de Toby Segaran (popularmente conhecido como PCI) 5. Python para análise de dados, de Wes McKinney, para usuários avançados, se você já conhece pandas, deve ver esta apresentação de Wes sobre quais são as deficiências dos pandas.6. Ciência ágil de dados de Russell JurneyHá mais, mas essas são boas. Além disso, torne-se um pesquisador melhor.

2
Aqui estão alguns recursos gratuitos para começar! Peter Bruce, Andrew Bruce: Books______________________________________________________________________Dados: governo, estado, cidade, local e públicoDados: APIs, hubs, mercados e plataformasServiços de dados públicos gratuitosVeja a resposta de Samuel Pong para Como aprender mineração de dados em um mês?

3
Eu acho que não há. Nenhuma empresa respeitará que você conhece ciência de dados apenas lendo um livro de programação ou apenas indo para uma aula do MooC. Você precisa criar projetos, publicá-lo no GitHub e compartilhar seus projetos para mostrar que conhece estatística, modelagem de dados, programação, visualização etc. As duas ferramentas de programação usadas na Data Science são R e Python.

Eu quero ser um cientista de dados. Existe uma lista de verificação de habilidades?

1

2
Experimente um número maior que 2 verticais (saúde, finanças, petróleo e gás) / processamento de dados da linha de vapor usando a plataforma (streamsets, nifi, etc). Faça um esforço para conhecer os algoritmos de aprendizado de máquina internamente (matriz de confusão, alfa / gama, AUC, etc) uma plataforma unificada diferenciada (H2O.ai Flow / Steam, Anaconda, etc.) Produza seu trabalho de modelo final (execute em um aplicativo Web Real ou na nuvem)

Como é ser cientista de dados na Palantir?

1
O melhor lugar para encontrar relatos pessoais daqueles que realmente trabalharam como cientista de dados na Palantir são fóruns e páginas de mídia social relacionados. Também pode haver artigos disponíveis quando você o pesquisa no Google. Para todas as outras informações sobre o Palantir, por outro lado, você pode usar sites como o PayScale para pesquisar. Veja o salário do empregador da Palantir Technologies, salários médios por emprego

Qual é o salário máximo para um cientista de dados?

1
Aparentemente, profissionais de nível avançado de classe mundial podem ganhar milhões (fonte: Por que o Google pagou US $ 400 milhões pelo DeepMind? | MIT Technology Review). Dito isso, é provável que não dure muito tempo, pois as bibliotecas ficarão melhores, as heurísticas (interrupção precoce, abandono) serão substituídas ou fundamentadas na teoria, e os tutoriais serão aprimorados para facilitar o aprendizado profundo Provavelmente, em alguns anos, haverá outras habilidades em dados quentes que terão uma compensação de gordura assim, mas quem sabe o que é.

Qual é a melhor parte de ser um cientista de dados?

1
Acredito que a melhor parte é saber que você está trabalhando com tecnologia com um enorme potencial e que as etapas que você toma para desenvolver a tecnologia podem beneficiar potencialmente milhares de pessoas. Também é a possibilidade de trabalhar em tantos campos diferentes que não é necessário. mais possível contar. Isso lhe dá a liberdade de trabalhar no projeto que é importante para você, que lhe interessa, etc.

O que é uma lista de livros que todo cientista de dados deve ler?

1
O livro de códigos: A ciência do sigilo do Egito antigo à criptografia quântica, por Simon Singh, Enigma: The Epic: The Epic Quest para resolver o maior problema matemático do mundo por Simon Singh e John Lynch

2
Aqui estão os artigos de ciência de dados que são atualizados em tempo real! Http: //bit.ly/1x359dÉ claro que todos podemos ler vários livros, mas não ajuda a manter-nos atualizados diariamente – De fato, devido a esses problemas, surgiu uma idéia para aplicar os algoritmos de Machine Learning para agregar o conteúdo principal. Fazemos isso de uma maneira interessante – criamos comunidades de tópicos e identificamos um monte de líderes de opinião e, em seguida, encontramos o conteúdo mais relevante. Isso nos permite obter o conteúdo principal em qualquer campo tópico.

3
Uma análise aprofundada do setor de ciência de dados, que fornecerá uma imagem clara da ciência de dados e como ela é usada em tempo real por especialistas. Possui 3 livros. AnalyticsHandbook

Quais são alguns blogs interessantes escritos por aspirantes a cientistas de dados?

1
É uma pergunta interessante – eu pessoalmente não procuro não-especialistas para continuar aprendendo ciência de dados, mas posso entender por que seria interessante aprender com falhas e aspirantes a cientistas de dados podem ser uma boa coorte a seguir. para conferir os MOOCs e ver se os alunos aspirantes postam suas tendências no blog. Encontrei alguns v-logs aqui: (do Springboard)

2
Alguns blogs interessantes (o meu favorito) para ciência de dados (embora não atendam aos seus critérios) são: Data Science CentralAnalyticBridgeHomeMachine Learning MasteryRevolutionsAnalytics, Data Mining, and Data ScienceE alguns blogs específicos de software como R-blogueirosQuick-R: página inicialHappy Reading!

3
“Aqui estão alguns links para blogs escritos por cientistas especialistas em dados. Eles fornecem informações atualizadas e simplificadas sobre ciência de dados. Espero que sejam úteis.” RevolutionsPage em insofe.edu.inAnalytics VidhyaBig Data Analytics

O que é um sinal de que alguém não terá sucesso como cientista de dados?

1
Eu ensinei pessoas que, infelizmente, acho que estão cometendo um erro ao buscar ciência de dados. Os 5 principais sinais: eles têm pouca / nenhuma curiosidade e iniciativa, são passivos e incapazes de fazer perguntas. Eles não são solucionadores de problemas.Eles temem matemática e estatísticas.Eles odeiam programação.Eles são desleixados, produzem resultados absurdos e sem sentido, sem pisar em uma pálpebra.Eles são maus comunicadores e não podem criar histórias interessantes e perspicazes a partir dos dados. Quando os vejo apresentar suas descobertas, muitas vezes penso “e daí? Por que eu me importo? Como isso é interessante ou relevante ”.

Qual é o salário esperado de um cientista de dados novo?

1
O salário médio anual para um cientista de dados é de ₹ 620.244, ou seja, se você tiver as habilidades que a empresa em particular está procurando. Os cientistas de dados iniciantes ou os cientistas juniores de dados recebem menos que isso. O salário varia para um cientista de dados de nível intermediário.

2
Como um cientista de dados mais recente, você pode ganhar entre 6 e 8 LPA. No entanto, não se deixe enganar por esse fato. Esse salário difere em todo o setor e também no conjunto de habilidades. Deixe-me explicar – principalmente os cientistas de dados encontram oportunidades de emprego em – 1. Empresas baseadas em serviços: são as empresas em que você trabalha em projetos de ciência de dados que ajudam outras empresas. Empresas como Mu Sigma, Fractal Analytics, etc, são bons exemplos dessas empresas. Empresas baseadas em produtos: são as empresas nas quais você trabalha com dados gerados pelo usuário do produto que essas empresas criaram. Por exemplo, o Zomato é uma empresa baseada em produtos e possui mais de um milhão de usuários. Nesta empresa, o cientista de dados analisa os dados para entender o comportamento do usuário e melhorar o produto. Bem, essa é uma pequena parte, há muito mais que os cientistas de dados precisam fazer. Se você seguir os padrões da indústria, os cientistas de dados são comparativamente mais bem pagos em empresas baseadas em produtos do que em empresas baseadas em serviços. o conjunto de habilidades de um cientista de dados. Deixe-me explicar – as principais responsabilidades de um cientista de dados são – extração e análise de dados usando a visualização R / Python; visualização de dados usando o Tableau ou outra ferramenta; construa modelos preditivos usando algoritmos de aprendizado de máquina; agora, como parte de suas responsabilidades, você pode ser necessário executar todas as tarefas acima ou apenas pode ser confiada a parte de extração e análise de dados. Dessa forma, seu salário também seria diferente. Obviamente, se você executar todas as tarefas acima, você seria pago melhor do que se estivesse trabalhando apenas em uma das responsabilidades. Como está interessado em se tornar um cientista de dados, eu recomendaria você usa o edwisor. Aqui você pode aprender ciência de dados completa enquanto trabalha em projetos. Aqui você encontrará boas oportunidades de emprego também. Como o edwisor ajuda os aspirantes a cientistas de dados serem contratados como Data Scientist em empresas baseadas em produtos. Então, tente isso.

3
“ O objetivo do projeto é facilitar a vida de todos os cidadãos, pois, além de contribuir para o bem-estar da população, é fundamental que o cidadão tenha acesso a informações, informações e informações relevantes sobre o funcionamento do município. -Diferentes empresas pagam escalas \

Quais são os níveis de cientistas de dados no Google e como eles são promovidos?

1
Temos engenharia do google. Além disso, você também pode procurar no seu computador, tire uma foto ou adicionar imagens pela URL.

2
não há posições de “cientista de dados” na Pesquisa do Google – o Google Care possui muitas ferramentas de engenharia do Google realizando aprendizado de máquina grande, inferência estatística em grandes conjuntos de dados, etc. mas essa palavra de ordem específica “ciência de dados” não é muito popular

Todos os cientistas de dados devem saber como usar o SQL?

1
Sim. Como cientista de dados, você precisaria conhecer linguagens de programação. Os suspeitos comuns são Python, R, Scala, Octave … Se você lida com bancos de dados, pode lidar com bancos de dados relacionais ou NoSQL. Com bancos de dados relacionais, como Oracle, MySQL, Teradata ou outros, você precisaria conhecer o SQL para extrair / armazenar dados. Na minha humilde opinião, o SQL é bastante fácil de aprender e contribui bastante para agregar valor ao seu currículo e, mais importante é um requisito comum e necessário para um trabalho de cientista de dados; portanto, você deve conhecer SQL.

De que habilidades eu preciso para ser um cientista de dados no Google ou no Facebook?

1
Lendo outras respostas, sinto que há uma falta de clareza entre diferentes papéis, como cientista de dados, analista de dados, engenheiro de dados etc. A maioria das respostas sugere ferramentas e tecnologia de aprendizado para uma análise eficiente de dados (Hadoop, Java, Python, etc.). Na minha opinião, a ciência de dados trata de encontrar novas maneiras de obter, limpar, enriquecer, modelar e comunicar dados. Bons cientistas de dados são independentes de ferramentas e tecnologia. Eles entendem os conceitos subjacentes, mas não são engenheiros. Na verdade, eles usam os serviços de engenheiro para realizar aspectos tecnológicos da análise de dados.

2
Ao fazer tudo isso, este blog é mais específico para os estudantes indianos A publicação de Kiran em Como me tornar um Googler

3
A resposta que eu estou dando não é competir, mas vai lhe dar um bom começo: 1. Aprenda a linguagem de programação Java e Python. Você não precisa ser um chefe, mas deve ter habilidades como um profissional. Aprenda a trabalhar com Big Data usando softwares como Hadooo, Pig etc. Obtenha algum conhecimento prático sobre computação em nuvem. Isso deve lhe dar um começo … Espero que ajude!

Um engenheiro mecânico pode se tornar um cientista / analista de dados?

1
Sim, claro! Tudo o que você precisa é ter paciência e autoconfiança. Você deve ser bom em matemática e conhecer um pouco de estatística para facilitar sua vida enquanto aprende. Não é necessário conhecimento de programação, você pode aprender como pode. muito MOOC disponível para aprender ciência de dados. Eu recomendaria o EdX & Coursera, pois eles têm o melhor conteúdo e caminhos de inclinação.

2
Você entende Álgebra Linear, Cálculo, Probabilidade e Estatística? Você sabe codificar? Sim para ambos? Bem, você tem o conhecimento técnico essencial / ferramentas necessárias para começar.

3
Qualquer um pode ser um analista de dados. Tudo o que você precisa é ter paciência e motivação para aprender ferramentas de análise de dados. E para ser um cientista de dados, primeiro você precisa aprender sobre codificação, estatísticas básicas, apresentação e habilidades de pessoas. dominar essas habilidades, você pode ser um cientista / analista de dados.Pergunta Como o Airbnb contrata cientistas de dados?

1 Nos últimos dois anos, otimizamos bastante nosso processo de contratação. Antigamente, examinávamos os currículos e depois agendávamos lotes de 1: 1. Normalmente, as pessoas fazem perguntas com o objetivo de avaliar a proficiência de um candidato com estatísticas, tecnicidade e capacidade de resolver problemas. Mas havia três problemas com isso – as entrevistas não eram coordenadas o suficiente para obter uma visão holística do candidato, nunca tínhamos certeza se suas respostas se traduziriam em desempenho efetivo no trabalho e da perspectiva do candidato. Foi um longo interrogatório. Por isso, criamos um novo processo de entrevista que é muito mais eficaz e transparente – queremos dar ao candidato uma ideia de como é um dia na vida de um membro de nossa equipe e ler sobre como seria trabalhar com eles. No total, leva cerca de dois dias para tomar uma decisão, não tivemos falsos positivos (possivelmente alguns falsos negativos), e o feedback dos candidatos e dos membros da nossa equipe foi positivo. Existem quatro etapas para o processo: 1. Telas de currículo / telefone – Procuramos pessoas com experiência no uso de dados para orientar decisões e algum conhecimento sobre o que é o Airbnb. Nos dois aspectos, teremos uma leitura muito mais profunda posteriormente no processo; só queremos ter certeza de que seguir em frente é um bom uso de qualquer um de nosso tempo. Desafio básico de dados – O objetivo aqui é validar a capacidade do candidato de trabalhar com dados, conforme descrito em seu currículo. Enviamos alguns conjuntos de dados para eles e fazemos uma pergunta básica; o exercício deve ser fácil para quem tem experiência. Desafio interno de dados – Essa é a base do nosso processo de entrevistas. Tentamos ser o mais transparentes possível – você pode ver como é trabalhar conosco e vice-versa. Portanto, temos o candidato sentado com a equipe, dando acesso a nossos dados e uma pergunta ampla. Eles então têm o dia de atacar o problema da maneira que desejarem, com o apoio das pessoas ao seu redor. Encorajamos perguntas, almoçamos com eles para aliviar a tensão e fazemos check-in periodicamente para garantir que não fiquem presos a algo trivial. No final do dia, reunimos uma pequena equipe e apresentamos sua metodologia e descobertas para nós. Aqui, procuramos coisas como um olho nos detalhes (eles investigaram os dados em que se baseiam para análise), rigor (eles construíram um modelo e, se sim, os resultados são bons), orientados para a ação (o que faça com o que você encontrou) e habilidades de comunicação. Se tudo correr bem com o desafio interno, nós os trazemos de volta para quatro entrevistas – duas com parceiros de negócios e duas para avaliar seu alinhamento com nossos principais valores. Os parceiros de negócios concentram-se na capacidade do candidato de trabalhar em conjunto através de um problema; Os valores principais têm como objetivo discutir a missão e a capacidade do Airbnb de se conectar com alguém em um ambiente menos técnico. Usamos esse processo nos últimos 8 meses e realmente nos beneficiamos dele. Eu encorajaria outras equipes a experimentá-lo e fornecer feedback sobre sua experiência. Também passamos um tempo com cada candidato após o processo (independentemente do resultado) para coletar feedback de sua experiência conosco, por isso continuaremos evoluindo conforme necessário. 2 Participei do processo descrito por Riley acima e não gostei muito, fui rejeitado na rodada de desafio interno de dados.O problema com o desafio interno de dados é que o problema em questão é enorme, o problema geralmente leva uma semana para resolver completamente, considerando todas as verificações \ etapas necessárias em um exercício de modelagem. Espera-se que o candidato resolva o problema em 7 horas, sem erros. A equipe parece muito focada em obter informações muito boas a partir dos dados e não na capacidade holística do candidato em resolver problemas. Concordo que eu próprio tinha limitações, não era muito versado em R e estava demorando para implementar todas as etapas necessárias. No final, dado o tempo limitado e a capacidade limitada de usar o RI, acabamos apresentando apenas a Análise Exploratória de Dados que obviamente não foi suficiente para impressionar a equipe do Airbnb A. Vou trabalhar em minhas habilidades técnicas e estatísticas e tentarei novamente no Airbnb, Enquanto isso, Riley, se você pudesse trabalhar na preparação de um desafio interno que possa ser concluído em um dia, seria ótimo. Obrigado, desejando o melhor ao Airbnb. 3 O mundo da tecnologia está em ritmo acelerado. A IA e a ciência de dados são pioneiras na mudança. Nesse contexto, o Airbnb, com sede em São Francisco, tem algo a compartilhar – algo relacionado à arte de contratar cientistas de dados. A empresa liderou as etapas que eles seguem para contratar cientistas de dados e eles são discutidos abaixo: · A empresa está ansiosa para contratar especialistas provenientes de análises de dados fortese ter conhecimento prévio dos processos de trabalho do Airbnb. · Antes de realizar uma entrevista cara a cara, os candidatos devem passar por uma determinada tarefa, estruturada para medir sua capacidade de dados. · Para a entrevista, os candidatos devem passar por um desafio interno, no qual eles seriam solicitados a usar dados do mundo real para resolver problemas diários. Isso ajudaria a ter uma idéia melhor de como a equipe da Airbnb funciona. · Depois de superar o desafio interno, os candidatos seriam convidados a fazer quatro entrevistas de longo curso – nas quais duas reuniões seriam com seus parceiros de negócios e a outra dois seriam menos técnicos, especificamente para verificar se o candidato pode estar alinhado com os principais valores da organização. Agora, se você está pensando em dar um passo nessa direção, é melhor fazer backup de uma boa Certificação de Ciência de Dados! Isso irá ajudá-lo a percorrer um longo caminho.

Como me tornar um cientista de dados, sem as habilidades necessárias?

1
Eu acho que você não está qualificado para um trabalho de cientista de dados. Você pode se safar da gerência ou de uma função adjacente. Mas você não possuir habilidades relevantes em ciência de dados não seria eficaz. Na melhor das hipóteses, você estaria acenando com a mão ou, pior, não desenvolveria ciência de dados. Portanto, se uma empresa deixar você a bordo sem habilidades relevantes, esse é o risco deles. Duvido que uma empresa estabelecida corresse esse risco. Qualquer empresa que deixe você passar sem habilidades, mas com alguma aptidão ou conhecimento adicional provavelmente treinará você durante o trabalho.

2
O mais importante é começar em um campo. Você pode se movimentar e aprender à medida que avança. A ciência de dados está sempre mudando, o melhor é ver para onde o mercado está se movendo e qual é a demanda. É um campo difícil de entrar, se você conseguir um emprego em campo, eu aceitaria. Conseguir um emprego de estagiário enquanto estuda é um bom começo.

É tarde demais para se tornar um bom cientista de dados?

1
Embora eu tenha trabalhado em muitas funções técnicas / de engenharia / analíticas envolvendo estatística e análise de dados antes dos 34 anos, foi então que realmente mudei para uma função de ciência de dados, como membro sênior de consultoria de uma empresa de consultoria focada em dados.I diria que, com ampla curiosidade, a capacidade de aprender novas idéias e desafiar o próprio conhecimento e habilidade, você não é velho demais. Se você possui experiência no domínio de um setor específico como engenheiro de software, pode descobrir que ser um cientista de dados nesse setor pode ser uma carreira interessante pela frente.

2
Não, o campo está em constante crescimento e, no futuro, a ciência de dados acabará se dividindo em subcampos menores

3
Na verdade, seria uma excelente ideia marcar este post como favorito (como eu fiz) por causa da resposta fornecida pelo Sr. Pong. Você não verá respostas tão abrangentes e de boa qualidade aqui no Quora e em outros lugares. E para adicionar ao final desta resposta, lembre-se da frase comum – “Nunca é tarde demais!”

Quais são alguns pecados estatísticos comuns que cientistas inexperientes cometem?

1
O maior erro está sendo excessivamente focado em ferramentas e métodos, em vez de resolver problemas. Isso leva a: trabalhar nos problemas errados; gastar muito esforço em abordagens sofisticadas, que são apenas um pouco melhores (ou piores) do que as simples, e nem mesmo verificar se a abordagem simples funcionaria; má comunicação (“eu fiz isso e depois fiz isso e então eu fiz isso “)

2
falha em entender a diferença entre “o que os dados dizem” e “o que os dados significam”. sempre tente resolver problemas com o ML. Isso é tão estúpido. Não obter o impacto de uma decisão sobre os negócios depende muito do hiato de comunicação de valores-p com outras partes interessadas em busca de solução antes de entender completamente o problema.

3
De vez em quando, ouço isso sobre a rede neural, seja na academia ou na indústria (principalmente as startups). Eles se gabam como se as redes neurais fossem soluções esotéricas altamente sofisticadas. Eles estão confiantes de que sua abordagem profunda com o fluxo tensor vai abalar o sistema. Eles inevitavelmente falham, sem saber que os problemas são específicos do domínio e os RNs não são panacéia.

Quais são os maiores desafios para se tornar um cientista de dados?

1
Aprender matemática é difícil para alguns (deve conhecer pelo menos o nível de graduação em matemática / estatística com algum conhecimento de graduação em estatística), enquanto aprender a comunicar os resultados e criar insights acionáveis é difícil para outras pessoas (normalmente o pessoal de software que fala em conversa técnica). A combinação de habilidades costuma ser o maior desafio e o motivo pelo qual a ciência de dados é muito mais do que às vezes é considerada. Atualmente, existem muitos pacotes, portanto não há muita ênfase na codificação ou no aprendizado de software (felizmente!).

2
O maior desafio é exigir habilidades e conhecimentos interdisciplinares, o que leva tempo para aprender e entender. Se você não é apaixonado pelo trabalho, não há como durar muito, pois é uma jornada interminável de aprendizado, pois o campo ainda está se desenvolvendo rapidamente.

Posso me tornar um cientista de dados?

1
Pode ser sim ou não. Sem quaisquer detalhes, é muito difícil responder. Dito isto, vou tentar.Você obviamente tem uma conexão com a Internet (pode ser em casa, em um cyber café ou muitas outras opções Você também sabe escrever em inglês e fazer perguntas.Finalmente, você já ouviu falar sobre o Quora e o usou pelo menos uma vez.Você já tem muitas coisas boas para você.Encontre recursos disponíveis on-line para aprender ciência de dados Faça perguntas gratuitamente e leia algumas respostas sobre ciência de dados. Boa sorte.

2
Sim, com o background certo, você pode aprender ciência de dados fazendo cursos on-line gratuitos de plataformas como edX, Coursera e Datacamp. Esses cursos ensinarão a você a base da ciência de dados. Depois de ter uma boa base, você precisará aplicar esse conhecimento a problemas reais de ciência de dados. Leva tempo para se tornar proficiente como cientista de dados, eu diria de 1 a 5 anos, dependendo de como você está comprometido.

3
Obrigado pela A2A. Há muitos recursos na página de ciência de dados do Quora. Muitas perguntas frequentes, recursos, etc.Em relação à sua pergunta e à forma como você a desenvolveu na universidade em que está e assim por diante, deixe-me ser franco: sim, você pode ser um cientista de dados, independentemente da universidade em que está. , suja as mãos. Você tem tempo de sobra para melhorar suas habilidades e, para ser honesto, até decide que não quer ser um cientista de dados. Boa sorte!

Como é a entrevista do cientista de dados no Twitter?

1
São coisas bastante comuns em ciência de dados de empresas de tecnologia. Olhe para Glassdoor ou Career Cup se você quiser exemplos específicos de perguntas, mas ninguém entrevistou, por isso não é perfeitamente consistente. Como todas as empresas com muitas pessoas dando entrevistas, isso varia muito de acordo com o entrevistador. Eu entrevistei um cargo de cientista de dados financeiros (que seria chamado de analista financeiro em muitos lugares) alguns anos atrás. Depois de algumas agradáveis entrevistas por telefone de 30 minutos, concluí um projeto para levar para casa. A previsão de receita era nova para mim, e eu não tive um ótimo desempenho (não os 10% melhores), então esse foi o fim da linha.

Twitter (produto): Como é ser cientista de dados no Twitter?

1
Difícil dizer. Eu e meus amigos estávamos estudando ciência de dados. Ele atualmente trabalha no twitter e obviamente adora seu trabalho. Sempre que ganha tempo, ele menciona sobre seu trabalho no Twitter e no laboratório de ciência de dados. Twitter, Facebook, google são as melhores empresas para se trabalhar. A quantidade de dados que eles manipulam é como gerenciar um novo continente completo. Desenvolvendo novas tecnologias e melhorando estruturas, trabalhando com novos algoritmos. Você não pode imaginar a emoção do trabalho que eles fazem.Edit 1: Ele ficará na Índia por alguns dias. Planejando um geek de dados de hangout em pune.

2
Tente seguir meu twitter Xin Leo Wang (@flyboyleo) para ver;) P.S .: Sou um bioinformático que analisa grandes dados de sequenciamento da próxima geração o dia todo.

Quão chato é ser um cientista de dados?

1
Se você tem um BS recém-cunhado e seu cargo é “cientista de dados”, espero que você faça muitos dados de preparação e redação de relatórios. Se você tem um doutorado recém-cunhado e seu título de trabalho é “cientista de dados” Espero que você tenha alguns relatórios diretos e as pessoas esperem que você faça ou economize uma quantia significativa de dinheiro. Isso pode não ser divertido, mas não é chato.

Como é ser cientista de dados na Netflix?

1
A Netflix desenvolveu vários algoritmos e o mais importante é o “Mecanismo de recomendação”, que oferece sugestões personalizadas para os usuários e diz-se que “a Netflix conhece você melhor do que você mesmo” Sim, essa afirmação é válida para quase todos os usuários da Netflix e isso pode ser comprovado como 75% do que as pessoas assistem na Netflix são recomendadas por este algoritmo.Portanto, a Data Scientist Netflix está fazendo um excelente trabalho e deve se orgulhar de si mesma.Para obter mais informações, você pode ler: @How Netflix Gets Suas sugestões de filmes tão certas

Qual a importância da teoria dos jogos para um cientista de dados?

1
Fundamentalmente, a teoria dos jogos é um componente da ciência de dados (a teoria dos jogos é importante para os cientistas de dados?). É semelhante ao planejamento de cenários para gerenciamento estratégico, onde os cenários são criados para gerenciar eventos previstos. Em um nível prático, a teoria dos jogos não é mencionada por si só e pode nem ser calculada matematicamente, mas é considerada diariamente. Na maioria das vezes você está aqui: “qual é a porcentagem de confiança de que isso acontecerá” e “… se sim, o que devemos fazer …?” Richard Hom Conecte-se no LinkedIn

2
Não é um tipo de coisa ‘preciso fazer’. Quero dizer, se você não está analisando dados para melhorar o envolvimento do cliente – pode ignorar a teoria dos jogos. Embora eu ache isso bastante interessante. É um ramo complicado para ter certeza. Eu acho que você pode ler mais sobre isso aqui Cientistas de Dados: Explore a Teoria dos Jogos para Aumentar o Engajamento do Cliente | O Big Data Hub

Como um estatístico pode se tornar um cientista de dados?

1
Onde quer que os dados não se encaixem no estatístico de modelo se tornem mais adequados para o cientista de dados. Sempre que os dados de muitas fontes precisam coletar e o arquiteto de dados organizado se torna mais adequado para a ciência de dados. Adequado para a ciência de dados.Escolha seu papel e aprenda, com a experiência que você governará a equipe.Os cientistas de dados são bons em mineração de dados, não em métodos científicos, é um bônus ao estatístico em ciência de dados.Como existe uma resposta padrão padrão, sim , de fato.

Com que frequência os trabalhos de cientista de dados exigem que eles desenvolvam modelos de aprendizado de máquina a partir do zero?

1
Depende da empresa e da posição específica. As posições de pesquisa e desenvolvimento podem envolver uma quantidade razoável de pesquisa / projeto de algoritmo de aprendizado de máquina. Minha posição atual resultou em mais ou menos uma dúzia de novos algoritmos que precisam ser criados para determinados problemas ao longo de três anos. No entanto, a maioria dos problemas é bastante rotineira e pode ser resolvida pelos algoritmos existentes muito bem. No entanto, é importante conhecer a matemática por trás do algoritmo para garantir que o algoritmo seja usado corretamente nos dados, e essas são as mesmas habilidades necessárias para criar novos algoritmos.

Como faço para conseguir um emprego no governo como cientista de dados?

1
Você pode obter empregos no governo na área de Ciência de Dados. Existe uma demanda enorme dessa profissão, tanto no setor privado quanto no setor governamental. As organizações governamentais estão contratando uma boa quantidade de cientistas de dados. Se você é bom em sua habilidade em Ciência de Dados, então faça alguma pesquisa, aplicar, qualificar e ser colocado.Obrigado

2
Você deve considerar os Serviços Econômicos da Índia ou um serviço público que possa levá-lo à psefologia em que você pode procurar padrões e executar análises. Além disso, qualquer departamento que recrute estatísticos é uma abertura potencial para você, porque a ciência de dados será adotada lá eventualmente.

3
Você pode obter posições do governo no campo da ciência de dados. Há um interesse considerável nessa chamada tanto no setor privado quanto no setor governamental. A associação do governo está contratando uma medida aceitável de cientistas da informação. Se você for razoável em sua capacidade de Data Science nesse nível, faça algum trabalho, inscreva-se, qualifique-se e prepare-se.para Aprendizado Estatístico de Máquina – Aprenda conceitos básicos de máquina, como Regressões Lineares e Árvore de Decisão, etc. Melhor aprender o pacote Scikit em Python. Depois de concluir essas 3 etapas, você estará pronto para atacar problemas mais difíceis de aprendizado de máquina e aplicativos comuns do mundo real. ciência de dados.

3
Idealmente, um nível de pós-graduação. A maioria dos modelos de aprendizado de máquina é baseada em modelos lineares generalizados, e os projetos de estudo exigem que simulações e análises de potência sejam modificadas para a situação com bastante frequência em problemas industriais. As estatísticas bayesianas estão ganhando terreno, assim como alguns métodos baseados em probabilidade. Ciência de dados é um novo termo para estatístico, e eles geralmente têm um MS ou PhD em estatística / matemática aplicada.

Qual será o escopo para empregos de cientista de dados nos próximos anos?

1
Acredito que dados e análises, especialmente na nuvem, têm o potencial de automatizar e tomar inteligente, todas as decisões tomadas por cada indivíduo, organização, dispositivo e sistema. Acredito que essa revolução tornará a ciência de dados tão onipresente quanto o software – e todo software, por sua vez, poderá se tornar mais inteligente, personalizado e ideal, usando dados e análises. Acredito que isso implique uma enorme margem para a ciência de dados nos próximos anos em todos os campos.

2
A resposta simples será “haverá mais dados para analisar”; portanto, fique feliz que este é o único campo em que a experiência e os dados aumentam. Prepare-se para resolver todos os problemas deste mundo com o conjunto de dados que você possui. Pense em como resolver “Fome no mundo problema ”quando não houver árvores, alimentos, ar poluído e a lista aumentar …. somente você terá dados.

3
Se você é um cientista de dados ou um aspirante a ser, os próximos 5 anos serão todos seus. Como você sabe, os dados estão crescendo exponencialmente e provavelmente continuarão no futuro. Quanto mais dados tivermos, maior será o problema de entender os dados. A análise, interpretação e visualização de dados provavelmente crescerão em um futuro próximo. Dito isso, bons cientistas de dados são raros. Precisa de habilidades e conhecimentos especiais. Se você tem aptidão para grandes dados e uma mente analítica muito forte, é uma ótima carreira para seguir.

Quais são algumas das certificações sugeridas para um aspirante a cientista de dados?

1
Pelo menos nos EUA, é necessário que a maioria dos cargos tenha diplomas de pós-graduação em algo quantitativo, com um trabalho substancial em estatística no nível de pós-graduação. As certificações fornecem uma visão geral superficial que realmente não se traduz em ser boa no trabalho ou mesmo competente. Se você estiver em um país remoto sem um bom sistema educacional, provavelmente poderá se dar bem com recursos on-line, mas nos EUA e na Europa, espera-se que você tenha a competência adquirida com a experiência e a educação.

2
O que você considera a melhor certificação deve realmente trazer o melhor de você. O campo da ciência de dados tornou-se “loucamente competitivo” nos últimos anos, por isso é importante que você considere seus pontos fortes e fracos primeiro. No entanto, qualquer certificação da Microsoft, Cloudera, Oracle, MongoDB e SAS seria um bolo quente para um cientista de dados.

3
Abaixo estão algumas certificações de ciência de dados que são amplamente reconhecidas pelo setor: Certified Analytics ProfessionalCloudera Certified Professional (CCP): Data ScientistSAS Certified Data ScientistTambém existem certificações focadas em tecnologia (Hadoop, Spark, etc.), mas suponho que essas não sejam as que você possui em mente.

Por que a Zynga demitiu todos os seus cientistas de dados?

1
Até onde eu sei, eles não o fizeram.Pesquise “cientista de dados da zynga” no LinkedIn e há dezenas de pessoas em minha rede estendida atualmente trabalhando na Zynga com cargos como “cientista de dados”. Pesquise no google com todas as perguntas óbvias e não há nada para encontrar. Normalmente, não respondo perguntas estranhas como essa, mas, como literalmente mais de 500 pessoas estão seguindo essa pergunta – precisamos reinar na loucura. Ninguém fica mais feliz do que eu por estar corrigido com dados ou evidência – portanto, se você tiver algum para apoiar a premissa da pergunta, deixe-a rasgar. Caso contrário, nada para ver aqui.

2
A Zynga não demitiu todos os cientistas de dados, onde você conseguiu isso? Não há literalmente nenhuma evidência para sugerir isso. Só para garantir, vamos verificar o google. Como você pode ver, literalmente 0 resultados mostram que até sugerem que a Zynga demitiu seus cientistas de dados. Portanto, a Zynga não demitiu todos os seus cientistas de dados. Isso significa que essa pergunta não pode ser respondida, porque como a Zynga não demitiu seus cientistas de dados, eles não podem ter um motivo para fazer algo que nunca fizeram.

Como posso me tornar um cientista de dados como um novato?

1
Em primeiro lugar, você precisa aprender uma linguagem como python ou R. Você pode aprendê-la no DataCamp ou no Youtube, mas acho que o DataCamp é bom para iniciantes. Depois de ter uma boa noção do idioma, você pode fazer um curso de dados A partir do momento em que você se torna um profissional, é importante que você tenha uma boa noção do que está acontecendo no seu dia-a-dia e, principalmente, se você é um profissional da área da saúde ou que deseja se tornar um profissional de saúde. aplicar modelos de ML em dados, quais modelos usar com diferentes tipos de conjuntos de dados, como otimizar modelos usando o algoritmo de pesquisa ganância etc.

Quais são as habilidades necessárias para um cientista júnior de dados?

1
YoungnWise, Obrigado por fazer sua pergunta: “Quais são as habilidades necessárias para um cientista júnior de dados?” Aqui estão algumas referências que podem ajudar: “9 habilidades necessárias para se tornar um cientista de dados” YoungnWise “Aqui estão os 10 habilidades que você precisa para se tornar um cientista de dados, o não. 1 emprego na América ”Aqui estão as 10 habilidades necessárias para se tornar um cientista de dados, o não. 1 trabalho na AméricaFinalmente “Habilidades e características essenciais dos cientistas de dados de elite” Habilidades e características essenciais dos cientistas de dados de elite

Quais são as melhores indústrias para trabalhar como cientista de dados?

1
As empresas de software (Google, Microsoft, etc) – excelente ponto de marketing no currículo – são as mais lucrativas. As startups podem ser recompensadoras, trabalhando em desafios muito interessantes e recompensadoras. As agências governamentais (FBI, NSA, CIA, NASA etc.) também são emocionante, já que você começa a trabalhar com os dados aos quais não teria acesso.

2
Encontrei alguns dos dez principais recrutadores de ciência de dados da Índia que podem ajudá-lo a conseguir um emprego bem remunerado. Se falamos de provedores de serviços de análise, o Fractal Analytics alcança o primeiro lugar na Índia. … Deloitte. …Amazonas. Flipkart. … LinkedIn. … IBM. Citrix. … MuSigmaHá muitos outros bons lugares e organizações para trabalhar como cientista de dados na Índia.

3
No entanto, é importante ressaltar que, em caso de divergência de preços e condições de entrega, o prazo de entrega dos correios varia de acordo com a forma de envio escolhida e não é de nossa responsabilidade“já que a entrega fica a cargo do cliente. rastrear uma doença para algo como fitbit.DS em tecnologia, talvez olhando para os padrões de usuário em um aplicativo use para melhorar a experiência ou para olhar para os padrões de compras etc. Esses são um conjunto infinito de exemplos. Encontre o que lhe interessa e ame.

Quais são os bons livros para “cientista de dados” e “análise de dados” para iniciantes?

1
Dados estatísticos de Amazon.com: Estatísticas conceituais para iniciantes (9780761833451): Isadore Newman, Carole Newman, Russell Brown, Sharon McNeely: BooksProbability of R? RInstant R StarterLearning Data Mining Com RData VisialuzationTableau For Dummies (Para Dummies (Computer / Tech)): Molly Monsey, Paul Sochan: 9781119134794: Amazon.com: BooksLearning TableauEspero que seu início seja bem-sucedido, você consegue atingir seu objetivo em breve 🙂

2
Vários livros vêm à menteData Mining: Ferramentas e técnicas práticas de aprendizado de máquina – Ian witten, Eibe Frank e Mark Hall Princípios de mineração de dados | Springer – Max BramerIntrodução à Mineração de Dados – Pang-Ning Tan et al. Eu recomendo o primeiro da lista, mas todos são bons, IMO.

3
Eu recomendo The Signal and the Noise por Nate Silver, pois explora sob quais circunstâncias a análise baseada em dados pode ou não ter sucesso no mundo real.

Qual é a diferença entre um analista de dados e um cientista de dados?

1
Normalmente, separamos as funções de dados em três posições distintas, mas sobrepostas; O analista de dados, o cientista de dados e o engenheiro de dados. O analista de dados normalmente realiza consultas em relação a novos dados para encontrar tendências importantes para a organização e ajudar a preparar dados para os cientistas de dados. Os analistas de dados geralmente são muito bons em SQL, além de conhecer as principais métricas que uma organização considera importantes. Eles também podem escrever scripts e produzir visuais intuitivos. O Data Scientist tem a tarefa principal de criar modelos usando o aprendizado de máquina. Esses modelos devem gerar o software de uma organização com recursos do produto que preveem e explicam; tornando os aplicativos adaptáveis. A qualidade dos modelos de um cientista de dados depende diretamente de quão bem eles entendem e preparam os dados; assim, eles trabalharão com o analista de dados quando se trata de entender e preparar dados para criar modelos melhores. O engenheiro de dados pega o que é criado no “laboratório ”E ajuda a colocá-lo em produção. Eles trabalham com cientistas de dados para garantir que a engenharia implementada lide com os modelos de aprendizado de máquina corretamente (quanto os modelos precisam ser dimensionados, como os modelos são treinados, como os modelos são mantidos atualizados etc.). Em algumas empresas, os engenheiros de dados também trabalharão com os analistas de dados para garantir que a ingestão e a conversão de dados levem em conta as métricas corretas, das fontes corretas etc. Todas as três funções ajudam a apoiar a conversão de dados brutos em recursos implantados nos produtos. Aqui está uma comparação geral de algumas habilidades essenciais, mas lembre-se de que todos os indivíduos de uma equipe variarão em termos de pontos fortes e foco.

Por que os cientistas de dados não recebem salários mais altos do que os engenheiros de software?

1
Os salários não funcionam assim. Se eu conheço programação, estatística e contabilidade, isso não me qualifica para uma carreira super lucrativa em contabilidade de ciência de dados, a menos que essa combinação de habilidades seja especialmente útil para alguém. Os cientistas de dados ganharão altos salários se sua combinação de habilidades for valiosa e as posições forem difíceis de preencher.

2
Sua lógica é interessante. Os salários não são determinados pelo número de habilidades que alguém possui. ou seja, no seu exemplo, você teoriza que os DSs devem ganhar mais do que os SEs porque conhecem estatísticas e engenharia de software. Não é assim que funciona. Existem muitos fatores que influenciam o salário de alguém, mas se você tirar a localização, a antiguidade e o setor da equação, tudo se resume à oferta, à demanda e ao valor / impacto que a posição exerce sobre os negócios.

3
Seria interessante fazer uma análise cuidadosa de suas suposições. Por exemplo, embora eu tenha certeza de que existe uma concentração justa de cientistas de dados no SF, o mesmo poderia ser dito para os engenheiros de software. De fato, dadas as densidades populacionais, a maioria dos engenheiros de software nos EUA deve estar nas principais áreas metropolitanas, como Nova York e SF. Dado que Nova York tem um alto custo de vida e um alto número de engenheiros de software trabalhando em finanças, com alguns deles ridiculamente bem, eu não ficaria surpreso se isso trouxer um pouco a média.

Quais são os tópicos importantes nas estatísticas que todo cientista de dados deve conhecer?

1
Você não pode substituir as bases esperadas de todos os estudantes sérios de matemática adquiridos desde o ensino fundamental para o atual estudo acadêmico. Se você tiver tempo, deve aprender inferência e análise estatística, desenho experimental e aprendizado estatístico. Esses três cabeçalhos de assuntos são suficientes para levar adiante sua carreira em ciência de dados e adquirir assuntos estatísticos adicionais quando você precisar deles, ou avançar sua modelagem.

2
Estatísticas descritivas e inferenciais são as primeiras coisas que vêm à mente. Durante minha graduação, fiz um projeto que envolveu a adaptação de um modelo ARIMA aos índices de preços ao consumidor compostos por 20 anos, depois de ter feito tudo isso e apresentado ao meu supervisor, sua primeira pergunta: “Onde está a tabela que descreve os dados?” Desde então, ao analisar qualquer conjunto de dados, a primeira coisa que faço é estatística descritiva.

3
Os principais tópicos que geralmente busco ao contratar analistas ou cientistas de dados incluem estatísticas descritivas e inferenciais, teste de hipóteses, modelos lineares e análise básica de séries temporais. Eventualmente, todo cientista de dados precisa acabar aprendendo métodos estatísticos mais específicos dentro desses amplos campos, em profundidade, para usá-los no trabalho regular.

Qual é a diferença entre um arquiteto de dados, analista de dados, engenheiro de dados e cientista de dados?

1

2
Obrigado pelo R2A. Existem várias maneiras pelas quais os vários papéis na indústria de ciência de dados podem ser definidos.Eu ofereço outra classificação, com o que cada um deles significa, aqui: A resposta de Praful Krishna a Como aprender ciência de dados “fazendo isso” ? Alguém pode explicar como exatamente devemos aprender ciência de dados “fazendo isso” em vez de apenas passar pela teoria?

3
Definitivamente, acrescentaria também o aprendizado de máquina nas habilidades do cientista de dados e provavelmente no topo das habilidades necessárias. Além disso, o cientista de dados precisa ser um pouco “artista de dados” em termos de saber como escolher a melhor maneira de visualizar e apresentar os padrões descobertos e as associações de dados.

Um cientista de dados é um engenheiro de software?

1
Acabei de terminar a especialização em ciência de dados courera. A propósito, ainda não sou cientista de dados. No entanto, ao longo do meu processo de aprendizado, descobri que na verdade existem dois ramos à frente. um mais se inclina para o papel de analista e o outro mais para o desenvolvimento de software. Para mim, o papel de analista faz sugestões para a empresa por suas investigações estatísticas. Eles podem considerar renderizar suas descobertas em diferentes formatos, como relatórios, apresentações ou aplicativos com UIs simples. No entanto, diferentemente dos desenvolvedores de software, eles não fabricam produtos.

2
Sim, o melhor exemplo sou eu, fui cientista Jr. Data na minha empresa anterior. Agora sou engenheiro de software associado em minha nova empresa. Atualmente, percebi recentemente que engenheiro de dados ou cientista de dados ou analista de dados se enquadram na granularidade de engenheiro de software.

3
Um cientista de dados é melhor em engenharia de software que um matemático e estatístico e melhor em matemática e estatística que um engenheiro de software.

O que as empresas procuram em cientistas / analistas de dados iniciantes?

1
Gostaria de sugerir uma olhada em uma seleção de listagens de empregos para obter uma impressão e uma sensação de quais são os requisitos para obter um emprego de cientista ou analista de dados iniciante. Você verá rapidamente o que a maioria dos empregadores considera requisitos mínimos e quais padrões existem em relação a educação, habilidades de programação, experiência etc. Uma boa fonte dessas postagens é https://ai-jobs.net. É um quadro de empregos global dedicado exclusivamente aos cargos no campo AI / ML / Ciência de dados / Big Data e oferece uma ótima seleção de listas de nível de entrada e mais avançadas.

2
Indolor Com é a empresa de raspagem top web na Índia. Eles podem criar suas próprias ferramentas de raspagem automática para qualquer site que você desejar, além de converter dados de sites em API. e entregue o código fonte completo. Melhor Quoto do dia. Sempre mantenha essa atitude feliz. Finja que você está segurando um lindo buquê perfumado.

Quais são as habilidades técnicas que todo aspirante a cientista de dados deve aprender?

1
Para se tornar um cientista de dados, é necessário ter conhecimento básico nas seguintes áreas: R ou Python; Conhecimento do SQL.MS ExcelStatistics; e deve ter uma idéia sobre probabilidade. Deve ter conhecimento de terminologias, como análise de dados, visualização de dados.

2
Considero meu companheiro Chris um cientista de dados. Não sei se ele tem habilidades técnicas. Ele tem uma capacidade incrível de traduzir o comportamento do cliente em dados e vice-versa. Não sei, depende de suas definições. Não consigo imaginá-lo lidando com estatísticas além da regressão linear. No entanto, eu sou péssimo em engenharia de dados, para que todos tenhamos nossas habilidades.

3
Leia a minha resposta das seguintes perguntas: Quais são as habilidades necessárias para um cientista de dados júnior? Quais são as bases básicas necessárias para um cientista de dados? Qual é o requisito básico para se tornar um analista de dados / cientista de dados? Quais são as diferentes tarefas que realizados por um cientista de dados? Espero que ajude você.

Quais são os motivos mais comuns para rejeitar candidatos a emprego de cientistas de dados?

1
Os cientistas de dados aspirantes devem possuir um certo conjunto de habilidades que se qualificam como higiene. Eles devem ter uma sólida base em quantos (Matemática e Estatística) .Basic para habilidades de programação intermediárias em softwares como R / Python / SQL.Tem uma abordagem de solução de problemas – boa intuição para fazer com que os dados configurem as perguntas certas antes de começar a processá-los. Boas habilidades de comunicação – os resultados precisam ser articulados. Uma lacuna / deficiência em qualquer uma das opções acima são razões comuns para rejeição.

Quais startups estão atualmente procurando cientistas de dados?

1
A First Retail está procurando Data Scientists – http: //www.firstretail.com/about … – temos muitos projetos muito interessantes apresentando conjuntos de dados enormes e bastante exclusivos – e clientes que apoiam muito a análise processo. Entre em contato e deixe-nos saber o que o faz marcar.

2
Atualmente, quase todas as empresas precisam de um ‘cientista de dados’. Mas ouvi dizer que apenas empresas relacionadas a software contratam Data Scientists frequentemente do que as outras empresas. Meu amigo que trabalha em uma empresa relacionada ao PLM ‘Piterion’ também mencionou os cientistas de dados e sua importância. É realmente uma boa idéia consultar bem os funcionários que trabalham em uma empresa para saber sobre os requisitos e as melhorias associadas ao seu trabalho.Pergunta Como posso me tornar um cientista de dados? Número da resposta 1 Não. Você não pode. Você pode resolver um problema de “Poincare Conjecture” em 2 minutos? Se a resposta for sim, você pode. Caso contrário, não faça isso. Vejo muitos institutos treinando cientistas de dados e oferecendo cursos de certificação em análises. Eu realmente não sou cínico. Mas a única coisa que falta é se preparar como cientista de pesquisa que trabalha em um ambiente de negócios, tentando resolver um problema de aquecimento global ou criando algoritmos para processar dados genômicos para organismos geneticamente modificados. Você simplesmente NÃO PODE se tornar um cientista de dados com uma certificação de 6 meses. cursos. Seja avisado por eles. Muitas habilidades no cientista de dados que eles possuem é um papel para o analista de dados. Como carregar dados no Excel, manipulá-los e visualizá-los? Você pode fazer isso sozinho. Com o objetivo de proporcionar aos nossos clientes um atendimento diferenciado e personalizado, a empresa conta com uma equipe de profissionais qualificados para o serviço, além de investir em equipamentos modernos, que se ajustão a sua necessidade. Além disso, outros 3 anos para aprender o aprendizado de máquina.Tenho trabalhado principalmente nos domínios da saúde, varejo, jurídico e financeiro.Não vou dizer que sou um especialista neste campo.A ciência de dados trata de lidar com vários dados diversificados.Como aplicamos tipo certo de algoritmo para o problema certo? Escolhendo a estrutura de dados certa para a solução certa.Você simplesmente não aprende isso em 6 meses.Ele leva anos.Eu sugiro que você faça uma coisa.Tome um problema. Digamos no Deep learning. Identifique um interesse comum em sua área favorita. Tente descobrir se você pode fornecer uma solução baseada em aprendizado de máquina. Publique sua descoberta nos principais jornais. Faça isso quando você ainda estiver trabalhando em uma empresa. Não precisa estar relacionado à ciência de dados. Descubra como, com eficiência, você pode escrever algoritmos capazes de lidar com grandes volumes de dados. Dessa forma, você conhecerá as nuances do desenvolvimento de software.Em seguida, tente contribuir para o projeto de código aberto no aprendizado profundo usando python. ou java.Use-o para problemas do mundo real com sabedoria.É assim que você enfrenta um problema, ruminar por um longo período de tempo e depois prosseguir com ele.Eventualmente, quando você começar a publicar trabalhos, comece a explorar uma carreira na ciência de dados e no aprendizado de máquinas. você também pode apostar com segurança sua mudança de carreira. Lembre-se de que as pessoas que trabalham com ciência de dados já estão estabelecidas, mas todas são de antigas escolas de estatística, ciência da computação e matemática. Se você está se tornando um cientista de dados, considere-se um dado de primeira geração Você está por sua conta criando seu caminho. Dito isso, eu diria que uma carreira em cientista de dados é a função de trabalho mais gratificante que você pode assumir, se você é apaixonado por pesquisa (Sim. Dinheiro também. Existem algumas empresas em Wall St O valor do frete é calculado automaticamente pelo Mercado Envios. Leva tempo. Mas realmente vale a pena. Adoro o meu trabalho. É o trabalho mais gratificante que já tive na minha vida. 2 Depende de onde você começa. O DataScience é uma mistura de matemática, estatística e ciência da computação. Também envolve programação, gerenciamento de banco de dados e modelagem. Sem uma boa base em vários deles, é improvável que você tenha sucesso. O DataScience não é apenas uma disciplina da Universidade. As universidades estão atrasadas para a festa e não têm força em profundidade no campo. Eles estão tentando criar algumas das partes mais teóricas – como visão computacional e aprendizado profundo -, uma vez que podem conceder fundos sem uma aplicação comercial direta, mas a maioria é de departamentos jovens e há uma porta giratória com a indústria. Existem várias rotas em … A primeira que estamos explorando em uma palestra no mês que vem aqui em Oxford, a partir de Pivigo, que realiza um curso de migração de seis semanas para que os cientistas se tornem cientistas de dados. Muitos cientistas já usam dados extensivamente, então o salto parece pequeno, mas os dados nas Universidades costumam ser usados para justificar uma conclusão pré-julgada, e é difícil para eles abrir as possibilidades. O segundo é através das disciplinas tradicionais baseadas em dados. Profissionais de inteligência de negócios, especialistas em bancos de dados de TI etc. A diferença, no entanto, é que os dados de 1ª geração foram empregados para colocar gráficos bonitos em desktops executivos, sem fazer nada significativo. Passar da visualização para o uso científico de dados muitas vezes é um exagero e as pessoas acabam no “Bigdata”. O terceiro é através da programação, especialmente em R ou Python. Aqui, o salto mental é entender a ciência e o método científico, o “porquê” e o “como” eles estão familiarizados. Sem isso, as percepções são perdidas, pois a pessoa pensa linearmente demais. Se você não tiver nenhuma dessas … bem, eu nem começaria. DataScience não é uma coisa simples comoO desenvolvedor pode ser (aprenda um programa e continue usando-o) – é uma manipulação científica complexa e de alto nível dos dados. Compre esses serviços ou comprometa-se com uma curva de aprendizado de 3 a 5 anos.

Quem são os cientistas de dados mais notáveis e influentes?

1
Além de todos os itens acima, o professor Rob Tibshirani e o professor Brad Efron por seu trabalho sobre regularização e o algoritmo de Lars

2
Nate Silver e Jonah Hill (Moneyball), sem dúvida, foram mais influentes do que qualquer um dos itens acima em termos de obter “ciência de dados” geralmente aceita e glamourizada para as massas

3
Publicamos 2 artigos sobre isso em nosso quadro de empregos em Data Science, Datawerq. Espero que isso ajude! 50 líderes de dados a seguir no Twitter10 das mulheres mais influentes em dados

Você pode trabalhar remotamente como cientista de dados?

1
Oi: Deixe-me responder a essa pergunta em três partes. Isso pode ser feito? Na minha opinião, você pode trabalhar absolutamente em casa ou remotamente como cientista de dados, pois todo o trabalho acontece em seu sistema ou em um sistema distribuído que você pode acessar remotamente.Quem permite isso? Startups com espaço de escritório insuficiente para todos os funcionários ou tentando manter o custo baixo durante a inicialização. Você pode encontrar muitas dessas empresas na área da baía. Grandes empresas (como a IBM) com presença global e tecnologias avançadas permitem isso para seus funcionários. Se alguém o contratar como freelancer ou contratado e sua avaliação / pagamento de desempenho estiver vinculado a um saída muito bem definida e linha do tempo associada. e assim por diante. Existem advertências – “Fora da vista, fora da mente” – você precisaria envidar esforços extras para manter a visibilidade para si mesmoMotivação – não há ninguém para examinar sua O objetivo do curso é capacitar os profissionais para atuarem na área de vendas, com foco em vendas, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, relacionamento com clientes, entre outros. disponível fisicamente na mesma salaEquilíbrio entre vida profissional e pessoal – você pode manter sua vida profissional e doméstica separadas quando trabalha remotamente? Espero que isso ajude.Fãs! Obrigado por seus votos antecipadamente. Eles me fazem continuar! Obrigado! Isenção de responsabilidade: As opiniões aqui expressas são exclusivamente do autor em sua capacidade particular.

2
Sim, você pode até agora acreditar que funcionará para você enquanto estiver usando os caminhos certos. Você pode ter a sorte de obter empresas bem estabelecidas que o levariam a um cargo de cientista de dados remoto, mas as chances são pequenas. No entanto, algumas startups com T & Cs flexíveis podem oferecer essa oportunidade ou, melhor ainda, você pode configurar um freelancer. Tudo o que você precisa fazer é continuar aproveitando suas habilidades em DS, além de criar seu perfil nas redes sociais ou plataformas empresariais.

Como posso passar de analista de dados para cientista de dados?

1
Faça alguns cursos de análise – Coursera e Caltech oferecem cursos gratuitos, consulte o curso on-line gratuito da Caltech: Aprenda com dados, aprenda R e Python e participe do Kaggle ou de outras competições

Como o Uber contrata cientistas de dados?

1
Seja proativo com lugares como Uber / Google. Eles têm equipes de recrutamento internas próprias, que serão rigorosamente examinadas em determinados critérios (geralmente na escola e no GPA). (Geralmente ex-headhunters). Por que não fazer uma pesquisa sobre algumas pessoas seniores da área de Ciência de Dados que trabalham lá, o chama através do painel de distribuição (tem um bom argumento). O processo de tomada de decisão depende da antiguidade da função. Além do que está na página, acho que eles podem estar procurando por motoristas de táxi 🙂

2
O Uber coloca seus cientistas de dados entrevistados em uma série de testes para determinar suas habilidades pessoais e físicas. Primeiro, eles solicitarão que você faça análises, como calcular médias, menor / maior taxa de execução e porcentagem de aceitos. Após essas demonstrações técnicas, você será questionado na tentativa de determinar sua capacidade de trabalhar em equipe, seja flexível, etc. Se desejar obter mais informações sobre o processo de contratação de cientistas de dados da Uber, confira o Rooftop Slushie!

3
Legal, acabei de receber um código de reinicialização gratuito nos códigos Free Boost Mobile Reboost

Muitas pessoas se autodenominam “cientistas de dados”. Como você identifica um cientista de dados real?

1
Há um simples exame de sangue para isso. Você só precisa desistir de dois litros de suco de sua vida. Brincando à parte, aqui estão alguns sinais de cientistas de dados reais e falsos. REAL: sabe como executar uma tarefa ETL a partir de um banco de dados local ou na nuvem armazenado. Você não pode fazer nada sem dados. Na maioria das vezes, os dados não serão entregues a você no seu formato preferido. (a menos que você já esteja no último ano e tenha lacaios no escritório que fazem o trabalho sujo para você) FAKE: Pensa que os bancos de dados estão abaixo dele (eu uso o pronome masculino aqui porque as mulheres raramente são tão ilusórias). Pensa que o SQL é um negócio do analista. REAL: Tenha pelo menos alguns anos de treinamento formal ou prático (experiência) em estatística preditiva e inferencial. As idéias não vêm do céu (a menos que você seja Jesus ou Moisés). Mesmo quando você cria uma visualização de dados impressionante que mostra padrões e relacionamentos, você precisa fazer backup com testes de hipóteses e intervalos de confiança e (eu sei que é um furo, mas) valores p. Talvez você nunca precise relatá-las, mas essas são as verificações de robustez definitivas para o seu modelo bonito. FAKE: Os testes estatísticos são tão ultrapassados agora. Eu tenho esse novo método de visualização. Isso vai explodir sua mente. REAL: Conhece a teoria / conceitualidade por trás do seguinte (no mínimo): regressão linear, regressão logística, análise de componentes principais (também necessária para análise de fatores), análise de agrupamento, teste A / B , Erro tipo I, erro tipo II, ajuste / desajuste, ajuste excessivo. (Observe, estes são o mínimo que você precisa. Se você também quiser se aventurar no ML ou na IA com mais seriedade, não poderá evitar redes neurais, processamento de linguagem natural, árvores de decisão etc.) FAKE: Ei, baixei as últimas redes Jupyter e I também conhece pandas. Olha, eu ajustei um conjunto de dados de aprendizado de máquina da UCI existente para replicar algum resultado de dois anos atrás. Eu também coloquei na minha conta do github. Estou pronto para lançar babyREAL: sabe que 70% da ciência de dados geralmente está preparando seus dados para análise. Tenha experiência em limpar e transformar dados confusos (você já viu os dados da Netflix com 90% de linhas com valores ausentes? Hmmm…). Está ciente de que o mundo gera dados confusos com valores ausentes, rótulos inconsistentes, erros de digitação, uso de maiúsculas inconsistentes e similares. Também sabe que preparar os dados para análise é tão crucial quanto aplicar o algoritmo ML mais complicado. Afinal, você pode cantar apenas os dados que você canta.FAKE: Pensa que a preparação dos dados é apenas uma abertura para as coisas reais.E, finalmente, os cientistas de dados ou, digamos, os profissionais que obtiveram uma visão dos dados para viver, geralmente tendem a perceber que eles trabalham em um setor bastante fluido, com muito feedback entre campos. A maioria dos cientistas de dados tende a ter (além de sua perspicácia técnica) experiência específica de domínio (ou seja, experiência com o processo do mundo real que gera os dados com os quais eles precisam trabalhar). Isso significa que eles entendem o processo de geração de dados e podem antecipar problemas que podem surgir durante a coleta e / ou processamento de dados. Eles tendem a possuir um certo grau de curiosidade natural para interessá-los pela tarefa e fazer alguma pesquisa sobre o domínio específico (pelo menos eu)….

É muito comum ver profissionais PERDIDOS diante de tantos conceitos, técnicas e ferramentas.

Talvez você esteja se sentindo CONFUSO…

Precisando de ajuda pra encontrar um caminho…

Pra saber por onde começar…

Por isso eu escrevi um livro GRATUITO sobre Estatística, Ciência de Dados e Linguagem R.

Parece interessante?

Ótimo!

Você pode BAIXAR SUA CÓPIA AQUI.