FISL 13

#FISL 13: Mineração livre de dados

O Mauríco e o Adewale são baianos, estudam na UFBA, e apresentaram o software WEKA – Waikato Environment for Knowledge Analysis, uma ferramenta muito interessante para mineração de dados. Vamos às observações sobre a palestra.
  • Os palestrantes apresentaram a OxenTI, a empresa deles, que fornece serviços em mineração de dados e áreas correlatas;
  • “Lei de Moore” diz que o processamento dobra a cada 18 meses, mas a capacidade de armazenamento dobra a cada 10 meses, o que gera um descompasso entre a capacidade de produzir e tratar os dados;
  • Knowledge Data Discovery (KDD) é o processo de extração de informação de bases de dados e criação de relações de interesse não percebidas “a olho nú”;
  • Tarefas envolvidas no processo de KDD
    • Associação de dados – ex:clientes que compram pão também compram leite;
    • Padrões sequenciais – ex: alguém compra um carro, e 6 meses depois compra pneus;
    • Classificação e predição;
    • Análise de clusters – agrupar informações com base em comportamentos;
    • Análise de outliers – identificar informações fora do padrão.
  • Técnicas utilizadas
    • Árvore de decisão – árvore que estabelece um processo evolutivo que leva a uma decisão com base na relação entre as informações;
    • Redes neurais;
  • O WEKA
    • Desenvolvido em Java, pela Universidade Waikato, na Nova Zelândia;
    • É também conhecido como Pentaho Data Mining;
    • Oferece recursos de data mining e machine learning, permitindo realizar análises de dados de forma simples;
    • Possui diversos módulos, e uma interface intuitiva de fácil utilização (abaixo uma tela de exemplo);
    • Há extensa documentação da ferramenta e uma lista de distribuição.
Fiquei bem impressionado com o software, especialmente pela facilidade para importar dados a partir de arquivos CSV ou ARFF, bem como para realizar as análises, bastando selecionar os atributos de interesse e, claro, conhecer os algoritmos (são muitos!) que se aplicam ao conjunto de dados em questão. Pretendo aprofundar os estudos na ferramenta o quanto antes.
Agora você tem uma importante decisão a tomar.
Aprender mais sobre Big Data e Análise de Dados, e se diferenciar no mercado, ou simplesmente fechar esta janela e desperdiçar a oportunidade de crescimento profissional. 
A escolha é sua!
Seja sábio!

Palestras indicadas #FISL 13

Seguem algumas palestras que vou tentar ver no FISL 13, e que devem ser relatadas aqui posteriormente. Fiquem ligados!

  • Data privacy and security at the United States border – Seth Schoen (Eletronic Frontier Foundation)
  • Firefox OS – HTML5 and the open web, opportunities and challenges – Christian Heilmann (Mozilla)
  • GPT: domine a nova geração de tabela de partições de disco – João Eriberto Mota Filho (Exército)
  • HTML5 e as novas ameaças de segurança – Tiago Ferreira
  • Virtualização na “velocidade da luz” com o OpenVZ – Sergio Cioban Filho
  • Mercado Virtualizado – Introdução a virtualização com ferramentas livres – Everton Vilhena Cardoso e Paschoal Luiz Brioschi Diniz
  • Análise de Malware em Memória RAM com Volatility – Eder Luis Oliveira Gonçalves
  • Dados Abertos e Lei de Acesso à Informação – Claudio Dutra, Corinto Meffe, Cesar Brod
  • Têndencias Web: Estatísticas da rede – Heitor de Souza Ganzeli
  • Extensive information management with SpagoBI – Andrea Gioia (SpagoBI)
  • Boot to Gecko B2G – Christian Heilmann (Mozilla)
  • Big Data and Society – Peter Linnel (Virginia Tech)
  • Tape’s Not Dead – Lucas C. Villa Real
  • SSH: dicas & truques sensacionais que (quase) ninguém conhece – Álvaro Justen, Flávio Amieiro
  • BI Simplificado com Pentaho – André Luiz Coelho da Silva
  • Lei de acesso a informação e dados abertos – Casa Civil
  • Como implementar autenticação e segurança de segundo fator com Software Livre? – José Damic
  • Teste de Invasão com o Nmap Scripting Engine – Henrique Ribeiro dos Santos Soares
  • Nimbus Opensource Backup, além do bacula, além da web. – Lucas Marques de Castro, Gustavo Ribeiro
  • Contribuições da Intel para o Open Source: Você usa todo dia e não tinha idéia! – Jomar Silva
  • SpagoBI – Miguel Koren O’Brien
  • A nova corrida dos Browsers e plataformas – Felipe Gomes
  • Linux Containers – Thadeu Lima de Souza Cascardo
  • Infraestrutura de dados abertos da Dataprev e Previdência Social – Leonardo Cezar
  • Segredos do Facebook: Como Conseguir Clientes Na Maior Rede de Amigos do Mundo – Pedro Superti
  • Empurrando a Vaquinha do Penhasco : Desenvolvimento do SL no Meio Empresarial – Cezar Taurion, Luiz Queiroz, Roberto Cohen
  • Ferramentas Livres para Auditoria de Segurança em Redes sem Fio – Rafael Soares Ferreira
  • Xen @ Google, 2012 edition – Michael Hanselmann
  • Utilizando NoSQL no desenvolvimento de soluções inteligentes – Christiano Anderson
  • Criando um Storage iSCSI com PCs, Linux e Software Livre! Que tal? – Jansen Sena
  • Análise de Vulnerabilidade de Redes WEP com Aircrack-ng – Joelias Silva Pinto Júnior
  • Forense – Recovery de Dados – Marcus Augustus Pereira Burgha
  • Fuzzer e Buffer Overfllow a Dupla infernal – Paulo Fernando Lamellas
  • Desenvolvimento de Malware para Linux – Tiago Natel de Moura
  • Private Cloud – (Case Abril Mídia) – Allysson Maia, Johnny Santos

A grade completa do evento vocês conferem aqui.Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

#FISL 13: Data privacy and Security at the United States border

Nesta palestra, Seth Schoen, da Electronic Frontier Foundation,  discutiu as perspectivas técnicas e legais das buscas feitas nos dispositivos eletrônicos de quem viaja para os EUA, apresentando problemas e soluções para situações que podem ser enfrentadas, especialmente por ativistas, mais propensos a revistas mais rigorosas. Apesar disso, as informações são úteis para qualquer um que se preocupe com privacidade. Vejamos os pontos mais importantes:

  • EFF’s border guide oferece orientações para quem viaja e pretende evitar a invasão de privacidade comum na fronteira dos EUA, justificada pelo risco de terrorismo, especialmente após o 11 de setembro;
  • Oa agentes americanos podem fazer buscas “à vontade” em equipamentos, bagagens e objetos de estrangeiros, e desde que realizadas na fronteira, são justificáveis. A EFF tenta limitar buscas em dispositivos eletrônicos, sem sucesso;
  • A dificuldade em identificar os órgãos envolvidos nas revistas, questionamentos e outras ações são um problema (TSA –  segurança doméstica em vôos; CBP e ICE são geralmente os “culpados” pelos abusos);
  • Estrangeiros podem ser detidos por horas, ter objetos retidos temporariamente, ter admissão recusada (mesmo com visto) e serem submetivos a questionamentos, embora a obrigação de responder seja algo questionável;
  • Buscas em dispositivos eletrônicos são raras, e bem específicas (300 por mês entre outubro de 2008 e junho de 2010). Pessoas sujeitas a buscas: ativistas políticos e atuantes em privacidade;
  • Dicas: não mentir (é crime!), não obstruir a investigação, e ser educado;
  • Precauções: tenha backup criptografado, criptografe seu dispositivo ou use somente armazenamento na nuvem/rede, e prefira serviços que possuem suporte a criptografia a partir do cliente. Use passphrases ao invés de senhas “complexas” para criptografar seus dados, pois é mais seguro uma frase longa, mesmo que simples, que uma senha curta, mesmo com caracteres especiais;
  • Empresas podem fornecer senhas de acesso aos dados somente após funcionários chegarem ao destino, para minimizar a chance de serem obrigados a revelar senhas de acesso a dispositivos;
  • O Linux Unified Key Setup criptografa o disco com senha que pode ser gerada aleatoriamente (pwgen) e enviada por e-mail, para evitar a necessidade de revelá-la, afinal você não saberá a mesma;
  • O keypad é um sistema de criptografia onde o servidor tem a chave de criptografia para arquivos no cliente. Ainda não há software que o implemente. Seth sugere que o Google implemente isso no ChromeOS;
  • As dicas e soluções apresentadas também são úteis para casos de roubo de equipamentos;
  • Técnicas de múltiplos passos para apagar dados hoje são consideradas obsoletas. Basta executar o “dd” com um único poasso;
  • Não criptografar todo o disco é um risco, pois o SO e as aplicações podem revelar informações de pastas e partições criptografadas inadvertidamente;
  • Dispositivos móveis são ótimos para análise forense, e péssimos para se proteger disso, pois a maioria não provê recursos para criptografia de disco e deleção segura de dados.

Siga-nos no Twitter!
Curta nossa página no facebook!
Receba os textos via e-mail ou RSS!
Confira outros textos sobre o tema!

#FISL 13: #Virtualização "na velocidade da luz" com OpenVZ


O Sérgio Cioban (@cioban), da Virtmasters, iniciou a apresentação mostrando que virtualização é uma “novidade” do século passado, e fornecendo alguns conceitos básicos sobre virtualização. Vejamos os pontos mais relevantes:

  • Conceitos: node (máquina física), hypervisor (o software que implementa a virtualização em si) e domain (roda sobre o hypervisor);
  • Cada domain é denominado Virtual Environment (VE, VPS, Container);
  • OpenVZ trabalha com containers de virtualização;
  • Virtualização assistida por hardware é uma gambiarra, problemática;
  • Para-virtualização: não virtualiza completamente o hardware, não precisa de suporte do processador, depende de suporte do SO à API;
  • O KVM implementa VirtIO drivers, um tipo de virtualização híbrida, que otimiza drivers mais usados para melhorar o acesso das VMs ao hardware;
  • Containers de virtualização: kernel único para todas as VMs, necessita alteração do kernel e ferramentas, não emula todo o hardware, consome menos recursos. Exemplos: freebsd jails, user mode linux, openvz, linux vserver, virtuozzo (pago);
  • Provedores brasileiros vendem Virtual Private Servers (VPS) usando OpenVZ;
  • O OpenVZ é mantido pela Parallels, e é uma modificação do kernel linux;
  • Ferramentas de gerenciamento: vzctl, vz*;
  • Possui recurso de checkpointing, equivalente a vmotion;
  • O checkpointing funciona tanto com storage compartilhado quanto com replicação via DRBD, ou ainda GlusterFS;
  • Limitação: só roda linux, pois compartilha kernel, mas pode rodar debian sob centos, e muitas outras variações, desde que seja possível usar o kernel da máquina física;
  • User beancounters: permitem definir controles sobre processos, arquivos, utilização de recursos do node e outras características da VM através de limites soft e hard;
  • Templates para várias distros, que consiste em um tarball com os arquivos da distribuição prontos para uso com o OpenVZ;
  • Alterações são feitas a quente, não há necessidade de reiniciar para redefinir quantidade de memória, disco, cpus, etc. Um diferencial em relação às outras soluções.
Pelo que pude avaliar, o OpenVZ é uma ótima solução para virtualizar servidores Linux, é muito simples de instalar e configurar, e muito rápido também (boot em menos de 10 segundos em um netbook!).

GOSTOU DESSE ARTIGO ?
Quer saber mais sobre Virtualização e VMware? Clique aqui.

#FISL 13: GPT: domine a nova geração de tabela de partições de disco

O Eriberto Mota, do Exército, já é figurinha carimbada do FISL, e mais uma vez não decepcionou. Apresentou o GPT, novo mecanismo para particionamento de discos que substitui a antiga MBR, que mor-reu! Vamos aos detalhes:
  • É importante saber algumas coisas sobre geometria de discos:
    • Não se lê trilhas, mas cilindros, pois, como as cabelas têm que se movimentar juntas, são lidos todos os setores que estão naquela posição, em cada prato;
  • BIOS e MBR – o sistema antigo, começou a desaparecer em 2009;
  • O MS-DOS foi desenvolvido seguindo este padrão, que costuma ser chamado de padrão DOS;
  • O MBR ocupa um setor, o primeiro. É dividido em 3 partes: 446 bytes pro gestor de boot (LILO, GRUB, etc), 64 bytes (4×16) para controlar até 4 partições primárias, e a assinatura de 2 bytes.  Limitado a 2^32 setores, ~2,2 TB;
  • Partição lógica não “cabe” no MBR. A partição estendida então aponta para a primeira lógica, que tem uma “cópia” do MBR, e aponta para a próxima partição lógica, num processo recursivo. Por isso, deve-se evitar usar partições lógicas, pois se perder o “link”, perde tudo;
  • UEFI – substitui a BIOS, e é um firmware, flexível, que suporta x86, x86_64, ARM e IA64, e utiliza a tabela de particionamento GPT ao invés de MBR;
  • GPT – GUID Partition Table, usa GUIDs (128 bits) para identificar cada dispositivo unicamente, permite até 128 partições (equivalente a primárias do MBR), ocupa 32 setores e endereça 2^64 setores, ou seja, 9.4 ZB;
  • Partições GPT funcionam via LBA e não CHS, sem o limite de 8 GB, implementam o “protective MBR” contra erros de sistema, e possui estrutura redundante (no início e fim da partição);
  • Alguns sistemas utilizam MBR híbrido (OxEE), o que não é aconselhável, pois não há padrão. Ele se aproveita do fato de que o primeiro setor é deixado “livre” pelo GPT para evitar erros decorrentes de ferramentas e sistemas que não suportam GPT;
  • Somente Windows em versões 64 bits, a partir do XP e 2003, utilizam GPT;
  • As ferramentas baseadas em FDISK não suportam GPT, somente as ferramentas baseadas na libparted, incluindo o gnu-fdisk, gdisk (recomendado), parted e gparted.
A palestra completa pode ser baixada do site do Eriberto.
Curta nossa página no facebook!

#FISL 13: Escalando sites com o NGINX

O Tiago Albineli, da Globo.com, mostrou como configurar o NGINX para alto desempenho e escalabilidade. Vamos aos detalhes:
  • Benchmarks mostram que o NGINX é muito mais rápido que o Apache para sites com alto volume de acessos, a partir de dezenas de milhares de acessos simultâneos;
  • Sites são divididosem trẽs tipos: conteúdo estático, dinâmico, e do usuário. Foco da apresentação foi em sites dinâmicos;
  • Por que não fazer estático (mais fácil de escalar) ?
    • Problema na atualização de informações, bugs, e outras dificuldades decorrentes da alteração dos dados e necessidade de regerar a página estática;
  • Sites dinâmicos: tempo de resposta maior, sobrecarga no servidor, enfileiramento e consultas desnecessárias são questões problemáticas que precisam ser tratadas;
  • Escalabilidade
    • Básico: cache. Opção proxy_ignore_headers permite ignorar cabeçalhos que evitam uso do cache, aumentando sua eficiência;
    • Acessos simultâneos podem fazer com que objetos não sejam obtidos do cache, e/ou sejam armazenados múltiplas vezes;
    • Problema do flood de timeouts, onde consultas para objetos que demoram a ser retornados causam efeito cumulativo que degrada muito o desempenho;
  • Simular acessos simultâneos: Apache Benchmark;
  • Solução de alta escalabilidade
    • Vários NGINX com balanceamento, e agrupados em conjuntos de 2 servidores “em série”, para resolver o problema do flood de timeouts.
A palestra do Tiago foi muito técnica, ele mostrou vários exemplos de configuração do NGINX e comentou os diversos problemas enfrentados para escalar sites muito acessados, indicando as soluções e propondo uma arquitetura para alto desempenho e escalabilidade. Tentarei atualizar aqui quando a palestra estiver disponível, pois muitas informações não tive condições de tomar nota.
Curta nossa página no facebook!

#FISL 13: Tape's not dead

O Lucas, da IBM, mostrou porque a fita não está morta. Vamos aos detalhes:
  • Cerca de 51% dos dados do mundo estão em fita;
  • Longevidade típica de 30 anos, enquanto HDs de 7 a 10 anos;
  • SATA vs LTO-4
    • Custo por terabyte ~23:1
    • Energia ~290:1,
    • Bit Error Rate (BER) uma ordem de magnitude maior;
  • Inconvenientes de LTO
    • Não há padrão para formato (TAR é comum, mas tem problemas);
    • Não são autocontidas (dependência de banco de dados no servidor de backup, etc);
  • LTO – Linear Tape Open
    • Consórcio com grandes empresas;
    • LTO-5: 1,5 TB sem compressão, 140 MB/s, particionamento dual – duas partições podem ser criadas;
  • LTFS – Linear Tape File System
    • LGPL
    • Funciona com FUSE;
    • API permite acessar informações como índice da fita de forma mais eficiente;
    • Permite usar fita como mídia removível;
    • Usa o particionamento do LTO-5, uma partição de índice – 2 wraps, 37,5 GB, partição de dados com o restante.
Eu achei a sacada da IBM genial! Criar um sistema de arquivos que facilite a utilização das fitas LTO, dando uma sobrevida ainda maior para os dispositivos e para o padrão, e agregando funcionaliades importantes para as inúmeras empresas que possuem legado e soluções de backup baseadas em fita.

Quer ter mais dicas essenciais pra administrar melhor seu backup? Clique AQUI.

SAIBA MAIS…
O erro #1 que sysadmins cometem ao fazer backup de seus servidores virtuais
Unitrends Free – 1 TB de backup gratuito pra suas máquinas virtuais VMware e Hyper-V
Veeam Endpoint Backup – ferramenta gratuita para backup de estações e servidores físicos e virtuais
4 ferramentas gratuitas para backup de VMware (inclusive ESXi gratuito) e Microsoft Hyper-V
Onde obter entre 100 GB e 10 TB gratuitamente na nuvem (atualizado!)
Alternativas de #backup para ambientes virtualizados
Backup múltiplo automágico com Dropbox, Skydrive e Google Drive
#Backup gratuito do seu ambiente virtual com o #Veeam Backup Free Edition
O problema da deduplicação
Veeam oferece soluções para ambiente VMWare ESX
FISL 9: Backup prático, porque precisamos evoluir!
Back In Time simplifica backup do Linux
Faça backup dos seus dados na nuvem
Sincronize suas pastas e computadores com simplicidade
Restore: backup multiplataforma com software livre
Backup online
Wuala une backup online e rede social
Veeam SureBackup faz verificação automática de backups no #VMware
Backup simplificado de GPOs

#FISL 13: IPv6: Isso é pra valer ?

O Antônio Marcos, do NIC.BR, mostrou porque devemos nos preocupar com o IPv6 e detalhou uma série de questões importantes, especialmente as situações complicadas que provedores e usuários enfrentarão à medida que o IPv4 se esgota, algo que já começou a ocorrer. Vamos aos detalhes:
  • Os testes realizados, como o World IPv6 Day e a semana de testes no Brasil em fevereiro, foram importantes para mostrar que a ativação do IPv6 deve trazer pouco impacto para os serviços atualmente em funcionamento, e abriu caminho para o World IPv6 Launch, quando muitos sites grandes, provedores e outras empresas e serviços ativaram o suporte a IPv6 emdefinitivo, com pouquíssimos problemas reportados;
  • O IPv4 já acabou na Ásia, e deve acabar no Brasil entre meados de 2013 e 2014, o que significa que novos clientes terão apenas IPv6, ou IPv4 compartilhado mediante “gambiarras”;
  • O problema é que as gambiarras trazem efeitos colaterais graves, como no caso do NAT444, que é problemático para aplicações VoIP e ainda quebra a neutralidade da rede, na medida em que causa dupla tradução, e consequentemente aumenta a dificuldade no acesso a sites que utilizem esta técnica;
  • Como fica o suporte para os dispositivos do usuário: roteadores wifi, modens banda larga, etc ?
  • Smartphones: android suporta, iphone só nas versões com 4G (até o momento), alguns Nokia (N95), e só… muitos aparelhos sem suporte;
Não esperava muito da palestra do Antônio, pois já estava ciente de algumas das questões apresentadas, e tenho me informado sobre IPv6 hpa algum tempo. Mas tive a grata surpresa de ver que a palestra, apesar do tom positivo adotado pelo Antônio, dizendo que o suporte tem evoluído bem, apresentou também questões importantes e problemáticas que precisam ser tratadas o quanto antes. Apesar de o Brasil estar em 2º lugar no mundo em quantidade de provedores que já solicitaram endereços IPv6, o recado é claro: ainda há muito a fazer, e a bomba vai estourar (em plena copa do mundo!), se as medidas devidas não forem tomadas.
Curta nossa página no facebook!

#FISL 13: SpagoBI

O Miguel Koren O’Brien, da Konsultex (miguelk@consultex.com.br), apresentou o SpagoBI, uma solução que tem ganhado espaço recentemente. Vamos às anotações da palestra:
  • Usos de BI – Reporting, OLAP (análise multidimensional), Indicadores (KPIs), Business Performance Management, Mineração de Dados, Location Intelligence;
  • A Konsultex está envolvida num projeto relacionado à extinção do mico-leão dourado, que envolve a integração de BI com GIS (Location Intelligence);
  • O Open Geospatial Consortium define padrões na área de GIS;
  • A área de BI não é muito padronizada;
  • Por que BI Open Source ?
    • A solução é mais importante que o produto, mas produtos custam mais que o projeto;
    • Produtos BI são geralmente sub-utilizados;
    • Soluções são restritas devido a falta de uso generalizado;
    • Open Source permite experimentar antes de comprometer;
    • O cliente não é refém do fornecedor do software;
    • Sem custo não significa sem valor !
  • Por que empresas selecionam Open Source (BeyeNetwork – 2009)
    • Custo, independência de fornecedor e confiabilidade são as principais razões;
  • SpagoBI
    • 100% livre;
    • Suite completa, robusta, segura e escalável;
    • Solução corporativa;
    • Altamente customizável;
    • Patrocinado pela Engineering Group e comunidade (consórcio OW2);
    • Suporte técnico no Brasil;
    • integrável com inúmeras soluções, como Business Objects, OLAP, Jasper, BIRT e muitos outros, embora haja algumas limitações;
    • Possibilidade de trabalhar com visão gráfica (fluxos de processos e atividades, por exemplo), cartográfica (mapas) ou geográfica (projeção de cores sobre mapas para destacar áreas com alguma característica, por exemplo);
    • Suporta ETL através de webservices (exemplo com informações do Banco Central de indicadores econômicos – emprego, inflação, etc);
    • O SpagoBI é uma plataforma de integração, o que dá mais liberdade para construir o BI;
    • Engines para geolocalização
      • GEO Engine: informação cartográfica e gráfica;
      • GIS Engine: informação geográfica em arquivos GEOjson ou servidor GIS;
  • Exemplo
    • Uso de arquivos GEOjson, embora BI Studio do SpagoBI permita desenhar documentos analíticos;
    • Dados obtidos por fontes JDBC;

Curta nossa página no facebook!

#FISL 13: Perícia digital com software livre


O Evandro Della Vecchia (evandro@poasec.org), perito criminal do governo do RS, apresentou conceitos, técnicas e ferrametnas usadas em perícia digital, também chamada de forense digital. Vamos aos detalhes:
  • Post mortem x live forensics
    • Máquina desligada – sem acesso a dados da memória, somente armazenamento não volátil;
    • Máquina ligada – pode acessar dados em memória e obter melhores resultados, especialmente em casos como de criptografia de disco;
  • De dados ou equipamentos
    • Dado é mais comum;
    • Citou um exemplo de equipamento, onde foram identificadas características que permitiam determinar data e hora de impressão de documentos e modelo de impressora utilizado, a partir da versão impressa;
  • Fases
    • Identificação – mostrou situações curiosas, onde pen drives “esquisitos” poderiam passar despercebidos (ursos de pelúcia, pregadores, canetas, etc);
    • Coleta – uso de ferramentas como dd, helix, dcfldd (mostra andamento) para obter informações de discos e partições e viabilizar a análise dos dados sem comprometer os dados originais. Uso de hash para garantia de integridade;
    • Exame e Análise – uso de ferramentas como mmls para obter informação de partições,  análise do setor de boot e extração de partição com dd, excluindo os 32 setores iniciais do disco para facilitar o uso posterior. Uso de fsstat para obter informações do sistema de arquivos, e istat para detalhes de inodes, além do foremost para recuperação de arquivos, no estudo de caso imagens;
    • Conclusão – laudo com o resultado do exame e análise.