Muito tem se falado nos últimos tempos sobre deduplicação, à medida que o backup em disco se consolida no mercado. Inúmeras soluções surgem a cada dia, há quem diga que a fita morreu, ou que a fita deve ser utilizada para fins de arquivamento somente, dentre outras afirmações controversas.
A deduplicação é o processo de analisar os dados e eliminar redundâncias através de algoritmos que permitem identificar chunks ou blocos de dados idênticos e comprimí-los, diminuindo assim a quantidade de informação a ser manipulada.
A deduplicação pode ser aplicada em transferências de dados através da rede, com os chamados WAN Accelerators, ou pode ser aplicada a dados sendo armazenados em sistemas de arquivos, ou ainda pode ser aplicada aos dados durante o processo de backup em disco ou fita, sendo este último o cenário de utilização considerado para efeito da análise que faço a seguir.
Os benefícios da deduplicação são inegáveis. Redução drástica no volume de dados do backup (taxas de 10 pra 1 ou até maiores não são difíceis de obter), otimização do tempo de restauração e redução dos custos associados à solução (especiamente com aquisição de discos e fitas) são alguns exemplos.
O problema está no fato de que existem alguns pontos negativos, dos quais vou destacar o que considero mais grave: o ponto único de falha resultante do fato de que pode haver uma única cópia completa do seu backup, ou mesmo de vários dos seus backups, a depender da solução utilizada.
Vamos exemplificar para facilitar o entendimento:
  • Suponha que você possua um servidor de banco de dados, cujo backup é realizado através de uma solução que oferece o recurso de deduplicação.
  • Ao realizar o backup do servidor pela primeira vez, todos os dados serão copiados.
  • A partir da segunda execução, serão copiados apenas os dados alterados, seja através da identificação de blocos modificados ou outra técnica qualquer.
  • Agora vem a pergunta do milhão: o que acontece se aquela cópia inicial dos dados for corrompida ?
  • Há soluções que vão além, e são capazes de reutilizar esta cópia primária (de uma máquina virtual, por exemplo) para vários backups, aumentando a gravidade do problema.
Desta forma, quero com este texto alertar para o fato de que, apesar de todas as vantagens das soluções baseadas em deduplicação, é essencial garantir que haja mais de uma cópia primária de cada backup. A boa notícia é que isto é bastante simples de fazer, bastando realizar um segundo backup do mesmo dado, mas com destino diferente. Ou seja, pode ser feito um backup diário para disco e um semanal para fita, por exemplo, ou qualquer combinação que garanta que haverá mais de uma cópia completa dos dados.
Vale lembrar que, certamente, a estratégia aqui sugerida vai causar uma redução nas “taxas de economia de espaço de armazenamento” propagandeadas pelas soluções baseadas em deduplicação, que desconsideram esta questão em seus datasheets e folders. Há inclusive quem considere que o problema não existe, buscando por outros meios (redundância de discos, por exemplo) garantir que a cópia única jamais será corrompida. Você acreditaria nisso ? Eu não.
Portanto, o recado que deixo é: “Deduplicação, use com moderação.”.
Quer ter mais dicas essenciais pra administrar melhor seu backup? Clique AQUI.

SAIBA MAIS…
O erro #1 que sysadmins cometem ao fazer backup de seus servidores virtuais
Unitrends Free – 1 TB de backup gratuito pra suas máquinas virtuais VMware e Hyper-V
Veeam Endpoint Backup – ferramenta gratuita para backup de estações e servidores físicos e virtuais
4 ferramentas gratuitas para backup de VMware (inclusive ESXi gratuito) e Microsoft Hyper-V
Onde obter entre 100 GB e 10 TB gratuitamente na nuvem (atualizado!)
Alternativas de #backup para ambientes virtualizados
Backup múltiplo automágico com Dropbox, Skydrive e Google Drive
#Backup gratuito do seu ambiente virtual com o #Veeam Backup Free Edition
#FISL 13: Tape’s not dead
O problema da deduplicação
Veeam oferece soluções para ambiente VMWare ESX
FISL 9: Backup prático, porque precisamos evoluir!
Back In Time simplifica backup do Linux
Faça backup dos seus dados na nuvem
Sincronize suas pastas e computadores com simplicidade
Restore: backup multiplataforma com software livre
Backup online
Wuala une backup online e rede social
Veeam SureBackup faz verificação automática de backups no #VMware
Backup simplificado de GPOs