O problema da deduplicação


Muito tem se falado nos últimos tempos sobre deduplicação, à medida que o backup em disco se consolida no mercado. Inúmeras soluções surgem a cada dia, há quem diga que a fita morreu, ou que a fita deve ser utilizada para fins de arquivamento somente, dentre outras afirmações controversas.

A deduplicação é o processo de analisar os dados e eliminar redundâncias através de algoritmos que permitem identificar chunks ou blocos de dados idênticos e comprimí-los, diminuindo assim a quantidade de informação a ser manipulada.

A deduplicação pode ser aplicada em transferências de dados através da rede, com os chamados WAN Accelerators, ou pode ser aplicada a dados sendo armazenados em sistemas de arquivos, ou ainda pode ser aplicada aos dados durante o processo de backup em disco ou fita, sendo este último o cenário de utilização considerado para efeito da análise que faço a seguir.

Os benefícios da deduplicação são inegáveis. Redução drástica no volume de dados do backup (taxas de 10 pra 1 ou até maiores não são difíceis de obter), otimização do tempo de restauração e redução dos custos associados à solução (especiamente com aquisição de discos e fitas) são alguns exemplos.

O problema está no fato de que existem alguns pontos negativos, dos quais vou destacar o que considero mais grave: o ponto único de falha resultante do fato de que pode haver uma única cópia completa do seu backup, ou mesmo de vários dos seus backups, a depender da solução utilizada.

Vamos exemplificar para facilitar o entendimento:
  • Suponha que você possua um servidor de banco de dados, cujo backup é realizado através de uma solução que oferece o recurso de deduplicação.
  • Ao realizar o backup do servidor pela primeira vez, todos os dados serão copiados.
  • A partir da segunda execução, serão copiados apenas os dados alterados, seja através da identificação de blocos modificados ou outra técnica qualquer.
  • Agora vem a pergunta do milhão: o que acontece se aquela cópia inicial dos dados for corrompida ?
  • Há soluções que vão além, e são capazes de reutilizar esta cópia primária (de uma máquina virtual, por exemplo) para vários backups, aumentando a gravidade do problema.
Desta forma, quero com este texto alertar para o fato de que, apesar de todas as vantagens das soluções baseadas em deduplicação, é essencial garantir que haja mais de uma cópia primária de cada backup. A boa notícia é que isto é bastante simples de fazer, bastando realizar um segundo backup do mesmo dado, mas com destino diferente. Ou seja, pode ser feito um backup diário para disco e um semanal para fita, por exemplo, ou qualquer combinação que garanta que haverá mais de uma cópia completa dos dados.

Vale lembrar que, certamente, a estratégia aqui sugerida vai causar uma redução nas "taxas de economia de espaço de armazenamento" propagandeadas pelas soluções baseadas em deduplicação, que desconsideram esta questão em seus datasheets e folders. Há inclusive quem considere que o problema não existe, buscando por outros meios (redundância de discos, por exemplo) garantir que a cópia única jamais será corrompida. Você acreditaria nisso ? Eu não.
Portanto, o recado que deixo é: "Deduplicação, use com moderação.".

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!