Tudo que você queria saber sobre Agrupamento (Clustering) e não tinha a quem perguntar!

Por André Camacam
Diferentes clusters em diferentes pontos coloridos (De Matthew Mayo’s Palavras Chave de Aprendizagem de Máquina, Explicado)


Iniciando com Ciência de Dados (Data Science) ou precisando dar aquela refrescada na memória?

O agrupamento encontra-se entre as ferramentas mais utilizadas pelos Cientistas de Dados.

A seguir você vai ver 10 termos relacionados ao "tal de clustering" e suas definições.

Agrupamento é um método de análise de dados, que agrupa pontos de dados em conjunto para “maximizar similaridades dentro da classe e minimizar similaridades entre as classes” (Han, Kamber & Pei), sem utilizar rótulos de pontos pré-definidos (ou seja, uma técnica de aprendizagem não supervisionada).

Esse texto introduz palavras-chave para técnicas comuns na análise de clustering.

Seleção de Atributos


É uma etapa de pré-processamento de dados, no qual atributos redundantes e/ou irrelevantes são retirados para melhorar a qualidade do agrupamento.

Seleção de atributos podem também ser integrados diretamente ao algoritmo de agrupamento para ganho de compreensão. 

Maximização de Expectativa (EM)



É um algoritmo utilizado para estimar parâmetros de uma forma específica oriunda do modelo de dados generativo (p. ex.: Mistura de Gaussianas).

Método Baseado em Distância


K-means é um método de agrupamento utilizando distância. Possivelmente, é o exemplo mais conhecido do algoritmo de agrupamento.

É o método mais amplamente utilizado em implementações práticas, por causa da sua simplicidade. A distância Euclidiana é utilizada para computar distâncias.

Assim, os grupos particionados correspondem à média de cada agrupamento.

K-medians


É bem semelhante ao método k-means, mas utiliza a mediana junto com a dimensão, ao invés da média.

Essa abordagem é mais estável em casos de ruído e outliers, porque a mediana é geralmente menos sensível a valores extremos dos dados.

Método baseado em Densidade e Grade


Esses métodos tentam explorar o espaço dos dados em níveis elevados de granularidade.

Desse modo, eles podem ser utilizados para reconstruir toda a forma da distribuição de dados. 

Método baseado em Densidade


Em qualquer ponto particular no espaço dos dados é definido tanto em termos do número de pontos de dados em um volume pré-especificado de sua localidade quanto em termos de estimativa de densidade kernel mais suave.

Este método é naturalmente definido em um espaço contínuo, logo, são tipos de dados arbitrários, por exemplo, séries temporais, que não são tão fáceis de utilizar com métodos baseados em densidade sem transformações especializadas.

Método baseado em Grade


São uma classe específica de métodos baseados em densidade, na qual as regiões individuais da área de dados, que são exploradas, são moldadas em uma estrutura na forma de grade.

DBSCAN pode encontrar clusters não-linearmente separáveis e supera k-means ou o modelo EM de agrupamento de mistura de Gaussianas.
DBSCAN pode encontrar clusters não-linearmente separáveis e supera k-means
ou o modelo EM de agrupamento de mistura de Gaussianas

Fatoração de Matrizes


Fatoração de Matrizes é para dados que são representados como matrizes não-negativas esparsas, também é referido como co-agrupamento, que agrupa as linhas e as colunas de uma matriz simultaneamente.


Métodos Espectrais


Métodos espectrais utilizam a matriz de similaridade (ou distância) nos dados subjacentes ao invés de trabalhar com dados de pontos originais e dimensões.

Eles podem realizar uma dupla tarefa ao incorporar esses objetos em um espaço Euclidiano enquanto realizam a redução de dimensionalidade.

Deste modo, este tipo é comum para agrupamento em objetos arbitrários, tais como conjuntos de nós em um grafo.


Técnicas baseadas em grafos


Métodos espectrais podem ser considerados como uma técnica baseada em grafos para agrupamento de qualquer tipo de dado, ao converter a matriz de similaridade em uma nova estrutura de redes. 

Diversas variantes existem em termos de escolhas diferente para construir a matriz de similaridade W. 

Algumas variantes mais simples utilizam o grafo K-Vizinhos Mais Próximos, ou simplesmente o grafo binário, no qual as distâncias são menores que em um dado limite.


Cenários Streaming


Cenário streaming é a acumulação contínua de dados ao longo do tempo.

Isso leva a inúmeros desafios nos casos de análise em tempo real e em questões de escalabilidade. 

Agrupamento é um dos principais métodos utilizados em mineração de dados, por exemplo, em aplicativos para segmentação de clientes, público-alvo e resumo de dados.

Na literatura, foram propostos inúmeros grupos de métodos.

Métodos probabilísticos, métodos baseados na distância, métodos baseados na densidade, métodos baseados em grade, técnicas de fatorização e métodos espectrais são agrupamentos típicos.

A integração de métodos de redução de seleção de atributo / dimensionalidade com agrupamento é geralmente encontrada em métodos de agrupamento.

Conclusão

Com a proliferação de dados compartilhados através da web nos últimos anos, o desenvolvimento de métodos e técnicas que permitam analisar e, em especial, classificar estes conteúdos segundo algum critério, se tornaram de extrema importância.

Através das técnicas de agrupamento e classificação de grandes volumes de dados é possível, dentre outras coisas, analisar fenômenos sociais (classificação de hashtags no Twitter representando movimentos sociais) e naturais (identificação de terremotos e epidemias pela análise de redes sociais).

Portanto, o conhecimento destas técnicas é essencial para qualquer profissional que se interesse por análise de dados.

Texto traduzido e adaptado de Thuy T. Pham - Universidade de Sydney, Austrália.
Referências:
M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Conferência ACM KDD, páginas 226–231, 1996.
W. Wang, J. Yang, and R. Muntz. Sting: A statistical information grid approach to spatial data mining. Conferência VLDB, 1997.
B. W. Silverman. Density Estimation for Statistics and Data Analysis. Chapman and Hall, 1986

Para saber mais

  1. Confira minha palestra virtual apresentando os conceitos básicos da tecnologia, e vamos trocar idéias!
  2. Se inscreva na lista que criei para discutir o tema no Google Groups.

Christian Guerreiro

Professor por vocação, blogueiro e servidor público por opção, amante da tecnologia e viciado em informação.


Ensino a distância em Tecnologia da Informação: Virtualização com VMware, Big Data com Hadoop, Certificação ITIL 2011 Foundations e muito mais.


Suporte o Tecnologia que Interessa!

Você acha que as informações compartilhadas aqui são úteis?
Então me ajude a produzir ainda mais e melhores conteúdos!


É muito fácil. Basta divulgar nossos treinamentos pra alguém que conheça!


E se for de Salvador, podemos estruturar um curso presencial para sua empresa!

Eu vou ficar muito grato (e quem fizer os curso também :)!