Clustering
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
O clustering é uma forma de aprendizado de máquina não supervisionado no qual as observações são agrupadas em clusters com base em semelhanças em seus valores de dados ou recursos. Esse tipo de aprendizado de máquina é considerado não supervisionado porque não usa valores de rótulo conhecidos anteriormente para treinar um modelo. Em um modelo de clustering, o rótulo é o cluster ao qual a observação é atribuída com base apenas em seus recursos.
Exemplo – agrupamento
Por exemplo, suponha que um botânica observe uma amostra de flores e registra o número de folhas e pétalas em cada flor:
Não há rótulos conhecidos no conjunto de dados, apenas dois recursos. O objetivo não é identificar os diferentes tipos (espécies) de flor; apenas para agrupar flores semelhantes com base no número de folhas e pétalas.
| Folhas (x1) | Pétalas (x2) |
|---|---|
| 0 | 5 |
| 0 | 6 |
| 1 | 3 |
| 1 | 3 |
| 1 | 6 |
| 1 | oito |
| 2 | 3 |
| 2 | 7 |
| 2 | oito |
Treinando um modelo de clustering
Há vários algoritmos que você pode usar para clustering. Um dos algoritmos mais usados é o clustering K-Means , que consiste nas seguintes etapas:
- Os valores do recurso (x) são vetorizados para definir coordenadas ndimensionais (em que n é o número de recursos). No exemplo de flor, temos dois recursos: número de folhas (x1) e número de pétalas (x2). Portanto, o vetor de recurso tem duas coordenadas que podemos usar para plotar conceitualmente os pontos de dados no espaço bidimensional ([x1,x2])
- Você decide quantos clusters você deseja usar para agrupar as flores – chame esse valor k. Por exemplo, para criar três clusters, você usaria um valor k de 3. Em seguida , k pontos são plotados em coordenadas aleatórias. Esses pontos se tornam os pontos central de cada cluster, portanto, eles são chamados de centroides.
- Cada ponto de dados (nesse caso, uma flor) é atribuído ao seu centroide mais próximo.
- Cada centroide é movido para o centro dos pontos de dados atribuídos a ele com base na distância média entre os pontos.
- Depois que o centroide é movido, os pontos de dados podem estar mais próximos de um centroide diferente, portanto, os pontos de dados são reatribuídos aos clusters com base no novo centroide mais próximo.
- As etapas de movimentação de centroide e realocação de cluster são repetidas até que os clusters se tornem estáveis ou um número máximo de iterações predeterminado seja atingido.
A seguinte animação mostra esse processo:
Avaliando um modelo de clustering
Como não há nenhum rótulo conhecido com o qual comparar as atribuições de cluster previstas, a avaliação de um modelo de clustering é baseada em quão bem os clusters resultantes são separados uns dos outros.
Há várias métricas que você pode usar para avaliar a separação de clusters, incluindo:
- Distância média até o centro do cluster: quão perto, em média, cada ponto do cluster é para o centroide do cluster.
- Distância média até outro centro: quão perto, em média, cada ponto do cluster é para o centroide de todos os outros clusters.
- Distância máxima até o centro do cluster: a distância mais distante entre um ponto no cluster e seu centroide.
- Silhueta: um valor entre -1 e 1 que resume a taxa de distância entre pontos no mesmo cluster e pontos em clusters diferentes (quanto mais próximo de 1, melhor a separação do cluster).