Objectif : on a des données sous formes d'un ensemble d'éléments liés par des relations et on cherche à y repérer des structures latentes sous la forme d'une partition en sous-ensembles — les fameux clusters.
Les relations peuvent être explicites (relations sémantiques, voisinage dans un graphe…) ou induites par le type des éléments (par exemple la distance entre les points dans un espace métrique).
On va voir quelques exemples intéressants, mais il y en a plein, vraiment plein d'autres.
Ou $K$-means. Il s'agit d'un problème de clustering très courant, essentiellement parce que :
Le revers de la médaille, comme on ne fait pas beaucoup d'hypothèses, c'est que ça n'a que la qualité des représentations vectorielles : garbage in, garbage out. Mais de fait, ce n'est pas un mauvais test de la qualité de ces représentations.
Objectif Trouver une $K$-partition $\{S₁, …, S_k\}$ de $E$ (i.e. $⋃_i Sᵢ=E$ et $S_i∩S_j=∅$ si $i≠j$) telle que la somme des carrés des écarts inter-clusters à la moyenne $s$ soit minimale, avec
$$\begin{equation} s = \sum_i\sum_{x∈S_i}\lVert x-μ_i \rVert² = \sum_i\sum_{x∈S_i}\mathop{d}(x, μᵢ)² \end{equation}$$
et $$\begin{equation} μ_i = \frac{1}{\lvert S_i\rvert}\sum_{x∈S_i}x_i \end{equation}$$
On appelle les $μᵢ$ les centroïdes des clusters $Sᵢ$, et l'algorithme classique pour construire les $Sᵢ$ (l'algorithme de Lloyd-Max) repose dessus.
Idée : construire non pas directement une partition en cluster mais une série de partitions allant du plus grossier au plus fin.
On coupe ensuite la hiérarchie pour obtenir des compromis.
Deux techniques : agglomération et division.
Raghavan et al. (2007).
On dispose d'un graphe $Γ$ dont l'ensemble des sommets est $S=\{s₁, …, s_n\}$. Notre objectif va être de construire des clusters en affectant une étiquette $l(s)$ à chaque sommet $s∈S$ et prenant ensuite comme clusters les ensembles de sommets ayant la même étiquette.
On dit qu'un nœud $s$ suit le consensus local si $l(s)$ est majoritaire au sein des voisins de $s$. L'algorithme consiste à faire en sorte que chacun des nœuds de $Γ$ suive le consensus local.