Analiza skupień

Użytkownicy posiadający ogromny stos dokumentów i chcący znaleźć ukryte w nich tajemnicze wzory mają trudne zadanie do wykonania. Wykorzystanie do tego celu programu WordStat sprawia, że mają do wyboru co najmniej dwie opcje: modelowanie tematów lub analizę skupień (cluster analysis), aby znaleźć wzorce i grupy w swoich danych.

Dobór odpowiedniej metody ułatwi zapoznanie się z różnicami między modelowaniem tematów i klastrowaniem. W poprzednim biuletynie informacyjnym, który dotyczył modelowania tematów wyjaśnialiśmy, że temat można zdefiniować za pomocą zestawu słów kluczowych z każdym słowem kluczowym w zbiorze, mającym prawdopodobieństwo wystąpienia w przedmiocie tematu.

Różne tematy mają własne zestawy słów kluczowych występujące z odpowiednimi prawdopodobieństwami, a same tematy mogą dzielić się pewnymi słowami kluczowymi, ale najprawdopodobniej z różnymi szansami. Dokument użytkownika w korpusie może być powiązany z więcej niż jednym tematem. Do wyboru użytkownika pozostaje wiele różnych metod do odkrywania ukrytych tematów, ale generalnie w modelowaniu tematów zajmujemy się odkrywaniem tematów poprzez obliczanie prawdopodobieństwa warunkowego tematów, podanych słownie w dokumentach. Niezależnie od wybranej metody, proces modelowania tematów zakończy się uzyskaniem listy tematów, z których każdy zawiera zestaw skojarzonych słów kluczowych.

Natomiast w analizie skupień, algorytm klastruje dokumenty w różne grupy na podstawie podobieństwa. Jednym sposobem jest przekształcenie dokumentów na wektor liczbowy zawierający wagi przypisane do słów w danym dokumencie i wykorzystanie schematu nadawania wag TF – IDF. Technika klastrowania stosuje miarę podobieństwa do wektorów numerycznych do grupowania dokumentów. Zasadniczo każdy dokument pojawi się w jednym klastrze. Ostatecznym rezultatem byłaby lista klastrów wraz z ich dokumentami.

Różnice polegają na tym, że w modelowaniu tematów użytkownik wyodrębnia tematy z dokumentów, zatem można wyobrazić sobie je jako transformację do znacznie mniejszej przestrzeni danych, czyli przestrzeni tematu, ponieważ liczba wyodrębnionych tematów jest znacznie mniejsza niż kolekcja dokumentów i jej słownictwo. W analizie skupień rezultat końcowy zawiera zestaw klastrów, z których każdy zawiera zestaw dokumentów.

Istnieją rozmyte ("miękkie") techniki grupowania, w których punkt danych może należeć do więcej niż jednego klastra, ale tutaj omawiamy podstawową ideę, skupiamy się tylko na "twardym" klastrowaniu.