Freitag, 2. November 2012

Text-Mining: Termfrequenz berechnen und verstehen


In den letzten beiden Artikel habe ich dargestellt, wie man den WDF (within-document frequency) und den IDF (inverse-document frequency) für ein Keyword berechnen kann.

Zudem habe ich erklärt, wie man den Wettbewerb mit Hilfe des IDFs bewerten kann oder ermitteln kann, welches Keyword im Vergleich zu allen anderen Wörter eines Textdokument relativ Häufig benutzt worden ist.

Heute möchte ich euch eine weitere Kennzahl des Text-Minings vorstellen:
die Termfrequenz


Was ist die Termfrequenz (tf)?


Die Termfrequenz gibt an, wie häufig ein Wort in einem Textdokument vorkommt.
Es stellt somit nicht wie der WDF ein Keyword in Relation zu der Gesamtanzahl aller Wörter eines Textdokumentes, sondern zählt die absolute Häufigkeit eines Begriffes in einem Textdokument.

Die Termfrequenz ist ein weiterer wichtiger Baustein für die Keywordanalyse!



Wie berechnet man die Termfrequenz (tf)?


Ganz einfach, man zählt einfach wie Häufig das zu untersuchende Keyword in einem Artikel vorkommt.

Mathematisch ausgedrückt:



Dann gilt:  

Termfrequenz (tf) =
 

hierbei gilt für die Termfrequenz:

 
dass heißt, die tf kann alle Werte zwischen 0 und Betrag M, also die Anzahl aller Wörter eines Textdokumentes, annehmen.

Beispiel: Termfrequenz berechnen:
  
Unser Textdokument 1 T1 lautet:
Mathe ist hilfreich und Mathe macht spass. Spass macht aber auch Sport, nicht nur Mathe.“



Somit kommt  das Wort „Mathedrei Mal vor und das Keyword „Spass“ kommt zwei Mal vor.

Notiz:
Warum Ti ?

In der Realität gibt es ja nicht nur ein Textdokument oder nur eine URL, sondern Google liefert zu
einer Suchanfrage eine endlich große Anzahl an Textdokumenten.

Deshalb verwendet man das Indize (Singular: Index) i. Somit kann man, wenn beispielsweise 15 Textdokumente ausgegeben werden, für jedes Textdokument
   
   
die tf pro Keyword berechnen.

Thalia.de  

Wiederholung WDF und IDF:


Den WDF für das Keyword (k = „Mathe“) berechnen: WDF(k) =



Somit lautet die Rechnung des WDFs für das Keyword „Mathe“:



Nun berechnen wir den IDF-Wert für das Keyword „Mathe“:

Wie haben oben angenommen das |T| = 15 ist, d.h wir haben 15 Textdokumente. Zusätzlich nehmen wir an das der Korpus (die Menge aller Textdokumente) 200 beträgt. 
Somit lautet der IDF:



Soviel zur kleinen Auffrischung der Information Retrieval Begriffe.


Problematik der Termfrequenz:


Es ist klar, dass je länger ein Textdokument (Bspw. Thema: Mathe) ist, um so größer ist die Wahrscheinlichkeit, dass das Keyword (Mathe) häufiger vorkommt als bei einem kürzeren Text.

Somit kann man mit Sicherheit ausschließen, dass Google die tf als Rankingalgorithmus-Kriterium in dieser Form verwendet.


Wie kann man die Problematik der Termfrequenz Berechnung relativieren?


In der Mathematik „normiert“ man, um u.a Daten mit einander vergleichen zu können.

Beispiel tf-normieren:

In unserem oberen Beispiel gilt:
15 Dokumente beinhalten, dass Keyword „Mathe“. Unser eigenes Textdokument beinhaltet das Keyword 3 Mal. Nehmen wir an das die anderen 14 Textdokumente das Keyword nur ein Mal verwenden. Dann gilt:

normalisierte Termfrequenz = 

 

wir teilen durch 3, weil im Textdokument 1 das Keyword „Mathe“ am häufigsten vorkommt.

Würden wir das Keyword Spass normalisieren wäre die Rechnung für tf folgende:


Somit kann man also feststellen, welche Keywords relevant sind in einem Textdokument.
Für die Suchmaschine Google, ist dass eine Möglichkeit herauszufinden, ob dieses Textdokument passend ist für die Suchanfrage eines Google-Nutzers.

Das waren jetzt einige Informationen über die Text-Mining Kennzahl „Termfrequenz“.
Ich werde deshalb in Kürze anhand eines Textbeispieles diese Rechnungen durchführen und tabellarisch darstellen.
Zudem noch eine Ergänzung zu diesem Thema hinzufügen.

Hier noch ein paar Buchempfehlungen: