1a co clustering

Information about 1a co clustering

Published on November 19, 2007

Author: FunSchool

Source: authorstream.com

Content

Co-clustering:  Co-clustering Björn Hirsch Seminar Data Mining Prof. Dr. Thomas Hofmann 10.05.2005 Übersicht:  Übersicht Einführung allgemein einfache Beispiele Co-clustering die Idee konkrete Funktionen Algorithmus Beispiel Ergebnisse Worum geht es eigentlich?:  Worum geht es eigentlich? Erfassen von Daten Verarbeiten der Daten Ordnen und Auswerten der Daten Internetverhalten (Surf-Verhalten) Einkaufswagen (Empfehlungssysteme) Wort-Dokument-Matrix (Textanalyse) Das sind alles zweidimensionale Häufigkeitstabellen mit von einander abhängigen Daten. Daten (Beispiel):  Daten (Beispiel) Jedes Dokument wird als Vektor seiner Worte dargestellt absolute Häufigkeit (Anzahl der Worte im Dokument) relative Häufigkeit (relative Häufigkeit des Wortes im Dokument) normalisierte Matrix (Summe aller Einträge = 1) Was ist Clustering:  Was ist Clustering Gruppierung ähnlicher Objekte (Strukturierung) Kategorisierung (Zusammenfassung von Themen, wie im alten Yahoo) ein großes Bündel in mehrere kleine Bündel unterteilen Jaguar (Automarke) und Jaguar (Tier) von Oben / von Unten:  von Oben / von Unten Top-down (links) Bottom-up (rechts) Co-clustering (Idee):  Co-clustering (Idee) die meisten Cluster-Algorithmen fokussieren sich auf eindimensionales clustern es ist erstrebenswert simultan beide Dimensionen zu clustern (co-clustern) es existiert eine offensichtliche Dualität/Abhängigkeit der Daten Dokumente können nach ihrer Worthäufigkeit geclustert werden Worte können nach ihrem auftreten in Dokumenten geclustert werden Co-clustering (natürlicher Ansatz):  Co-clustering (natürlicher Ansatz) die normalisierte Wort-Dokment-Matrix wird als gemeinsame Wahrscheinlichkeitsverteilung zwischen zwei unabhängigen Variablen gesehen das optimale Co-clustering führt zu einem minimalen Verlust an gemeinsamen Informationen (mutual information) Co-clustering:  Co-clustering Co-clustering vermischt (im Sinne der Abhängigkeit) Zeilen- und Spaltenclustering in allen Abschnitten Zeilenclustering basiert auf den Clusterprototypen der Spalten Spaltenclustering basiert auf den Clusterprototypen der Zeilen die neuen Cluster berücksichtigen dabei jeweils die (alle) vorherigen (egal welcher Dimension) Seltenheit (Leerheit) wird gut verarbeitet Allgemeines:  Allgemeines X hat m Elemente und wird in k Cluster aufgeteilt Y hat n Elemente und wird in l Cluster aufgeteilt D(*||*) ist die Kullback-Leibler-Abweichung, die die relative Entropie des Informationsgehaltes angibt und somit zu minimieren ist. Verlust an gemeinsamer Information:  Verlust an gemeinsamer Information gemeinsame Information stellt eine "Gewichtung" der Information dar relative Entropie gibt den gemeinsamen Informationsverlust zwischen zwei Punkten wieder q(X,Y):  q(X,Y) grober Ablauf der Algorithmus:  grober Ablauf der Algorithmus Initialisierung Bestimmen der ersten Cluster-Zuteilungen (1) Zeilen den Zeilen-Cluster-Prototypen zuordnen (2) & Neuberechnung der benötigten Tabellen (3) If Differenz<10^-3 Spalten den Spalten-Cluster-Prototypen zuordnen (4) & Neuberechnung der benötigten Tabellen (5) (1) Initialisierung:  (1) Initialisierung t=0 Bestimmen der ersten Zuordnungen zu den Zeilen- und Spalten-Clustern (Heuristik oder Zufall) Berechnen von: (2) Zuordnung der Zeilen:  (2) Zuordnung der Zeilen für jede Zeile von p(x,y) bilden wir die Kullback-Leibler-Abweichungen zu allen Zeilen-Cluster-Prototypen dem Zeilen-Cluster-Prototyp mit dem geringsten Abweichung wird die Zeile neu zugerordnet (3) Neuberechnung:  (3) Neuberechnung Wahrscheinlichkeit von Zeilen-Cluster und Spalten-Cluster Wahrscheinlichkeit von einer Zeile unter der Bedingung, dass das Zeilen-Cluster eintritt Wahrscheinlichkeit von einer Spalte unter der Bedingung, dass das Spalten-Cluster eintritt Wahrscheinlichkeit von einer Zeile unter der Bedingung, dass das Spalten-Cluster eintritt (4) Zuordnung der Spalten:  (4) Zuordnung der Spalten für jede Spalte von p(x,y) bilden wir die Kullback-Leibler-Abweichungen zu allen Spalten-Cluster-Prototypen dem Spalten-Cluster-Prototyp mit dem geringsten Abweichung wird die Spalte neu zugerordnet (5) Neuberechnung:  (5) Neuberechnung Wahrscheinlichkeit von Zeilen-Cluster und Spalten-Cluster Wahrscheinlichkeit von einer Zeile unter der Bedingung, dass das Zeilen-Cluster eintritt Wahrscheinlichkeit von einer Spalte unter der Bedingung, dass das Spalten-Cluster eintritt Wahrscheinlichkeit von einer Saplte unter der Bedingung, dass das Zeilen-Cluster eintritt loss in mutual information:  loss in mutual information Der Verlust an gemeinsamer Information kann durch die gewichtete Summe der relativen Entropie zwischen Spalten und Spalten-Clustern oder Zeilen und Zeilen-Clustern ausgedrückt werden. (Kullback-Leibler-Abstand) Senken des Verlustes an gemeinsamer Information:  Senken des Verlustes an gemeinsamer Information monotone Abnahme der Kullback-Leibler-Abstände eigentlicher Beweis ist mit Zwischenschritten länger als eine Seite Ergebnisse:  Ergebnisse Co-clustering liefert bessere Ergebnisse als eindimensionales clustern Ergebnisse:  Ergebnisse schattierte Bereiche sind nicht Null Einträge Seltenheitsbeziehung wird deutlich in der Struktur des Co-clusterings Ergebnisse:  Ergebnisse Genauigkeit bei variierter Anzahl der Wort-Cluster Die meisten besten Werte liegen im Bereich von 50 bis 100 Ergebnisse:  Ergebnisse Verlust an gemeinsamer Information mit variierten Wort-Clustern Die meisten besten Werte auch hier im Bereich von 50 bis 100 Testdaten:  Testdaten 20 Newsgroups 20 Kategorien mit um die 1000 Dokumente 6 grobe Oberkategorien Classic3 MEDLINE, CISI und CRANFIELD 11 Dokumente 4 Digital-Rights-Management Texte (englisch) 7 Georg Büchner Texte (deutsch) Weiterführendes:  Weiterführendes Genetik Einkaufswagen (Prognose) Supermarkt Dokumentklassifikation Quellen:  Quellen "Information-Theoretic Co-Clustering" von Inderjit S. Dhillon, Subramanyam Mallela und Dharmendra S. Modha

Related presentations


Other presentations created by FunSchool

Got Discipline PowerPoint
18. 06. 2007
0 views

Got Discipline PowerPoint

InterAccess
30. 04. 2008
0 views

InterAccess

lockin1
28. 04. 2008
0 views

lockin1

IIEF MCX
22. 04. 2008
0 views

IIEF MCX

MapAccNov01
18. 04. 2008
0 views

MapAccNov01

ICW Presentation
17. 04. 2008
0 views

ICW Presentation

Lecture 9 Macro model
16. 04. 2008
0 views

Lecture 9 Macro model

ATE12
14. 04. 2008
0 views

ATE12

TeAM NEF ESF Report
13. 04. 2008
0 views

TeAM NEF ESF Report

SAEA06Robinson
10. 04. 2008
0 views

SAEA06Robinson

Larose
09. 04. 2008
0 views

Larose

dairybreeds
19. 10. 2007
0 views

dairybreeds

hex
18. 09. 2007
0 views

hex

infocom2001sfb
18. 09. 2007
0 views

infocom2001sfb

2003 Student Info System IBM
18. 09. 2007
0 views

2003 Student Info System IBM

vfpweb
18. 09. 2007
0 views

vfpweb

Fine Art and Literature
13. 10. 2007
0 views

Fine Art and Literature

cell3
15. 10. 2007
0 views

cell3

opel
19. 10. 2007
0 views

opel

horrocks
23. 10. 2007
0 views

horrocks

yang45
15. 10. 2007
0 views

yang45

GGFpart2
28. 11. 2007
0 views

GGFpart2

Sunken backbone game
10. 10. 2007
0 views

Sunken backbone game

BrandtPadua
16. 10. 2007
0 views

BrandtPadua

Lectures4 5 Ch2
07. 11. 2007
0 views

Lectures4 5 Ch2

vugia emerging
23. 10. 2007
0 views

vugia emerging

mobopts 5
01. 12. 2007
0 views

mobopts 5

majoranastatus
10. 12. 2007
0 views

majoranastatus

Northern Renaissance Art
14. 12. 2007
0 views

Northern Renaissance Art

world Hunger
13. 08. 2007
0 views

world Hunger

unconscious Origins
13. 08. 2007
0 views

unconscious Origins

Vending Ala Carte
13. 08. 2007
0 views

Vending Ala Carte

weaning mice
13. 08. 2007
0 views

weaning mice

Xiushi Yang
13. 08. 2007
0 views

Xiushi Yang

LarsonWelcome
16. 10. 2007
0 views

LarsonWelcome

Ken stellar halo
15. 11. 2007
0 views

Ken stellar halo

African Union 2050
23. 12. 2007
0 views

African Union 2050

frfin
12. 10. 2007
0 views

frfin

Bhutan Hunger presentation RCC
04. 01. 2008
0 views

Bhutan Hunger presentation RCC

10 31 05 chaps 15 16
02. 11. 2007
0 views

10 31 05 chaps 15 16

HAtrash
15. 10. 2007
0 views

HAtrash

gti pmgti
24. 10. 2007
0 views

gti pmgti

Uniform Wear
18. 09. 2007
0 views

Uniform Wear

Lsn 6 Maya and Inca
20. 11. 2007
0 views

Lsn 6 Maya and Inca

monster
21. 11. 2007
0 views

monster

campusmap
28. 12. 2007
0 views

campusmap

wolson presentation
17. 10. 2007
0 views

wolson presentation

thurston
09. 10. 2007
0 views

thurston

compfpm flood plain functions
03. 01. 2008
0 views

compfpm flood plain functions

jeff kephart 11 03
18. 09. 2007
0 views

jeff kephart 11 03

LACEApresJZ1
26. 10. 2007
0 views

LACEApresJZ1

Wedding PP Presntation attach
27. 11. 2007
0 views

Wedding PP Presntation attach

RHCh1
20. 02. 2008
0 views

RHCh1

MATERIAL HANDLING PREVIEW
26. 02. 2008
0 views

MATERIAL HANDLING PREVIEW

unaids
13. 08. 2007
0 views

unaids

tgs04b
18. 09. 2007
0 views

tgs04b

about
28. 09. 2007
0 views

about

CPPStudyPhysicalProt ection
19. 11. 2007
0 views

CPPStudyPhysicalProt ection

nliwiSCS
12. 10. 2007
0 views

nliwiSCS

TurfBMP81704
14. 02. 2008
0 views

TurfBMP81704

CAlbala
22. 10. 2007
0 views

CAlbala

LT SLIDE show
11. 03. 2008
0 views

LT SLIDE show

marie curie jenam june 2005
13. 03. 2008
0 views

marie curie jenam june 2005

volcanoes group5
25. 03. 2008
0 views

volcanoes group5

gusev
15. 10. 2007
0 views

gusev

Parent Presentation predators
01. 01. 2008
0 views

Parent Presentation predators

Williams Tanzania
13. 08. 2007
0 views

Williams Tanzania

PrelimI
07. 10. 2007
0 views

PrelimI

personalities
12. 10. 2007
0 views

personalities

MeetingFreightDataCh allenges
28. 02. 2008
0 views

MeetingFreightDataCh allenges

04 19 SW
29. 10. 2007
0 views

04 19 SW

APP The American Experience WK3
17. 12. 2007
0 views

APP The American Experience WK3

062507
04. 03. 2008
0 views

062507

wedekind
08. 10. 2007
0 views

wedekind

IZMO CONCIERGE
30. 10. 2007
0 views

IZMO CONCIERGE

eh wellseptic
07. 11. 2007
0 views

eh wellseptic

20070114 sanog9 apnic update
27. 03. 2008
0 views

20070114 sanog9 apnic update

ATCNewswireCatalogue EN Q207
02. 10. 2007
0 views

ATCNewswireCatalogue EN Q207

db pres okutani whois
09. 10. 2007
0 views

db pres okutani whois

hotchips 2004 motes
18. 06. 2007
0 views

hotchips 2004 motes

gww sid july27
18. 06. 2007
0 views

gww sid july27

eolson AUV2004
18. 06. 2007
0 views

eolson AUV2004

EMS Stake holders
18. 06. 2007
0 views

EMS Stake holders

edinburgh condor tutorial
18. 06. 2007
0 views

edinburgh condor tutorial

dztalk 3
18. 06. 2007
0 views

dztalk 3

dw olap
18. 06. 2007
0 views

dw olap

Digital Photos Hitchcock
18. 06. 2007
0 views

Digital Photos Hitchcock

DGov transform wo notes web
18. 06. 2007
0 views

DGov transform wo notes web

defense
18. 06. 2007
0 views

defense

palais 04
18. 09. 2007
0 views

palais 04

chop06
29. 10. 2007
0 views

chop06

MISR images Aug2001
21. 10. 2007
0 views

MISR images Aug2001

PresentacionGobCorp2 003
22. 10. 2007
0 views

PresentacionGobCorp2 003

cmc2q06
18. 09. 2007
0 views

cmc2q06

AfricanAmericans A Z
03. 10. 2007
0 views

AfricanAmericans A Z

Proper KeyBoarding Technique
15. 06. 2007
0 views

Proper KeyBoarding Technique

Dinosaurs
15. 06. 2007
0 views

Dinosaurs

Memories
15. 06. 2007
0 views

Memories

Like - Having Different Hobbies
15. 06. 2007
0 views

Like - Having Different Hobbies

humanity
15. 06. 2007
0 views

humanity

Volcanoes are Hot Stuff
15. 06. 2007
0 views

Volcanoes are Hot Stuff

China2005NoAnimation
23. 10. 2007
0 views

China2005NoAnimation

BTL Statistics2005
18. 09. 2007
0 views

BTL Statistics2005

Dillon
18. 06. 2007
0 views

Dillon

infovis03 talk slides
18. 09. 2007
0 views

infovis03 talk slides

Block 6 Basler Ausschuss
16. 10. 2007
0 views

Block 6 Basler Ausschuss

scarlett 28oct05
18. 09. 2007
0 views

scarlett 28oct05

barrier
18. 09. 2007
0 views

barrier

SNIMA BTP
24. 10. 2007
0 views

SNIMA BTP

familyweek3
24. 02. 2008
0 views

familyweek3

rutkowska bheurope2006
18. 09. 2007
0 views

rutkowska bheurope2006

ATA2007 US MA MReyna
23. 10. 2007
0 views

ATA2007 US MA MReyna

P Jonson AIC
18. 10. 2007
0 views

P Jonson AIC

Denver 05b
18. 06. 2007
0 views

Denver 05b

6 WP4 TRT
20. 03. 2008
0 views

6 WP4 TRT

Enigma1
31. 12. 2007
0 views

Enigma1

P416 Lec5 S07
27. 09. 2007
0 views

P416 Lec5 S07

mulligan
18. 09. 2007
0 views

mulligan