Classificação

Information about Classificação

Published on December 28, 2007

Author: Goldie

Source: authorstream.com

Content

Classificação:  Classificação Terminologia:  Terminologia Exemplo, um objeto, um caso, um registro, um tupla Atributo, variável, feature, característica Conjunto de treinamento, conjunto de teste Aprendizado Avaliação Hipótese do Aprendizado Indutivo:  Hipótese do Aprendizado Indutivo A tarefa é não deterministica Qualquer hipótese que aproxime bem o conceito alvo num conjunto de treinamento, suficientemente grande, aproximara o conceito alvo para exemplos não observados. Overfitting e Underfitting:  Overfitting e Underfitting A1 A1 A2 A2 - - - - - - - - - - - - - - - - + + - - - - - - - - - - - - - - - - - - - - - - + + - - - - - - + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Consistência e Completude:  Consistência e Completude Depois de induzida, uma hipótese pode ser avaliada sobre consistência, se classifica corretamente os exemplos completude, se classifica todos os exemplos Medindo a qualidade da predição:  Medindo a qualidade da predição Precisão, compreensível e interessante Acuracia = classificados corretamente /total de exemplos Erro = 1-Acuracia Matriz de Confusão :  Matriz de Confusão A matriz de confusão de uma hipótese h oferece uma medida efetiva do modelo de classificação, ao mostrar o número de classificações corretas versus as classificações preditas para cada classe, sobre um conjunto de exemplos T Matriz de Confusão :  Matriz de Confusão Matriz de Confusão :  Matriz de Confusão O número de acertos, para cada classe, se localiza na diagonal principal M(Ci,Ci) da matriz Os demais elementos M(Ci,Cj), para i ≠ j, representam erros na classificação A matriz de confusão de um classificador ideal possui todos esses elementos iguais a zero uma vez que ele não comete erros Prevalência de Classe :  Prevalência de Classe Um ponto muito importante em AM refere-se ao desbalanceamento de classes em um conjunto de exemplos Por exemplo, suponha um conjunto de exemplos T com a seguinte distribuição de classes dist(C1, C2, C3) = (99.00%, 0.25%, 0.75%), com prevalência da classe C1 Um classificador simples que classifique sempre novos exemplos como pertencentes à classe majoritária C1 teria uma precisão de 99,00% (maj-err(T) = 1,00%) Isto pode ser indesejável quando as classes minoritárias são aquelas que possuem uma informação muito importante, por exemplo, supondo C1: paciente normal, C2: paciente com doença A e C3: paciente com doença B Prevalência de Classe:  Prevalência de Classe É importante estar ciente, quando se trabalha com conjuntos de exemplos desbalanceados, que é desejável utilizar uma medida de desempenho diferente da precisão Isto deve-se ao fato que a maioria dos sistemas de aprendizado é projetada para otimizar a precisão Com isso, normalmente os algoritmos apresentam um desempenho ruim se o conjunto de treinamento encontra-se fortemente desbalanceado, pois os classificadores induzidos tendem a ser altamente precisos nos exemplos da classe majoritária, mas freqüentemente classificam incorretamente exemplos das classes minoritárias Algumas técnicas foram desenvolvidas para lidar com esse problema, tais como a introdução de custos de classificação incorreta (explicada mais adiante), a remoção de exemplos redundantes ou prejudiciais ou ainda a detecção de exemplos de borda e com ruído Custos de Erros :  Custos de Erros Medir adequadamente o desempenho de classificadores, através da taxa de erro (ou precisão) assume um papel importante em AM, uma vez que o objetivo consiste em construir classificadores com baixa taxa de erro em novos exemplos Entretanto, ainda considerando o problema anterior contendo duas classes, se o custo de ter falsos positivos e falsos negativos não é o mesmo, então outras medidas de desempenho devem ser usadas Uma alternativa natural, quando cada tipo de classificação incorreta possui um custo diferente ou mesmo quando existe prevalência de classes, consiste em associar um custo para cada tipo de erro Custos de Erros :  Custos de Erros O custo cost(Ci,Cj) é um número que representa uma penalidade aplicada quando o classificador faz um erro ao rotular exemplos, cuja classe verdadeira é Ci, como pertencentes à classe Cj, onde i,j = 1, 2, ..., k e k é o número de classes Assim, cost(Ci,Ci) = 0, uma vez que não constitui um erro e cost(Ci,Cj) > 0, i ≠ j Em geral, os indutores assumem que cost(Ci,Cj)=1, i≠j, caso esses valores não sejam definidos explicitamente Estimação da Acuracia :  Estimação da Acuracia 2/3 treinamento, 1/3 teste Validação cruzada K conjuntos exclusivos e exaustivos O algoritmo é executado k vezes Estratificação Mesmo conjunto de classes em cada conjunto Bias Indutivo:  Bias Indutivo Qualquer critério, implícito ou explicito, utilizado para decidir entre uma hipótese e outra, sem ser a consistência com os dados. Bias de representação, Bias de preferência. Bias de Preferência:  Bias de Preferência Como o algoritmo prefere uma hipótese frente a outra. Qualidade da regra A estratégia utilizada para gerar novas regras a partir da atual. Occam’s Razor:  Occam’s Razor Entidades não devem ser multiplicadas sem necessidade Entre todas as hipóteses consistentes com a evidencia, a mais simples é a mais provável de ser verdadeira. O principio de mínimo comprimento de descrição (MDL):  O principio de mínimo comprimento de descrição (MDL) Heurística Comprimento da hipótese Comprimento dos dados, o comprimento dos dados quando codificado usando a hipótese como preditor O comprimento do termo de codificação das instancias que são exeções

Related presentations


Other presentations created by Goldie

TGIF introduction
17. 12. 2007
0 views

TGIF introduction

BCSWC Ed presentation
31. 12. 2007
0 views

BCSWC Ed presentation

KUCS
27. 11. 2007
0 views

KUCS

serviciodetaxi141
30. 11. 2007
0 views

serviciodetaxi141

EtruscanWomen
30. 10. 2007
0 views

EtruscanWomen

lecture07
02. 11. 2007
0 views

lecture07

TurkishStraits
05. 11. 2007
0 views

TurkishStraits

how to succeed in an interview
15. 11. 2007
0 views

how to succeed in an interview

IditarodFacts
16. 11. 2007
0 views

IditarodFacts

gerth van wijk
06. 12. 2007
0 views

gerth van wijk

Lecture Two
17. 12. 2007
0 views

Lecture Two

ColdFusiontoFlexSupe rWizard
28. 11. 2007
0 views

ColdFusiontoFlexSupe rWizard

Seth
29. 12. 2007
0 views

Seth

Deculturalization How Why
02. 01. 2008
0 views

Deculturalization How Why

yoe
03. 01. 2008
0 views

yoe

wheedleton
03. 01. 2008
0 views

wheedleton

EuroLogo2007
04. 01. 2008
0 views

EuroLogo2007

Lecture 4 2005
07. 01. 2008
0 views

Lecture 4 2005

zilles
07. 01. 2008
0 views

zilles

DNO IMA Transition Plan
30. 10. 2007
0 views

DNO IMA Transition Plan

promotions
11. 12. 2007
0 views

promotions

sav ch08
30. 12. 2007
0 views

sav ch08

230 Class8
20. 02. 2008
0 views

230 Class8

Terry Hilsberg e Learning
24. 02. 2008
0 views

Terry Hilsberg e Learning

lect12
27. 02. 2008
0 views

lect12

Explorerhiddenslide
27. 03. 2008
0 views

Explorerhiddenslide

planet tute
13. 11. 2007
0 views

planet tute

heat health warning system
29. 10. 2007
0 views

heat health warning system

BaroneComm1
29. 10. 2007
0 views

BaroneComm1

lecnew05 11
03. 12. 2007
0 views

lecnew05 11

Sophie Dawson
31. 10. 2007
0 views

Sophie Dawson

ch14 1406
12. 12. 2007
0 views

ch14 1406

Fabio
16. 11. 2007
0 views

Fabio

flex wilhagen en
31. 10. 2007
0 views

flex wilhagen en

IEE Lec6
12. 11. 2007
0 views

IEE Lec6

SigRes HoughtonR Jan2004
26. 10. 2007
0 views

SigRes HoughtonR Jan2004

chap03
02. 01. 2008
0 views

chap03

Jayant
23. 11. 2007
0 views

Jayant

evans
01. 10. 2007
0 views

evans

Eskilstuna PJ
06. 11. 2007
0 views

Eskilstuna PJ

Subsea experience
07. 11. 2007
0 views

Subsea experience

Hanson DOCS
28. 12. 2007
0 views

Hanson DOCS

Bain eng
05. 12. 2007
0 views

Bain eng

document859
20. 11. 2007
0 views

document859

talk2
14. 11. 2007
0 views

talk2