SlideShare a Scribd company logo
1 of 32
TÉCNICAS DE INTELIGENCIA ARTIFICIAL –
ÁRBOLES DE DECISIÓN Y REGLAS
Facilitador:
Ing. Jairo Acosta Solano
Especialista en Finanzas
Máster en Educación y TIC
Máster en Análisis y Visualización de Datos Masivos
Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND
Objetivos de la sesión
• Conocer los fundamentos teóricos de la minería de datos.
• Conocer los elementos que intervienen en el aprendizaje de
conceptos.
• Caracterizar los diferentes formatos que tienen las fuentes de datos.
• Desarrollar el proceso de instalación de la herramienta Weka.
Árboles de decisión
Representación del conocimiento mediante árboles
El aprendizaje de árboles de decisión es una de las técnicas más utilizadas para el
aprendizaje inductivo, siendo un método bastante robusto frente a datos ruidosos.
Las entradas y salidas de la función objetivo suelen ser valores discretos, aunque
también podrían ser continuos en el caso de las entradas. La representación de
esta función objetivo toma forma de árbol y es interpretada como una serie de
condiciones consecutivas que puede ser fácilmente mapeada a reglas.
Árboles de decisión
¿Cuándo es adecuado utilizarlos?
• Cuando las instancias se pueden representar como un grupo de
atributos. Los valores de los atributos pueden ser nominales o
numéricos a los que se les puede aplicar su respectivo algoritmo de
aprendizaje.
• Los valores de salida (clase) tienen, o se pueden convertir a, valores
discretos.
• Los datos deben tener descripciones disyuntas, cada rama desde la
raíz a la hoja, representa una conjunción lógica (operador AND)
mientras que el árbol completo es una disyunción de conjunciones
(operador OR). Ver el siguiente ejemplo.
• Los datos de entrenamiento contienen errores o valores de atributos
desconocidos debido a que los árboles son robustos frente a errores.
Árboles de decisión
Ejemplo de conjunciones y disyunciones para la clase NO
SI Ambiente = soleado AND Humedad = alta
OR Ambiente = lluvioso AND Viento = Verdadero
ENTONCES Jugar = No
Árboles de decisión
Ventajas
• Fáciles de comprender
• Pueden trabajar con datos numéricos y nominales
• Pueden trabajar con datos multidimensionales
• No requieren conocimiento en un dominio dado ni establecer
parámetros.
Restricciones
• Atributos deben ser categóricos
• No permiten múltiples atributos de salida
• Los árboles construidos basados en datos numéricos pueden ser muy
complejos de interpretar.
Árboles de decisión
Descripción de la tarea de inducción
El espacio de hipótesis es el conjunto de árboles de decisión posibles en los
datos utilizados para entrenamiento. La tarea de inducción del árbol de
decisión consiste en encontrar el árbol que mejor encaje con los datos de
ejemplo disponibles que se encuentran clasificados.
Importante definir el método de selección de atributos para generar el árbol:
Árboles de decisión
Descripción de la tarea de inducción
El espacio de hipótesis es el conjunto de árboles de decisión posibles en los
datos utilizados para entrenamiento. La tarea de inducción del árbol de
decisión consiste en encontrar el árbol que mejor encaje con los datos de
ejemplo disponibles que se encuentran clasificados.
Importante definir el método de selección de atributos para generar el árbol:
Árboles de decisión
Ejemplo
El algoritmo utilizado es del tipo “divide y
vencerás”, construido sin retroceder en
ningún caso para volver a reconsiderar una
decisión tomada en un paso previo.
Siempre avanza hacia adelante es
denominado método codicioso (greedy en
inglés).
Árboles de decisión
Algoritmo de aprendizaje ID3
Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un
método de selección de atributos basado en la teoría de la información. Considera
que el atributo cuyo conocimiento provea más información es el más útil.
Como previamente se ha comentado un aspecto importante es el método de
selección de atributos, que determina el rendimiento del algoritmo. El algoritmo
ID3 utiliza la ganancia de información para seleccionar en cada paso según se va
generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a
su clasificación objetivo.
Árboles de decisión
Algoritmo de aprendizaje ID3
Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un
método de selección de atributos basado en la teoría de la información. Considera
que el atributo cuyo conocimiento provea más información es el más útil.
Como previamente se ha comentado un aspecto importante es el método de
selección de atributos, que determina el rendimiento del algoritmo. El algoritmo
ID3 utiliza la ganancia de información para seleccionar en cada paso según se va
generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a
su clasificación objetivo.
No se preocupen,
para eso existe Weka.
Árboles de decisión
Espacio de búsqueda y bias inductivo
ID3 realiza una búsqueda en escalada, guiada por la medida de ganancia de
información, desde árboles más sencillos a árboles más complejos, buscando
aquel que clasifica correctamente los datos de entrenamiento.
ID3 se caracteriza por:
• Trabaja en un espacio de hipótesis completo
• No da marcha atrás
• Robusto frente a errores
• Dar preferencia a árboles cortos frante a los largos
• Los atributos que dan mayor ganancia de información se ubican más cerca a
la raíz
El bias inductivo de ID3 se puede, por tanto, considerar como una preferencia
por árboles cortos frente a largos y se prefieren árboles que sitúan cerca de la
raíz a los atributos que aportan mayor ganancia de información.
Árboles de decisión
Sobreajuste y poda de árboles
El sobreajuste se produce cuando existe una hipótesis H del espacio de
hipótesis que se ajusta mejor a los datos de entrenamiento que otra
hipótesis H’ del espacio de hipótesis pero, sin embargo, H’ se ajusta
mejor a todas las instancias (comprendiendo datos de entrenamiento e
instancias futuras).
• Podar el árbol una vez generado.
Se pueden llegar a tener en
cuenta combinaciones de
atributos antes de realizar la
poda. Existen ocasiones en que
dos o más atributos combinados
aportan bastante información
en la clasificación mientras que
los atributos por sí solos, no.
Pospoda
• Limitar el crecimiento del árbol.
Tiene la ventaja de que ahorra
los costes de procesamiento
debidos a generar nodos y
ramas que posteriormente
serían podados (utilizando un
método de pospoda).
Prepoda
Árboles de decisión
Algoritmo de aprendizaje C4.5
El algoritmo C4.5 se puede aplicar tanto a atributos con valores
discretos como a atributos con valores continuos. C4.5 puede trabajar
con datos ausentes, que no son tenidos en cuenta a la hora de calcular
las métricas para seleccionar los atributos. El método de selección de
atributos que utiliza C4.5 es la medida de proporción de ganancia.
C4.5 realiza una poda tras la generación del árbol (pospoda) con el fin
de mejorar la generalización del modelo. Una vez que el árbol ha sido
generado, C4.5 elimina aquellos nodos del árbol para los cuales el
resultado de podar es una mejora en la precisión en la clasificación.
Árboles de decisión
¡Manos a la obra con Weka!
Reglas de clasificación y asociación
Antecedentes y consecuentes
Los árboles de decisión se pueden mapear a estructuras de reglas con la
siguiente sintaxis:
SI <antecedente> ENTONCES <consecuente>
Se pueden presentar múltiples condiciones unidas por operadores lógicos
AND (conjunción) y OR (disyunción). No se recomienda mezclar en la misma
regla conjunciones y disyunciones.
SI <antecedente 1> AND <antecedente 2> AND
<antecedente 3>
ENTONCES <consecuente 1> <consecuente 2>
Reglas de clasificación y asociación
Ejemplos
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ es alto
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5
Mientras que las reglas de clasificación predicen la clase, las reglas de asociación
predicen valores de atributos, combinaciones de valores de atributos, o la propia
clase. El interés de las reglas de asociación es descubrir combinaciones de pares
atributo-valor que ocurren con frecuencia en un conjunto de datos.
Reglas de clasificación y asociación
Ejemplos
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ es alto
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5
Reglas de clasificación y asociación
Principales medidas para evaluar reglas
Confianza: es la probabilidad condicional de que dado un evento A se
produzca un evento B. Se puede expresar como el porcentaje de
ejemplos que satisfacen el antecedente y consecuente de la regla
entre aquellos que satisfacen el consecuente.
𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝐴 𝐵 = 𝑃(𝐵A)
Soporte: se refiere al cociente del número de ejemplos que cumplen el
antecedente y el consecuente de la regla entre el número total de
ejemplos.
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝐴 𝐵 = 𝑃(𝐴)
Reglas de clasificación y asociación
Ejemplo
Reglas de clasificación y asociación
Ejemplo
A simple vista se pueden inferir las
siguientes reglas:
Regla 1:
SI Ambiente es nublado
ENTONCES jugar = si
Regla 2:
SI Temperatura es baja
ENTONCES Humedad es normal
Regla 3:
SI Temperatura es media
ENTONCES humedad es alta
Reglas de clasificación y asociación
Ejemplo
Regla 1 (Clasificación) : ambiente =
nublado -> jugar = si
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 0,29
Regla 2 (Asociación) : temperatura = baja -
> humedad = normal
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 1
Regla 3 (Asociación) : temperatura = media
-> humedad = alta
Confianza = ???
Soporte = ???
Reglas de clasificación y asociación
Ejemplo
Regla 1 (Clasificación) : ambiente =
nublado -> jugar = si
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 0,29
Regla 2 (Asociación) : temperatura = baja -
> humedad = normal
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 0,29
Regla 3 (Asociación) : temperatura = media
-> humedad = alta
Confianza = 4 / 6 = 0,67
Soporte = 4 / 14 = 0,29
Reglas de clasificación y asociación
Fases para el aprendizaje de reglas de asociación
1. Encontrar las reglas cuya frecuencia sea superior a un valor de
soporte establecido.
2. De las reglas extraídas de la fase 1, seleccionar aquellas cuya
confianza es superior a un valor determinado.
Reglas de clasificación y asociación
Algoritmo Prism para el aprendizaje de reglas de clasificación
Este es un algoritmo de descubrimiento secuencial, en cada iteración:
1. Aprenden una regla que cubre algunos ejemplos de una clase C.
2. Eliminan los ejemplos cubiertos.
3. Repiten los anteriores pasos hasta cubrir todos los ejemplos de la
clase.
La cobertura es otra medida utilizada para evaluar el interés de las
reglas y se define como el número de ejemplos que cumplen la regla
(antecedente y consecuente).
Reglas de clasificación y asociación
Algoritmo Apriori para el aprendizaje de reglas de asociación
El algoritmo apriori pretende generar ítem-sets que cumplan una
cobertura mínima de manera eficiente. Un ítem es un par atributo-
valor mientras que un ítem-set es un conjunto de pares atributo-valor.
Un k-ítem-set es un conjunto de k pares atributo-valor. La cobertura de
un ítem-sets se refiere al número de instancias que cumplen los
valores en el ítem-set y va a determinar la cobertura de las reglas
generadas a partir de dicho item-set.
El algoritmo tiene dos fases:
• Fase 1: Generación de ítems-set.
• Fase 2: Generación de reglas a partir de los ítems-set generados en la
fase 1.
Reglas de clasificación y asociación
Ejemplo
Primera fase, elementos con
cobertura mínima = 3
Creamos ítems-set de un elemento:
I-S 1 elemento Cobertura
Ambiente = soleado 5
Ambiente = nublado 4
Ambiente = lluvioso 5
Temperatura = alta 4
Temperatura = media 6
Temperatura = baja 4
Humedad = alta 7
Humedad = normal 7
Viento = falso 8
Viento = verdadero 6
Jugar = si 9
Jugar = no 5
Reglas de clasificación y asociación
Ejemplo
Se combinan los elementos encontrados en la primera iteración e igualmente se verifica cobertura:
I-S 2 elementos Cobertura
Ambiente=lluvioso, temperatura=media 3
Ambiente=lluvioso, humedad=normal 3
Ambiente=soleado, humedad=alta 3
Ambiente=lluvioso, viento=falso 3
Ambiente=soleado, viento=falso 3
Ambiente=lluvioso, jugar=si 3
Ambiente=nublado, jugar=si 4
Ambiente=soleado, jugar=no 3
Temperatura=alta, humedad=alta 3
Temperatura=baja, humedad=normal 4
… …
Reglas de clasificación y asociación
Ejemplo
Se combinan los elementos encontrados en la segunda iteración e igualmente se verifica cobertura:
I-S 2 elementos Cobertura
Ambiente=soleado, humedad=alta,
jugar=no
3
Ambiente=lluvioso, viento=falso, jugar=si 3
Temperatura=baja, humedad=normal,
jugar=si
3
Humedad=normal, viento=falso, jugar=si 4
No se pueden generar ítems-set de
cuatro elementos que cumplan con la
cobertura, termina la fase 1.
Reglas de clasificación y asociación
Ejemplo
Continuamos la fase 2, en donde decidimos
quedarnos con los elementos que tengan una
confianza mínima de 0,9. ahora hacemos
combinaciones de cada una de las
posibilidades:
SI ambiente=soleado
ENTONCES humedad=alta AND jugar=no
(P=3/5)
SI ambiente=soleado AND humedad=alta
ENTONCES jugar=no (P=3/3)
SI ambiente=soleado AND jugar=no
ENTONCES humedad=alta (P=3/3)
SI humedad=alta …… (por eso necesitamos a
Weka)
I-S 2 elementos Cobertura
Ambiente=soleado, humedad=alta,
jugar=no
3
Ambiente=lluvioso, viento=falso, jugar=si 3
Temperatura=baja, humedad=normal,
jugar=si
3
Humedad=normal, viento=falso, jugar=si 4
Árboles de decisión
¡Manos a la obra con Weka!

More Related Content

What's hot

Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialJuank Grifin
 
2.5 Razonamiento monótono..pptx
2.5 Razonamiento monótono..pptx2.5 Razonamiento monótono..pptx
2.5 Razonamiento monótono..pptxRam Vazquez
 
Tipos de busquedas ia
Tipos de busquedas iaTipos de busquedas ia
Tipos de busquedas iaPAko DiAz
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialAlan López
 
REDES NEURONALES Algoritmos de Aprendizaje
REDES NEURONALES Algoritmos  de AprendizajeREDES NEURONALES Algoritmos  de Aprendizaje
REDES NEURONALES Algoritmos de AprendizajeESCOM
 
Random Forest and KNN is fun
Random Forest and KNN is funRandom Forest and KNN is fun
Random Forest and KNN is funZhen Li
 
15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learning15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learningAnil Yadav
 
L2. Evaluating Machine Learning Algorithms I
L2. Evaluating Machine Learning Algorithms IL2. Evaluating Machine Learning Algorithms I
L2. Evaluating Machine Learning Algorithms IMachine Learning Valencia
 
COMPILADORES-Tabla de Simbolos
COMPILADORES-Tabla de SimbolosCOMPILADORES-Tabla de Simbolos
COMPILADORES-Tabla de SimbolosLilian León Meza
 
Busquedas a Heuristicas
Busquedas a HeuristicasBusquedas a Heuristicas
Busquedas a HeuristicasBryan Coronel
 
Representación del Conocimiento
Representación del ConocimientoRepresentación del Conocimiento
Representación del ConocimientoAlva_Ruiz
 
Clasificador naive bayes
Clasificador naive bayesClasificador naive bayes
Clasificador naive bayesNetworkTIC
 
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...Edureka!
 

What's hot (20)

Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia Artificial
 
Pruebas del Software
Pruebas del SoftwarePruebas del Software
Pruebas del Software
 
2.5 Razonamiento monótono..pptx
2.5 Razonamiento monótono..pptx2.5 Razonamiento monótono..pptx
2.5 Razonamiento monótono..pptx
 
Tipos de busquedas ia
Tipos de busquedas iaTipos de busquedas ia
Tipos de busquedas ia
 
Razonamiento monotono
Razonamiento monotonoRazonamiento monotono
Razonamiento monotono
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia Artificial
 
REDES NEURONALES Algoritmos de Aprendizaje
REDES NEURONALES Algoritmos  de AprendizajeREDES NEURONALES Algoritmos  de Aprendizaje
REDES NEURONALES Algoritmos de Aprendizaje
 
Random Forest and KNN is fun
Random Forest and KNN is funRandom Forest and KNN is fun
Random Forest and KNN is fun
 
15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learning15857 cse422 unsupervised-learning
15857 cse422 unsupervised-learning
 
L2. Evaluating Machine Learning Algorithms I
L2. Evaluating Machine Learning Algorithms IL2. Evaluating Machine Learning Algorithms I
L2. Evaluating Machine Learning Algorithms I
 
COMPILADORES-Tabla de Simbolos
COMPILADORES-Tabla de SimbolosCOMPILADORES-Tabla de Simbolos
COMPILADORES-Tabla de Simbolos
 
Busquedas a Heuristicas
Busquedas a HeuristicasBusquedas a Heuristicas
Busquedas a Heuristicas
 
Representación del Conocimiento
Representación del ConocimientoRepresentación del Conocimiento
Representación del Conocimiento
 
Búsqueda IA
Búsqueda IABúsqueda IA
Búsqueda IA
 
Clasificador naive bayes
Clasificador naive bayesClasificador naive bayes
Clasificador naive bayes
 
TABLA DE SÍMBOLOS
TABLA DE SÍMBOLOSTABLA DE SÍMBOLOS
TABLA DE SÍMBOLOS
 
Calidad de software
Calidad de softwareCalidad de software
Calidad de software
 
Técnicas de representación del conocimiento
Técnicas de representación del conocimientoTécnicas de representación del conocimiento
Técnicas de representación del conocimiento
 
Reglasproduccion
ReglasproduccionReglasproduccion
Reglasproduccion
 
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...
Decision Tree Algorithm & Analysis | Machine Learning Algorithm | Data Scienc...
 

Similar to Arboles y reglas

Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1eGaston Liberman
 
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfGerard Alba
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdfhenry913654
 
Pass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionPass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionFabricio Quintanilla
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfngduyh1
 
ÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓNÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓNRaquel Solano
 
Diseño de base de datos
Diseño de base de datosDiseño de base de datos
Diseño de base de datosDeisyVilchez
 
Árboles de decisión
Árboles de decisiónÁrboles de decisión
Árboles de decisiónMeivi2525
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Árboles de Decisión
Árboles de DecisiónÁrboles de Decisión
Árboles de Decisiónjosemorangt
 
Tecnologías de información: Bases de Datos
Tecnologías de información: Bases de DatosTecnologías de información: Bases de Datos
Tecnologías de información: Bases de DatosDulce Maria Manzo
 
Presentación árbol de decisión.pdf
Presentación árbol de decisión.pdfPresentación árbol de decisión.pdf
Presentación árbol de decisión.pdfVictorFuentes337921
 
Poda Arboles
Poda ArbolesPoda Arboles
Poda Arbolesalexace84
 
Clase 2 ciclo de vida bd ac
Clase 2 ciclo de vida bd acClase 2 ciclo de vida bd ac
Clase 2 ciclo de vida bd acLuis Jherry
 
Funciones del Administrador de Base de Datos, Tipos de Base de Datos
Funciones del Administrador de Base de Datos, Tipos de Base de DatosFunciones del Administrador de Base de Datos, Tipos de Base de Datos
Funciones del Administrador de Base de Datos, Tipos de Base de DatosTomas Acuña Rondan
 

Similar to Arboles y reglas (20)

Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1e
 
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdfAprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
Aprendizaje automático I - Sesión 4 Árboles de Decisión.pdf
 
Mineria de Datos.pdf
Mineria de Datos.pdfMineria de Datos.pdf
Mineria de Datos.pdf
 
Pass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacionPass - Algoritmos de clasificacion
Pass - Algoritmos de clasificacion
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
 
Taller weka
Taller wekaTaller weka
Taller weka
 
ÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓNÁRBOLES DE CLASIFICACIÓN
ÁRBOLES DE CLASIFICACIÓN
 
Arboles de decision
Arboles de decisionArboles de decision
Arboles de decision
 
Diseño de base de datos
Diseño de base de datosDiseño de base de datos
Diseño de base de datos
 
Mineríade datos
Mineríade datosMineríade datos
Mineríade datos
 
Árboles de decisión
Árboles de decisiónÁrboles de decisión
Árboles de decisión
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Árboles de Decisión
Árboles de DecisiónÁrboles de Decisión
Árboles de Decisión
 
Tecnologías de información: Bases de Datos
Tecnologías de información: Bases de DatosTecnologías de información: Bases de Datos
Tecnologías de información: Bases de Datos
 
Presentación árbol de decisión.pdf
Presentación árbol de decisión.pdfPresentación árbol de decisión.pdf
Presentación árbol de decisión.pdf
 
Poda Arboles
Poda ArbolesPoda Arboles
Poda Arboles
 
Clase 2 ciclo de vida bd ac
Clase 2 ciclo de vida bd acClase 2 ciclo de vida bd ac
Clase 2 ciclo de vida bd ac
 
01 introduccion (1)my sql
01 introduccion (1)my sql01 introduccion (1)my sql
01 introduccion (1)my sql
 
Funciones del Administrador de Base de Datos, Tipos de Base de Datos
Funciones del Administrador de Base de Datos, Tipos de Base de DatosFunciones del Administrador de Base de Datos, Tipos de Base de Datos
Funciones del Administrador de Base de Datos, Tipos de Base de Datos
 

More from Jairo Acosta Solano

Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxJairo Acosta Solano
 
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Jairo Acosta Solano
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosJairo Acosta Solano
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarJairo Acosta Solano
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Jairo Acosta Solano
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017Jairo Acosta Solano
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...Jairo Acosta Solano
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Jairo Acosta Solano
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesJairo Acosta Solano
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicosJairo Acosta Solano
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Jairo Acosta Solano
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNJairo Acosta Solano
 

More from Jairo Acosta Solano (20)

Visualización de Datos.pptx
Visualización de Datos.pptxVisualización de Datos.pptx
Visualización de Datos.pptx
 
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docxGuía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
Guía de Proyectos Académicos de Trabajo Colectivo final 2p2022 v1.docx
 
SISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptxSISTEMAS DE RECOMENDACIÓN.pptx
SISTEMAS DE RECOMENDACIÓN.pptx
 
Ejercicio clúster jerárquico
Ejercicio clúster jerárquicoEjercicio clúster jerárquico
Ejercicio clúster jerárquico
 
Ejercicio K-Means
Ejercicio K-MeansEjercicio K-Means
Ejercicio K-Means
 
Matriz de confusión
Matriz de confusiónMatriz de confusión
Matriz de confusión
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Fundamentos IA
Fundamentos IAFundamentos IA
Fundamentos IA
 
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
Metodología CRISP-DM para la evaluación de modelos predictivos del rendimient...
 
Big Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos MasivosBig Data: Análisis y Visualización de Datos Masivos
Big Data: Análisis y Visualización de Datos Masivos
 
Acceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigarAcceso abierto: El derecho a investigar
Acceso abierto: El derecho a investigar
 
Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)Normas APA 6ta edición (Centro de Escritura Javeriana)
Normas APA 6ta edición (Centro de Escritura Javeriana)
 
Presentación investigación IIp 2017
Presentación investigación IIp 2017Presentación investigación IIp 2017
Presentación investigación IIp 2017
 
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
SISTEMA DE INFORMACIÓN PARA EL MANTENIMIENTO DEL PROCESO DE CARACTERIZACIÓN B...
 
Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017Presentación PAT Colectivo 2017
Presentación PAT Colectivo 2017
 
Generalidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitalesGeneralidades de los recursos y objetos digitales
Generalidades de los recursos y objetos digitales
 
Contexto y circulación de textos científicos
Contexto y circulación de textos científicosContexto y circulación de textos científicos
Contexto y circulación de textos científicos
 
Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016Guía proyecto de grado CURN 2016
Guía proyecto de grado CURN 2016
 
Presentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURNPresentación investigación PAT IIP 2016 CURN
Presentación investigación PAT IIP 2016 CURN
 
Educacion Inclusiva
Educacion InclusivaEducacion Inclusiva
Educacion Inclusiva
 

Recently uploaded

SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 

Recently uploaded (20)

SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 

Arboles y reglas

  • 1. TÉCNICAS DE INTELIGENCIA ARTIFICIAL – ÁRBOLES DE DECISIÓN Y REGLAS Facilitador: Ing. Jairo Acosta Solano Especialista en Finanzas Máster en Educación y TIC Máster en Análisis y Visualización de Datos Masivos Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND
  • 2. Objetivos de la sesión • Conocer los fundamentos teóricos de la minería de datos. • Conocer los elementos que intervienen en el aprendizaje de conceptos. • Caracterizar los diferentes formatos que tienen las fuentes de datos. • Desarrollar el proceso de instalación de la herramienta Weka.
  • 3. Árboles de decisión Representación del conocimiento mediante árboles El aprendizaje de árboles de decisión es una de las técnicas más utilizadas para el aprendizaje inductivo, siendo un método bastante robusto frente a datos ruidosos. Las entradas y salidas de la función objetivo suelen ser valores discretos, aunque también podrían ser continuos en el caso de las entradas. La representación de esta función objetivo toma forma de árbol y es interpretada como una serie de condiciones consecutivas que puede ser fácilmente mapeada a reglas.
  • 4. Árboles de decisión ¿Cuándo es adecuado utilizarlos? • Cuando las instancias se pueden representar como un grupo de atributos. Los valores de los atributos pueden ser nominales o numéricos a los que se les puede aplicar su respectivo algoritmo de aprendizaje. • Los valores de salida (clase) tienen, o se pueden convertir a, valores discretos. • Los datos deben tener descripciones disyuntas, cada rama desde la raíz a la hoja, representa una conjunción lógica (operador AND) mientras que el árbol completo es una disyunción de conjunciones (operador OR). Ver el siguiente ejemplo. • Los datos de entrenamiento contienen errores o valores de atributos desconocidos debido a que los árboles son robustos frente a errores.
  • 5. Árboles de decisión Ejemplo de conjunciones y disyunciones para la clase NO SI Ambiente = soleado AND Humedad = alta OR Ambiente = lluvioso AND Viento = Verdadero ENTONCES Jugar = No
  • 6. Árboles de decisión Ventajas • Fáciles de comprender • Pueden trabajar con datos numéricos y nominales • Pueden trabajar con datos multidimensionales • No requieren conocimiento en un dominio dado ni establecer parámetros. Restricciones • Atributos deben ser categóricos • No permiten múltiples atributos de salida • Los árboles construidos basados en datos numéricos pueden ser muy complejos de interpretar.
  • 7. Árboles de decisión Descripción de la tarea de inducción El espacio de hipótesis es el conjunto de árboles de decisión posibles en los datos utilizados para entrenamiento. La tarea de inducción del árbol de decisión consiste en encontrar el árbol que mejor encaje con los datos de ejemplo disponibles que se encuentran clasificados. Importante definir el método de selección de atributos para generar el árbol:
  • 8. Árboles de decisión Descripción de la tarea de inducción El espacio de hipótesis es el conjunto de árboles de decisión posibles en los datos utilizados para entrenamiento. La tarea de inducción del árbol de decisión consiste en encontrar el árbol que mejor encaje con los datos de ejemplo disponibles que se encuentran clasificados. Importante definir el método de selección de atributos para generar el árbol:
  • 9. Árboles de decisión Ejemplo El algoritmo utilizado es del tipo “divide y vencerás”, construido sin retroceder en ningún caso para volver a reconsiderar una decisión tomada en un paso previo. Siempre avanza hacia adelante es denominado método codicioso (greedy en inglés).
  • 10. Árboles de decisión Algoritmo de aprendizaje ID3 Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un método de selección de atributos basado en la teoría de la información. Considera que el atributo cuyo conocimiento provea más información es el más útil. Como previamente se ha comentado un aspecto importante es el método de selección de atributos, que determina el rendimiento del algoritmo. El algoritmo ID3 utiliza la ganancia de información para seleccionar en cada paso según se va generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a su clasificación objetivo.
  • 11. Árboles de decisión Algoritmo de aprendizaje ID3 Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un método de selección de atributos basado en la teoría de la información. Considera que el atributo cuyo conocimiento provea más información es el más útil. Como previamente se ha comentado un aspecto importante es el método de selección de atributos, que determina el rendimiento del algoritmo. El algoritmo ID3 utiliza la ganancia de información para seleccionar en cada paso según se va generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a su clasificación objetivo. No se preocupen, para eso existe Weka.
  • 12. Árboles de decisión Espacio de búsqueda y bias inductivo ID3 realiza una búsqueda en escalada, guiada por la medida de ganancia de información, desde árboles más sencillos a árboles más complejos, buscando aquel que clasifica correctamente los datos de entrenamiento. ID3 se caracteriza por: • Trabaja en un espacio de hipótesis completo • No da marcha atrás • Robusto frente a errores • Dar preferencia a árboles cortos frante a los largos • Los atributos que dan mayor ganancia de información se ubican más cerca a la raíz El bias inductivo de ID3 se puede, por tanto, considerar como una preferencia por árboles cortos frente a largos y se prefieren árboles que sitúan cerca de la raíz a los atributos que aportan mayor ganancia de información.
  • 13. Árboles de decisión Sobreajuste y poda de árboles El sobreajuste se produce cuando existe una hipótesis H del espacio de hipótesis que se ajusta mejor a los datos de entrenamiento que otra hipótesis H’ del espacio de hipótesis pero, sin embargo, H’ se ajusta mejor a todas las instancias (comprendiendo datos de entrenamiento e instancias futuras). • Podar el árbol una vez generado. Se pueden llegar a tener en cuenta combinaciones de atributos antes de realizar la poda. Existen ocasiones en que dos o más atributos combinados aportan bastante información en la clasificación mientras que los atributos por sí solos, no. Pospoda • Limitar el crecimiento del árbol. Tiene la ventaja de que ahorra los costes de procesamiento debidos a generar nodos y ramas que posteriormente serían podados (utilizando un método de pospoda). Prepoda
  • 14. Árboles de decisión Algoritmo de aprendizaje C4.5 El algoritmo C4.5 se puede aplicar tanto a atributos con valores discretos como a atributos con valores continuos. C4.5 puede trabajar con datos ausentes, que no son tenidos en cuenta a la hora de calcular las métricas para seleccionar los atributos. El método de selección de atributos que utiliza C4.5 es la medida de proporción de ganancia. C4.5 realiza una poda tras la generación del árbol (pospoda) con el fin de mejorar la generalización del modelo. Una vez que el árbol ha sido generado, C4.5 elimina aquellos nodos del árbol para los cuales el resultado de podar es una mejora en la precisión en la clasificación.
  • 15. Árboles de decisión ¡Manos a la obra con Weka!
  • 16.
  • 17. Reglas de clasificación y asociación Antecedentes y consecuentes Los árboles de decisión se pueden mapear a estructuras de reglas con la siguiente sintaxis: SI <antecedente> ENTONCES <consecuente> Se pueden presentar múltiples condiciones unidas por operadores lógicos AND (conjunción) y OR (disyunción). No se recomienda mezclar en la misma regla conjunciones y disyunciones. SI <antecedente 1> AND <antecedente 2> AND <antecedente 3> ENTONCES <consecuente 1> <consecuente 2>
  • 18. Reglas de clasificación y asociación Ejemplos SI edad < 25 AND ‘años con licencia de conducción’ < 2 AND ‘número de siniestros previos’ > 0 ENTONCES ‘riesgo de siniestro’ es alto SI edad < 25 AND ‘años con licencia de conducción’ < 2 AND ‘número de siniestros previos’ > 0 ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5 Mientras que las reglas de clasificación predicen la clase, las reglas de asociación predicen valores de atributos, combinaciones de valores de atributos, o la propia clase. El interés de las reglas de asociación es descubrir combinaciones de pares atributo-valor que ocurren con frecuencia en un conjunto de datos.
  • 19. Reglas de clasificación y asociación Ejemplos SI edad < 25 AND ‘años con licencia de conducción’ < 2 AND ‘número de siniestros previos’ > 0 ENTONCES ‘riesgo de siniestro’ es alto SI edad < 25 AND ‘años con licencia de conducción’ < 2 AND ‘número de siniestros previos’ > 0 ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5
  • 20. Reglas de clasificación y asociación Principales medidas para evaluar reglas Confianza: es la probabilidad condicional de que dado un evento A se produzca un evento B. Se puede expresar como el porcentaje de ejemplos que satisfacen el antecedente y consecuente de la regla entre aquellos que satisfacen el consecuente. 𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝐴 𝐵 = 𝑃(𝐵A) Soporte: se refiere al cociente del número de ejemplos que cumplen el antecedente y el consecuente de la regla entre el número total de ejemplos. 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝐴 𝐵 = 𝑃(𝐴)
  • 21. Reglas de clasificación y asociación Ejemplo
  • 22. Reglas de clasificación y asociación Ejemplo A simple vista se pueden inferir las siguientes reglas: Regla 1: SI Ambiente es nublado ENTONCES jugar = si Regla 2: SI Temperatura es baja ENTONCES Humedad es normal Regla 3: SI Temperatura es media ENTONCES humedad es alta
  • 23. Reglas de clasificación y asociación Ejemplo Regla 1 (Clasificación) : ambiente = nublado -> jugar = si Confianza = 4 / 4 = 1 Soporte = 4 / 14 = 0,29 Regla 2 (Asociación) : temperatura = baja - > humedad = normal Confianza = 4 / 4 = 1 Soporte = 4 / 14 = 1 Regla 3 (Asociación) : temperatura = media -> humedad = alta Confianza = ??? Soporte = ???
  • 24. Reglas de clasificación y asociación Ejemplo Regla 1 (Clasificación) : ambiente = nublado -> jugar = si Confianza = 4 / 4 = 1 Soporte = 4 / 14 = 0,29 Regla 2 (Asociación) : temperatura = baja - > humedad = normal Confianza = 4 / 4 = 1 Soporte = 4 / 14 = 0,29 Regla 3 (Asociación) : temperatura = media -> humedad = alta Confianza = 4 / 6 = 0,67 Soporte = 4 / 14 = 0,29
  • 25. Reglas de clasificación y asociación Fases para el aprendizaje de reglas de asociación 1. Encontrar las reglas cuya frecuencia sea superior a un valor de soporte establecido. 2. De las reglas extraídas de la fase 1, seleccionar aquellas cuya confianza es superior a un valor determinado.
  • 26. Reglas de clasificación y asociación Algoritmo Prism para el aprendizaje de reglas de clasificación Este es un algoritmo de descubrimiento secuencial, en cada iteración: 1. Aprenden una regla que cubre algunos ejemplos de una clase C. 2. Eliminan los ejemplos cubiertos. 3. Repiten los anteriores pasos hasta cubrir todos los ejemplos de la clase. La cobertura es otra medida utilizada para evaluar el interés de las reglas y se define como el número de ejemplos que cumplen la regla (antecedente y consecuente).
  • 27. Reglas de clasificación y asociación Algoritmo Apriori para el aprendizaje de reglas de asociación El algoritmo apriori pretende generar ítem-sets que cumplan una cobertura mínima de manera eficiente. Un ítem es un par atributo- valor mientras que un ítem-set es un conjunto de pares atributo-valor. Un k-ítem-set es un conjunto de k pares atributo-valor. La cobertura de un ítem-sets se refiere al número de instancias que cumplen los valores en el ítem-set y va a determinar la cobertura de las reglas generadas a partir de dicho item-set. El algoritmo tiene dos fases: • Fase 1: Generación de ítems-set. • Fase 2: Generación de reglas a partir de los ítems-set generados en la fase 1.
  • 28. Reglas de clasificación y asociación Ejemplo Primera fase, elementos con cobertura mínima = 3 Creamos ítems-set de un elemento: I-S 1 elemento Cobertura Ambiente = soleado 5 Ambiente = nublado 4 Ambiente = lluvioso 5 Temperatura = alta 4 Temperatura = media 6 Temperatura = baja 4 Humedad = alta 7 Humedad = normal 7 Viento = falso 8 Viento = verdadero 6 Jugar = si 9 Jugar = no 5
  • 29. Reglas de clasificación y asociación Ejemplo Se combinan los elementos encontrados en la primera iteración e igualmente se verifica cobertura: I-S 2 elementos Cobertura Ambiente=lluvioso, temperatura=media 3 Ambiente=lluvioso, humedad=normal 3 Ambiente=soleado, humedad=alta 3 Ambiente=lluvioso, viento=falso 3 Ambiente=soleado, viento=falso 3 Ambiente=lluvioso, jugar=si 3 Ambiente=nublado, jugar=si 4 Ambiente=soleado, jugar=no 3 Temperatura=alta, humedad=alta 3 Temperatura=baja, humedad=normal 4 … …
  • 30. Reglas de clasificación y asociación Ejemplo Se combinan los elementos encontrados en la segunda iteración e igualmente se verifica cobertura: I-S 2 elementos Cobertura Ambiente=soleado, humedad=alta, jugar=no 3 Ambiente=lluvioso, viento=falso, jugar=si 3 Temperatura=baja, humedad=normal, jugar=si 3 Humedad=normal, viento=falso, jugar=si 4 No se pueden generar ítems-set de cuatro elementos que cumplan con la cobertura, termina la fase 1.
  • 31. Reglas de clasificación y asociación Ejemplo Continuamos la fase 2, en donde decidimos quedarnos con los elementos que tengan una confianza mínima de 0,9. ahora hacemos combinaciones de cada una de las posibilidades: SI ambiente=soleado ENTONCES humedad=alta AND jugar=no (P=3/5) SI ambiente=soleado AND humedad=alta ENTONCES jugar=no (P=3/3) SI ambiente=soleado AND jugar=no ENTONCES humedad=alta (P=3/3) SI humedad=alta …… (por eso necesitamos a Weka) I-S 2 elementos Cobertura Ambiente=soleado, humedad=alta, jugar=no 3 Ambiente=lluvioso, viento=falso, jugar=si 3 Temperatura=baja, humedad=normal, jugar=si 3 Humedad=normal, viento=falso, jugar=si 4
  • 32. Árboles de decisión ¡Manos a la obra con Weka!