KELA Presentacion Costa Rica 2024 - evento Protégeles
Arboles y reglas
1. TÉCNICAS DE INTELIGENCIA ARTIFICIAL –
ÁRBOLES DE DECISIÓN Y REGLAS
Facilitador:
Ing. Jairo Acosta Solano
Especialista en Finanzas
Máster en Educación y TIC
Máster en Análisis y Visualización de Datos Masivos
Esta foto de Autor desconocido está bajo licencia CC BY-NC-ND
2. Objetivos de la sesión
• Conocer los fundamentos teóricos de la minería de datos.
• Conocer los elementos que intervienen en el aprendizaje de
conceptos.
• Caracterizar los diferentes formatos que tienen las fuentes de datos.
• Desarrollar el proceso de instalación de la herramienta Weka.
3. Árboles de decisión
Representación del conocimiento mediante árboles
El aprendizaje de árboles de decisión es una de las técnicas más utilizadas para el
aprendizaje inductivo, siendo un método bastante robusto frente a datos ruidosos.
Las entradas y salidas de la función objetivo suelen ser valores discretos, aunque
también podrían ser continuos en el caso de las entradas. La representación de
esta función objetivo toma forma de árbol y es interpretada como una serie de
condiciones consecutivas que puede ser fácilmente mapeada a reglas.
4. Árboles de decisión
¿Cuándo es adecuado utilizarlos?
• Cuando las instancias se pueden representar como un grupo de
atributos. Los valores de los atributos pueden ser nominales o
numéricos a los que se les puede aplicar su respectivo algoritmo de
aprendizaje.
• Los valores de salida (clase) tienen, o se pueden convertir a, valores
discretos.
• Los datos deben tener descripciones disyuntas, cada rama desde la
raíz a la hoja, representa una conjunción lógica (operador AND)
mientras que el árbol completo es una disyunción de conjunciones
(operador OR). Ver el siguiente ejemplo.
• Los datos de entrenamiento contienen errores o valores de atributos
desconocidos debido a que los árboles son robustos frente a errores.
5. Árboles de decisión
Ejemplo de conjunciones y disyunciones para la clase NO
SI Ambiente = soleado AND Humedad = alta
OR Ambiente = lluvioso AND Viento = Verdadero
ENTONCES Jugar = No
6. Árboles de decisión
Ventajas
• Fáciles de comprender
• Pueden trabajar con datos numéricos y nominales
• Pueden trabajar con datos multidimensionales
• No requieren conocimiento en un dominio dado ni establecer
parámetros.
Restricciones
• Atributos deben ser categóricos
• No permiten múltiples atributos de salida
• Los árboles construidos basados en datos numéricos pueden ser muy
complejos de interpretar.
7. Árboles de decisión
Descripción de la tarea de inducción
El espacio de hipótesis es el conjunto de árboles de decisión posibles en los
datos utilizados para entrenamiento. La tarea de inducción del árbol de
decisión consiste en encontrar el árbol que mejor encaje con los datos de
ejemplo disponibles que se encuentran clasificados.
Importante definir el método de selección de atributos para generar el árbol:
8. Árboles de decisión
Descripción de la tarea de inducción
El espacio de hipótesis es el conjunto de árboles de decisión posibles en los
datos utilizados para entrenamiento. La tarea de inducción del árbol de
decisión consiste en encontrar el árbol que mejor encaje con los datos de
ejemplo disponibles que se encuentran clasificados.
Importante definir el método de selección de atributos para generar el árbol:
9. Árboles de decisión
Ejemplo
El algoritmo utilizado es del tipo “divide y
vencerás”, construido sin retroceder en
ningún caso para volver a reconsiderar una
decisión tomada en un paso previo.
Siempre avanza hacia adelante es
denominado método codicioso (greedy en
inglés).
10. Árboles de decisión
Algoritmo de aprendizaje ID3
Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un
método de selección de atributos basado en la teoría de la información. Considera
que el atributo cuyo conocimiento provea más información es el más útil.
Como previamente se ha comentado un aspecto importante es el método de
selección de atributos, que determina el rendimiento del algoritmo. El algoritmo
ID3 utiliza la ganancia de información para seleccionar en cada paso según se va
generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a
su clasificación objetivo.
11. Árboles de decisión
Algoritmo de aprendizaje ID3
Este algoritmo construye árboles top-down (arriba-abajo) haciendo uso de un
método de selección de atributos basado en la teoría de la información. Considera
que el atributo cuyo conocimiento provea más información es el más útil.
Como previamente se ha comentado un aspecto importante es el método de
selección de atributos, que determina el rendimiento del algoritmo. El algoritmo
ID3 utiliza la ganancia de información para seleccionar en cada paso según se va
generando el árbol aquel atributo que mejor distribuye los ejemplos de acuerdo a
su clasificación objetivo.
No se preocupen,
para eso existe Weka.
12. Árboles de decisión
Espacio de búsqueda y bias inductivo
ID3 realiza una búsqueda en escalada, guiada por la medida de ganancia de
información, desde árboles más sencillos a árboles más complejos, buscando
aquel que clasifica correctamente los datos de entrenamiento.
ID3 se caracteriza por:
• Trabaja en un espacio de hipótesis completo
• No da marcha atrás
• Robusto frente a errores
• Dar preferencia a árboles cortos frante a los largos
• Los atributos que dan mayor ganancia de información se ubican más cerca a
la raíz
El bias inductivo de ID3 se puede, por tanto, considerar como una preferencia
por árboles cortos frente a largos y se prefieren árboles que sitúan cerca de la
raíz a los atributos que aportan mayor ganancia de información.
13. Árboles de decisión
Sobreajuste y poda de árboles
El sobreajuste se produce cuando existe una hipótesis H del espacio de
hipótesis que se ajusta mejor a los datos de entrenamiento que otra
hipótesis H’ del espacio de hipótesis pero, sin embargo, H’ se ajusta
mejor a todas las instancias (comprendiendo datos de entrenamiento e
instancias futuras).
• Podar el árbol una vez generado.
Se pueden llegar a tener en
cuenta combinaciones de
atributos antes de realizar la
poda. Existen ocasiones en que
dos o más atributos combinados
aportan bastante información
en la clasificación mientras que
los atributos por sí solos, no.
Pospoda
• Limitar el crecimiento del árbol.
Tiene la ventaja de que ahorra
los costes de procesamiento
debidos a generar nodos y
ramas que posteriormente
serían podados (utilizando un
método de pospoda).
Prepoda
14. Árboles de decisión
Algoritmo de aprendizaje C4.5
El algoritmo C4.5 se puede aplicar tanto a atributos con valores
discretos como a atributos con valores continuos. C4.5 puede trabajar
con datos ausentes, que no son tenidos en cuenta a la hora de calcular
las métricas para seleccionar los atributos. El método de selección de
atributos que utiliza C4.5 es la medida de proporción de ganancia.
C4.5 realiza una poda tras la generación del árbol (pospoda) con el fin
de mejorar la generalización del modelo. Una vez que el árbol ha sido
generado, C4.5 elimina aquellos nodos del árbol para los cuales el
resultado de podar es una mejora en la precisión en la clasificación.
17. Reglas de clasificación y asociación
Antecedentes y consecuentes
Los árboles de decisión se pueden mapear a estructuras de reglas con la
siguiente sintaxis:
SI <antecedente> ENTONCES <consecuente>
Se pueden presentar múltiples condiciones unidas por operadores lógicos
AND (conjunción) y OR (disyunción). No se recomienda mezclar en la misma
regla conjunciones y disyunciones.
SI <antecedente 1> AND <antecedente 2> AND
<antecedente 3>
ENTONCES <consecuente 1> <consecuente 2>
18. Reglas de clasificación y asociación
Ejemplos
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ es alto
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5
Mientras que las reglas de clasificación predicen la clase, las reglas de asociación
predicen valores de atributos, combinaciones de valores de atributos, o la propia
clase. El interés de las reglas de asociación es descubrir combinaciones de pares
atributo-valor que ocurren con frecuencia en un conjunto de datos.
19. Reglas de clasificación y asociación
Ejemplos
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ es alto
SI edad < 25
AND ‘años con licencia de conducción’ < 2
AND ‘número de siniestros previos’ > 0
ENTONCES ‘riesgo de siniestro’ = ‘edad’ * 1,5
20. Reglas de clasificación y asociación
Principales medidas para evaluar reglas
Confianza: es la probabilidad condicional de que dado un evento A se
produzca un evento B. Se puede expresar como el porcentaje de
ejemplos que satisfacen el antecedente y consecuente de la regla
entre aquellos que satisfacen el consecuente.
𝐶𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 𝐴 𝐵 = 𝑃(𝐵A)
Soporte: se refiere al cociente del número de ejemplos que cumplen el
antecedente y el consecuente de la regla entre el número total de
ejemplos.
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝐴 𝐵 = 𝑃(𝐴)
22. Reglas de clasificación y asociación
Ejemplo
A simple vista se pueden inferir las
siguientes reglas:
Regla 1:
SI Ambiente es nublado
ENTONCES jugar = si
Regla 2:
SI Temperatura es baja
ENTONCES Humedad es normal
Regla 3:
SI Temperatura es media
ENTONCES humedad es alta
23. Reglas de clasificación y asociación
Ejemplo
Regla 1 (Clasificación) : ambiente =
nublado -> jugar = si
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 0,29
Regla 2 (Asociación) : temperatura = baja -
> humedad = normal
Confianza = 4 / 4 = 1
Soporte = 4 / 14 = 1
Regla 3 (Asociación) : temperatura = media
-> humedad = alta
Confianza = ???
Soporte = ???
25. Reglas de clasificación y asociación
Fases para el aprendizaje de reglas de asociación
1. Encontrar las reglas cuya frecuencia sea superior a un valor de
soporte establecido.
2. De las reglas extraídas de la fase 1, seleccionar aquellas cuya
confianza es superior a un valor determinado.
26. Reglas de clasificación y asociación
Algoritmo Prism para el aprendizaje de reglas de clasificación
Este es un algoritmo de descubrimiento secuencial, en cada iteración:
1. Aprenden una regla que cubre algunos ejemplos de una clase C.
2. Eliminan los ejemplos cubiertos.
3. Repiten los anteriores pasos hasta cubrir todos los ejemplos de la
clase.
La cobertura es otra medida utilizada para evaluar el interés de las
reglas y se define como el número de ejemplos que cumplen la regla
(antecedente y consecuente).
27. Reglas de clasificación y asociación
Algoritmo Apriori para el aprendizaje de reglas de asociación
El algoritmo apriori pretende generar ítem-sets que cumplan una
cobertura mínima de manera eficiente. Un ítem es un par atributo-
valor mientras que un ítem-set es un conjunto de pares atributo-valor.
Un k-ítem-set es un conjunto de k pares atributo-valor. La cobertura de
un ítem-sets se refiere al número de instancias que cumplen los
valores en el ítem-set y va a determinar la cobertura de las reglas
generadas a partir de dicho item-set.
El algoritmo tiene dos fases:
• Fase 1: Generación de ítems-set.
• Fase 2: Generación de reglas a partir de los ítems-set generados en la
fase 1.
28. Reglas de clasificación y asociación
Ejemplo
Primera fase, elementos con
cobertura mínima = 3
Creamos ítems-set de un elemento:
I-S 1 elemento Cobertura
Ambiente = soleado 5
Ambiente = nublado 4
Ambiente = lluvioso 5
Temperatura = alta 4
Temperatura = media 6
Temperatura = baja 4
Humedad = alta 7
Humedad = normal 7
Viento = falso 8
Viento = verdadero 6
Jugar = si 9
Jugar = no 5
29. Reglas de clasificación y asociación
Ejemplo
Se combinan los elementos encontrados en la primera iteración e igualmente se verifica cobertura:
I-S 2 elementos Cobertura
Ambiente=lluvioso, temperatura=media 3
Ambiente=lluvioso, humedad=normal 3
Ambiente=soleado, humedad=alta 3
Ambiente=lluvioso, viento=falso 3
Ambiente=soleado, viento=falso 3
Ambiente=lluvioso, jugar=si 3
Ambiente=nublado, jugar=si 4
Ambiente=soleado, jugar=no 3
Temperatura=alta, humedad=alta 3
Temperatura=baja, humedad=normal 4
… …
30. Reglas de clasificación y asociación
Ejemplo
Se combinan los elementos encontrados en la segunda iteración e igualmente se verifica cobertura:
I-S 2 elementos Cobertura
Ambiente=soleado, humedad=alta,
jugar=no
3
Ambiente=lluvioso, viento=falso, jugar=si 3
Temperatura=baja, humedad=normal,
jugar=si
3
Humedad=normal, viento=falso, jugar=si 4
No se pueden generar ítems-set de
cuatro elementos que cumplan con la
cobertura, termina la fase 1.
31. Reglas de clasificación y asociación
Ejemplo
Continuamos la fase 2, en donde decidimos
quedarnos con los elementos que tengan una
confianza mínima de 0,9. ahora hacemos
combinaciones de cada una de las
posibilidades:
SI ambiente=soleado
ENTONCES humedad=alta AND jugar=no
(P=3/5)
SI ambiente=soleado AND humedad=alta
ENTONCES jugar=no (P=3/3)
SI ambiente=soleado AND jugar=no
ENTONCES humedad=alta (P=3/3)
SI humedad=alta …… (por eso necesitamos a
Weka)
I-S 2 elementos Cobertura
Ambiente=soleado, humedad=alta,
jugar=no
3
Ambiente=lluvioso, viento=falso, jugar=si 3
Temperatura=baja, humedad=normal,
jugar=si
3
Humedad=normal, viento=falso, jugar=si 4