SlideShare a Scribd company logo
1 of 29
Download to read offline
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• Introducción – ¿qué es la ciencia de datos?
• Perfiles de un científico de datos – roles, skills-set
• El proceso del Data Science
• La importancia de la calidad de los datos
• Herramientas para adquisición, procesamiento y
visualización de datos
• Herramientas para web scraping, dataviz e integración
• El contexto actual de la Ciencia de Datos
• ¿Cómo prepararnos en Ciencia de Datos?
Agenda
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning
¿Qué es la Ciencia de Datos?
De forma reciente el término de ciencia de datos se ha vuelto muy trendy
y despierta el interés por conocer de estos temas.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
.
¿Qué es la Ciencia de Datos?
La ciencia de datos se trata de procesar datos! Data science is about data!
La ciencia de datos es un campo multidisciplinario enfocado en extraer información
para ayudar a una organización a tomar mejores decisiones.
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
La ciencia de datos (data-science), el aprendizaje artificial o inteligente
(ML - machine learning) y la minería de datos (data mining) son términos
que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018),
Se puede simplificar la definición de estos conceptos (Robinson, 2018):
• la ciencia de datos nos brinda el entendimiento (insights),
• el aprendizaje automático produce predicciones y
• la inteligencia artificial produce acciones
La ciencia de datos se distingue porque su objetivo es
especialmente humano (obtener información y comprensión de lo que
significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad.
Entra en escena un profesional, el científico de datos (data scientist), quien hará la
interpretación de los hallazgos para obtener las conclusiones.
¿Qué es la Ciencia de Datos?
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Introducción
Con la analogía de
los LEGOs se puede
interpretar muy bien
las tareas que se
realizan en la Ciencia
de Datos.
https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Perfil de un científico de datos
Entonces un profesional del área debe
tener una cierta preparación para
llevar a cabo las actividades propias del
proceso del data science
La ciencia de datos se trata de procesar datos! Data science is about data!
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Los conocimientos y habilidades de un científico
de datos (skills) comprenden diversas áreas
Perfil de un científico de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Se puede conformar un equipo de trabajo con
la integración de varios profesionales del Data
Science con diferentes niveles de especialización
• Data Business Person
• Data Creative
• Data Developer
• Data Researcher
• Data Enginner
Perfil de un científico de datos
El proceso del Data Science
El proceso del Data Science
El proceso del Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392
Proceso del DS: diversidad de tipos y fuentes de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
• incompletos:
carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos
agregados Ejem: ocupación=“”
• ruidosos (noisy):
contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y
tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma
libre), etc
Ejem., salario = “-10.00”
• inconsistentes:
contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo,
tienen abreviaturas, truncamiento e iniciales)
Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997”
rating “1,2,3”, rating “A, B, C”
Los Datos en el mundo real están sucios (dirty-data)*
* Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004))
Proceso del DS: importancia de la calidad de los datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values
Proceso del DS: Tareas de limpieza de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso de DS: Adquisisición e integración de datos
https://datafloq.com/read/what-is-etl/6948
ETL - ELT: Procesos de adquisición, transformación y carga de datos
Con el Big Data ha cambiado significativamente el orden de
los procesos.
Ahora se transforman "sobre la marcha" cuando lo necesitan los
científicos de datos.
Incluso se pueden combinar para sacar las ventajas de ambos
métodos. ELT para ingestas rápidas de datos no estructurados y ETL
para flexibilidad y seguridad.
A este enfoque se le conoce como:
ETLT (Extract, Transform, Load, Transform).
https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS : La fase de adquisición de datos
Los datos pueden venir de diferentes fuentes (internas, externas )
Y puede ser que seamos los propietarios o que tengamos que
“adquirirlos” de alguna manera, mediante acceso vía:
• Bases de datos estructuradas
• Web scraping
• APIs (Interfaces definidas para intercambio estructurado de datos)
Énfasis en la etapa de recuperación / adquisición / recolección de Datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Adquisición de datos con Web scraping
https://www.edureka.co/blog/web-scraping-with-python/
Para extraer datos usando web scraping
solo necesitamos seguir los siguientes pasos:
1. Localizar la URL que queremos escrapear
2. Analizar el código de la página
3. Identificar los datos de interés dentro del código de
la página
4. Escribir un programa que separe los datos del
código de la página
5. Ejecutar el código y extraer los datos
6. Almacenar los datos en el formato apropiado
7. Repetir el proceso por cada URL o fuente de datos
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Ejemplo de scraping de los libros Best-Sellers en Amazon
-- extracción de dataset de libros más vendidos
Proceso del DS: Adquisición de datos con Web scraping
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Proceso del DS: Librerías para hacer Web scraping
https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html
https://oak-tree.tech/blog/python-web-scraping-selenium
Con Python se tienen varias posibilidades para
levar a cabo proyectos de Web scraping
• Request
• BeautifulSoup
• Selenium (RPA*)
• Pandas
• Scrapy
*RPA – Robotic Process Automation
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer Web scraping
También existen una gran variedad
de Plataformas y Herramientas
comerciales para realizar tareas de
scraping
• ScrapeHero.com
• Simplescraper.io
• parsehub.com
• webscraper.io
• webhose.io
• scraperAPI.com
• APIfy.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
El DataViz
El principal objetivo de la visualización de datos
es facilitar el acceso a grandes para analizar y
comprender grandes volúmenes de datos.
Gracias a la información recopilada, analizada y
visualizada, es posible identificar tendencias,
comparaciones y recomendaciones.
Tableau es una plataforma de análisis visual que
transforma la forma en que usamos los datos
para resolver problemas, lo que permite que las
personas y las organizaciones aprovechen al
máximo sus datos para la toma de decisiones.
• tableau.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para hacer DataViz
PowerBI es la plataforma de Microsoft líder en el
segmento de plataformas de análisis y business
intelligence.
Permite encontrar rápidamente valiosa
información con una alta integración de la
tecnología Microsoft en sus datos para ayudar a
tomar mejores decisiones empresariales.
• PowerBI.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Herramientas para Ciencia de Datos – End to End
KNIME
Plataforma integradora,
especializada para crear y
producir ciencia de datos
utilizando un entorno fácil
e intuitivo, permitiendo
que todas las partes
interesadas en el proceso
de ciencia de datos se
concentren en lo que
mejor hacen…
• Knime.com
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Contexto actual de la Ciencia de Datos
¿Quiénes están aplicando el DS en el mundo? en México?
¿cómo es el mercado laboral? existe demanda por
profesionales de estas áreas?
La cultura del Data Driven – Empresas Data Driven
¿Dónde buscar información?
• StackOverflow 2021 Developer Survey
• Robert Half - Technology Salary Guide
• empleosti.com.mx
• Indeed.com
• Linked-In
Empleos y demanda de empleos para DS
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Para conocer más sobre Ciencia de Datos
También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en
estas áreas son los foros de discusión, blogs y portales especializados.
A continuación, una breve lista de sitios recomendados:
• Towards Data Science https://towardsdatascience.com/
• Kaggle https://www.kaggle.com/
• Hackernoon.com https://hackernoon.com/
• Medium https://medium.com/
• Open Data Science https://odsc.com/
• Data Science Central https://www.datasciencecentral.com/
• Harvard Data Science Review https://hdsr.mitpress.mit.edu/
Finalmente, algunos perfiles interesantes para seguir también en twitter son:
• @IDC - IDC.com
• @kaggle - Kaggle.com
• @kdnuggets - KDNuggets
• @DataScienceCtrl - DataScience Central
• @TDataScience - Towards Data Science
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
• Gran oferta de especialidades, cursos, diplomados, bootcamps en DS
• ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas.
• Costos, modalidad, duración
• ¿Qué perfil tendrá el egresado?
• Data Businessperson
• Data Creative
• Data Developer
• Data Researcher
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Donde aprender y especialirme en Ciencia de Datos
¿Qué ofertas hay disponibles para aprender DS?
Facultad de Telemática
• Maestría en Tecnologías de Internet
área de cómputo cognitivo
Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
Preguntas - comentarios
Muchas gracias!
J. Román Herrera Morales
Email: rherrera@ucol.mx

More Related Content

What's hot

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosPlain Concepts
 
Introducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big DataIntroducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big DataDavid Hurtado
 
Inteligencia de Negocios presentacion
Inteligencia de Negocios presentacionInteligencia de Negocios presentacion
Inteligencia de Negocios presentacionClinica Internacional
 
Creación de un modelo pls sem con smart pls y análsiis de resultados
Creación de un modelo pls sem con smart pls y análsiis de resultadosCreación de un modelo pls sem con smart pls y análsiis de resultados
Creación de un modelo pls sem con smart pls y análsiis de resultadosVasilica Maria Margalina
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5siusma
 
Introduction to-data-science
Introduction to-data-scienceIntroduction to-data-science
Introduction to-data-scienceAhmad karawash
 
Data Mining in Marketing
Data Mining in MarketingData Mining in Marketing
Data Mining in MarketingShweta Metar
 
Use of Big Data Analytics in Advertising
Use of Big Data Analytics in AdvertisingUse of Big Data Analytics in Advertising
Use of Big Data Analytics in AdvertisingSandesh Patkar
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosCelestino Güemes Seoane
 
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...Edureka!
 
Data foundation for analytics excellence
Data foundation for analytics excellenceData foundation for analytics excellence
Data foundation for analytics excellenceMudit Mangal
 

What's hot (20)

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntos
 
Big Data
Big DataBig Data
Big Data
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Introducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big DataIntroducción al Business Intelligence y al Big Data
Introducción al Business Intelligence y al Big Data
 
Inteligencia de Negocios presentacion
Inteligencia de Negocios presentacionInteligencia de Negocios presentacion
Inteligencia de Negocios presentacion
 
Calidad de datos
Calidad de datosCalidad de datos
Calidad de datos
 
Creación de un modelo pls sem con smart pls y análsiis de resultados
Creación de un modelo pls sem con smart pls y análsiis de resultadosCreación de un modelo pls sem con smart pls y análsiis de resultados
Creación de un modelo pls sem con smart pls y análsiis de resultados
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Presentacion de BI asignacion 5
Presentacion de BI asignacion 5Presentacion de BI asignacion 5
Presentacion de BI asignacion 5
 
Big Data
Big DataBig Data
Big Data
 
Introduction to-data-science
Introduction to-data-scienceIntroduction to-data-science
Introduction to-data-science
 
Presentacion big data
Presentacion big dataPresentacion big data
Presentacion big data
 
Data Mining in Marketing
Data Mining in MarketingData Mining in Marketing
Data Mining in Marketing
 
Use of Big Data Analytics in Advertising
Use of Big Data Analytics in AdvertisingUse of Big Data Analytics in Advertising
Use of Big Data Analytics in Advertising
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...
Big Data Analytics Tutorial | Big Data Analytics for Beginners | Hadoop Tutor...
 
Data foundation for analytics excellence
Data foundation for analytics excellenceData foundation for analytics excellence
Data foundation for analytics excellence
 
Big data
Big dataBig data
Big data
 
Inteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business IntelligenceInteligencia de negocios - Business Intelligence
Inteligencia de negocios - Business Intelligence
 

Similar to Herramientas y recursos tecnológicos para el Data Science

Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 
Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Roman Herrera
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012Dangel DC
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_IIMarcelo Herrera
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiChars Orden
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiYoly QC
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiWilliam Lozano
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiMary Tenelema
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiPaúl Cacuango
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDyego de Alvaro
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiInés Rosero
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiLiliana Charco
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDoris Aguagallo
 

Similar to Herramientas y recursos tecnológicos para el Data Science (20)

Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Data Science learning roadmaps 2021
Data Science learning roadmaps 2021Data Science learning roadmaps 2021
Data Science learning roadmaps 2021
 
Rc ricardo prado
Rc ricardo pradoRc ricardo prado
Rc ricardo prado
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
06 Periodismo Digital - arquitectura de informacion
06  Periodismo Digital - arquitectura de informacion06  Periodismo Digital - arquitectura de informacion
06 Periodismo Digital - arquitectura de informacion
 
Chiclayo 2012
Chiclayo 2012Chiclayo 2012
Chiclayo 2012
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_II
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
silabo
silabosilabo
silabo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 

Recently uploaded

Problemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptxProblemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptxJuarezGarciaOsvaldoJ
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024OBSERVATORIOREGIONAL
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...JC Díaz Herrera
 
Las familias más ricas de país de América Latina y su fortuna (2024).pdf
Las familias más ricas de país de América Latina y su fortuna  (2024).pdfLas familias más ricas de país de América Latina y su fortuna  (2024).pdf
Las familias más ricas de país de América Latina y su fortuna (2024).pdfJC Díaz Herrera
 
La planificación de recursos empresariales- ERP
La planificación de recursos empresariales- ERPLa planificación de recursos empresariales- ERP
La planificación de recursos empresariales- ERPmalenaha22
 
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...LiaConstanzaLujanGom
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptxcamilasto28
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
Informacion detallada de La iniciativa legislativa.pptx
Informacion detallada de La iniciativa legislativa.pptxInformacion detallada de La iniciativa legislativa.pptx
Informacion detallada de La iniciativa legislativa.pptxCarolina Valencia
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfnicolas24233
 
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdfantonio206446
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀LALVAREZD
 
Desarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdfDesarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdfVictorReyna25
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docxquispeloco65
 
Mapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosMapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosrojasluisana203
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024OBSERVATORIOREGIONAL
 

Recently uploaded (18)

Problemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptxProblemas de programación lineal entera.pptx
Problemas de programación lineal entera.pptx
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
Las familias más ricas de país de América Latina y su fortuna (2024).pdf
Las familias más ricas de país de América Latina y su fortuna  (2024).pdfLas familias más ricas de país de América Latina y su fortuna  (2024).pdf
Las familias más ricas de país de América Latina y su fortuna (2024).pdf
 
La planificación de recursos empresariales- ERP
La planificación de recursos empresariales- ERPLa planificación de recursos empresariales- ERP
La planificación de recursos empresariales- ERP
 
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
Pineda - Metodologia de la investigacion manual para el desarrollo de persona...
 
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
2. POLITICAS Y LEGISLACION EDUCATIVA.pptx
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Informacion detallada de La iniciativa legislativa.pptx
Informacion detallada de La iniciativa legislativa.pptxInformacion detallada de La iniciativa legislativa.pptx
Informacion detallada de La iniciativa legislativa.pptx
 
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdfProyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
Proyectos de investigacion en ciencias sociales 6to - maipue (2).pdf
 
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
Desarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdfDesarrollo de Software con NetBeans 7 1.pdf
Desarrollo de Software con NetBeans 7 1.pdf
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 
Mapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costosMapa concepto sobre la contabilidad de costos
Mapa concepto sobre la contabilidad de costos
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024Reporte de incidencia delictiva de Romita marzo 2024
Reporte de incidencia delictiva de Romita marzo 2024
 

Herramientas y recursos tecnológicos para el Data Science

  • 1. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021
  • 2. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • Introducción – ¿qué es la ciencia de datos? • Perfiles de un científico de datos – roles, skills-set • El proceso del Data Science • La importancia de la calidad de los datos • Herramientas para adquisición, procesamiento y visualización de datos • Herramientas para web scraping, dataviz e integración • El contexto actual de la Ciencia de Datos • ¿Cómo prepararnos en Ciencia de Datos? Agenda
  • 3. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción GoogleTrends (2021). https://trends.google.co.in/trends/explore?date=all&q=Data%20Science,Machine%20Learning,Data%20Visualization,Artificial%20Intelligence,Deep%20Learning ¿Qué es la Ciencia de Datos? De forma reciente el término de ciencia de datos se ha vuelto muy trendy y despierta el interés por conocer de estos temas.
  • 4. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción . ¿Qué es la Ciencia de Datos? La ciencia de datos se trata de procesar datos! Data science is about data! La ciencia de datos es un campo multidisciplinario enfocado en extraer información para ayudar a una organización a tomar mejores decisiones.
  • 5. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción La ciencia de datos (data-science), el aprendizaje artificial o inteligente (ML - machine learning) y la minería de datos (data mining) son términos que comúnmente se utilizan de forma indistinta (Kelleher y Tierney, 2018), Se puede simplificar la definición de estos conceptos (Robinson, 2018): • la ciencia de datos nos brinda el entendimiento (insights), • el aprendizaje automático produce predicciones y • la inteligencia artificial produce acciones La ciencia de datos se distingue porque su objetivo es especialmente humano (obtener información y comprensión de lo que significa) y puede darse de forma descriptiva, exploratoria o a nivel de causalidad. Entra en escena un profesional, el científico de datos (data scientist), quien hará la interpretación de los hallazgos para obtener las conclusiones. ¿Qué es la Ciencia de Datos?
  • 6. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Introducción Con la analogía de los LEGOs se puede interpretar muy bien las tareas que se realizan en la Ciencia de Datos. https://web.stanford.edu/group/sdgc/cgi-bin/ycisl/?p=4927
  • 7. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Perfil de un científico de datos Entonces un profesional del área debe tener una cierta preparación para llevar a cabo las actividades propias del proceso del data science La ciencia de datos se trata de procesar datos! Data science is about data!
  • 8. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Los conocimientos y habilidades de un científico de datos (skills) comprenden diversas áreas Perfil de un científico de datos
  • 9. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Se puede conformar un equipo de trabajo con la integración de varios profesionales del Data Science con diferentes niveles de especialización • Data Business Person • Data Creative • Data Developer • Data Researcher • Data Enginner Perfil de un científico de datos
  • 10. El proceso del Data Science
  • 11. El proceso del Data Science
  • 12. El proceso del Data Science
  • 13. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Data Wrangling. https://es.slideshare.net/gramener/data-wrangling-67544392 Proceso del DS: diversidad de tipos y fuentes de datos
  • 14. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 • incompletos: carecen de valores de atributos, carecen de ciertos atributos de interés o solo contienen datos agregados Ejem: ocupación=“” • ruidosos (noisy): contienen valores atípicos (outliers), fuera de rango ó con errores (errores ortográficos, fonéticos y tipográficos, transposiciones de palabras, varios valores en un solo campo concatenados de forma libre), etc Ejem., salario = “-10.00” • inconsistentes: contienen discrepancias en códigos o nombres (sinónimos y apodos, variaciones de prefijo y sufijo, tienen abreviaturas, truncamiento e iniciales) Ejemplos: Edad=“42” FechaNacimiento=“03/07/1997” rating “1,2,3”, rating “A, B, C” Los Datos en el mundo real están sucios (dirty-data)* * Helena Galhardas. DEI IST. (based on the slides: “A Survey of Data Quality Issues in Cooperative Information Systems”, Carlo Batini, Tiziana Catarci, Monica Scannapieco, 23rd International Conference on Conceptual Modelling (ER 2004)) Proceso del DS: importancia de la calidad de los datos
  • 15. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Rachael Tatman (2017) 5-Day Data Challenge in Kaggle! https://www.kaggle.com/rtatman/data-cleaning-challenge-handling-missing-values Proceso del DS: Tareas de limpieza de datos
  • 16. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso de DS: Adquisisición e integración de datos https://datafloq.com/read/what-is-etl/6948 ETL - ELT: Procesos de adquisición, transformación y carga de datos Con el Big Data ha cambiado significativamente el orden de los procesos. Ahora se transforman "sobre la marcha" cuando lo necesitan los científicos de datos. Incluso se pueden combinar para sacar las ventajas de ambos métodos. ELT para ingestas rápidas de datos no estructurados y ETL para flexibilidad y seguridad. A este enfoque se le conoce como: ETLT (Extract, Transform, Load, Transform). https://www.astera.com/es/type/blog/etl-vs-elt-whats-the-difference/
  • 17. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS : La fase de adquisición de datos Los datos pueden venir de diferentes fuentes (internas, externas ) Y puede ser que seamos los propietarios o que tengamos que “adquirirlos” de alguna manera, mediante acceso vía: • Bases de datos estructuradas • Web scraping • APIs (Interfaces definidas para intercambio estructurado de datos) Énfasis en la etapa de recuperación / adquisición / recolección de Datos
  • 18. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Adquisición de datos con Web scraping https://www.edureka.co/blog/web-scraping-with-python/ Para extraer datos usando web scraping solo necesitamos seguir los siguientes pasos: 1. Localizar la URL que queremos escrapear 2. Analizar el código de la página 3. Identificar los datos de interés dentro del código de la página 4. Escribir un programa que separe los datos del código de la página 5. Ejecutar el código y extraer los datos 6. Almacenar los datos en el formato apropiado 7. Repetir el proceso por cada URL o fuente de datos
  • 19. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Ejemplo de scraping de los libros Best-Sellers en Amazon -- extracción de dataset de libros más vendidos Proceso del DS: Adquisición de datos con Web scraping
  • 20. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Proceso del DS: Librerías para hacer Web scraping https://pythonbasics.org/pandas-web-scraping https://doc.scrapy.org/en/latest/intro/tutorial.html https://oak-tree.tech/blog/python-web-scraping-selenium Con Python se tienen varias posibilidades para levar a cabo proyectos de Web scraping • Request • BeautifulSoup • Selenium (RPA*) • Pandas • Scrapy *RPA – Robotic Process Automation
  • 21. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer Web scraping También existen una gran variedad de Plataformas y Herramientas comerciales para realizar tareas de scraping • ScrapeHero.com • Simplescraper.io • parsehub.com • webscraper.io • webhose.io • scraperAPI.com • APIfy.com
  • 22. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz El DataViz El principal objetivo de la visualización de datos es facilitar el acceso a grandes para analizar y comprender grandes volúmenes de datos. Gracias a la información recopilada, analizada y visualizada, es posible identificar tendencias, comparaciones y recomendaciones. Tableau es una plataforma de análisis visual que transforma la forma en que usamos los datos para resolver problemas, lo que permite que las personas y las organizaciones aprovechen al máximo sus datos para la toma de decisiones. • tableau.com
  • 23. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para hacer DataViz PowerBI es la plataforma de Microsoft líder en el segmento de plataformas de análisis y business intelligence. Permite encontrar rápidamente valiosa información con una alta integración de la tecnología Microsoft en sus datos para ayudar a tomar mejores decisiones empresariales. • PowerBI.com
  • 24. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Herramientas para Ciencia de Datos – End to End KNIME Plataforma integradora, especializada para crear y producir ciencia de datos utilizando un entorno fácil e intuitivo, permitiendo que todas las partes interesadas en el proceso de ciencia de datos se concentren en lo que mejor hacen… • Knime.com
  • 25. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Contexto actual de la Ciencia de Datos ¿Quiénes están aplicando el DS en el mundo? en México? ¿cómo es el mercado laboral? existe demanda por profesionales de estas áreas? La cultura del Data Driven – Empresas Data Driven ¿Dónde buscar información? • StackOverflow 2021 Developer Survey • Robert Half - Technology Salary Guide • empleosti.com.mx • Indeed.com • Linked-In Empleos y demanda de empleos para DS
  • 26. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Para conocer más sobre Ciencia de Datos También, una gran opción para aprender y mantenerse al tanto de los nuevos avances en estas áreas son los foros de discusión, blogs y portales especializados. A continuación, una breve lista de sitios recomendados: • Towards Data Science https://towardsdatascience.com/ • Kaggle https://www.kaggle.com/ • Hackernoon.com https://hackernoon.com/ • Medium https://medium.com/ • Open Data Science https://odsc.com/ • Data Science Central https://www.datasciencecentral.com/ • Harvard Data Science Review https://hdsr.mitpress.mit.edu/ Finalmente, algunos perfiles interesantes para seguir también en twitter son: • @IDC - IDC.com • @kaggle - Kaggle.com • @kdnuggets - KDNuggets • @DataScienceCtrl - DataScience Central • @TDataScience - Towards Data Science
  • 27. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? • Gran oferta de especialidades, cursos, diplomados, bootcamps en DS • ¿Quiénes ofertan?: universidades, institutos, empresas tecnológicas, alianzas. • Costos, modalidad, duración • ¿Qué perfil tendrá el egresado? • Data Businessperson • Data Creative • Data Developer • Data Researcher
  • 28. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Donde aprender y especialirme en Ciencia de Datos ¿Qué ofertas hay disponibles para aprender DS? Facultad de Telemática • Maestría en Tecnologías de Internet área de cómputo cognitivo
  • 29. Herramientas y recursos tecnológicos para el Data Science - Facultad de Telemática – Universidadde Colima - Román Herrera - rherrera@ucol.mx - Octubre 2021 Preguntas - comentarios Muchas gracias! J. Román Herrera Morales Email: rherrera@ucol.mx