Este documento describe el Big Data, incluyendo su definición, el gran volumen de datos digitales disponibles, y los desafíos y oportunidades que presenta. Explica que el Big Data no se trata solo de la cantidad de datos, sino de lo que las organizaciones hacen con ellos para obtener conocimiento e información valiosa. También discute brevemente el impacto del Big Data en áreas como la salud, las redes sociales, la industria y la economía.
2. Qué es Big Data
Preguntas alrededor de Big Data3.
2.
Contenido
3. ¿Qué es Big Data?
“Volumen masivo de datos, tanto estructurados
como no-estructurados, los cuales son demasiado
grandes y difíciles de procesar con las bases de
datos y el software tradicionales" (ONU, 2012)
Pero no es la cantidad de datos lo que es
importante. Lo que importa con el Big Data es
lo que las organizaciones hacen con los
datos. Big Data se puede analizar para
obtener ideas que conduzcan a mejores decisiones
y movimientos estratégicos.
4. Introducción al Big DataIntroducción al Big Data
y su impacto en la sociedady su impacto en la sociedad
8. El progreso y la innovación ya no se ven
obstaculizados por la capacidad de recopilar datos,
sino por la capacidad de
Extraer el valor de los datos
Convertir datos en conocimiento
¿Qué hacemos con estos datos?
9. ¿Por qué Big Data? Tecnologías para Big Data y
Big Data Analytics. Ciencia de Datos
El poder de los datos y su impacto en la sociedad
El valor de la informaciEl valor de la informacióón: eln: el
reto delreto del ““Big DataBig Data””
10. ¿Por qué Big Data? Tecnologías para Big Data
y Big Data Analytics. Ciencia de Datos
El poder de los datos y su impacto en la sociedad
El valor de la informaciEl valor de la informacióón: eln: el
reto delreto del ““Big DataBig Data””
11. • Problema: Escalabilidad de grandes cantidades de datos
• Ejemplo:
• Exploración 100 TB en 1 nodo @ 50 MB/sec = 23 días
¿Por qué Big Data?
¿Cómo podemos procesar 1000 TB (1 PB) ó 10000 TB?
Propuesta de Google
2004:
Paradigma MapReduce
Terabyte: 1012
bytes
• Solución Divide-Y-Vencerás
– Exploración en un clúster de 1000 nodos = 33 minutos
Fragmentación Datos
Procesamiento
Paralelo
12. Big Data en 3 V’s
Doug Laney, Gartner Feb. 6, 2001
3-D Data Management: Controlling Data Volume, Velocity and Variety.
Big Data
13. Some Make it 4V’s: Veracity
¿Qué es Big Data? 3 V’s de Big Data
“Big Data” son datos cuyo
volumen, diversidad y complejidad
requieren nueva arquitectura,
técnicas, algoritmos y análisis
para gestionar y extraer valor y
conocimiento oculto en ellos ...
16. Ámbito del conocimiento que engloba las habilidades
asociadas al análisis inteligente de datos, incluyendo Big Data
Ciencia de Datos
Científico de datos
17. ¿Por qué Big Data? Tecnologías para Big Data y Big
Data Analytics. Ciencia de Datos
El poder de los datos y su impacto en la
sociedad
El valor de la informaciEl valor de la informacióón: eln: el
reto delreto del ““Big DataBig Data””
18. El poder de los datosAmazon: Sistema de
recomendación
Los datos incrementaron
tremendamente las ventas
Ahora más de 1/3 de las ventas son
gracias a las recomendaciones
Fuente: Big Data. La revolución de los datos masivos. Pag. 69. The power of habit, Charles Duhigg. Feb. 2012
19. Fuente: Big Data. La revolución de los datos masivos. Pag. 77
El poder de los datos
Análisis de transacciones
Acción: Envío de
cupones para cada
fase del embarazo
Enfado de un padre: Su Hija
recibe publicidad de
productos para embarazadas
20. Target (cadena de grandes almacenes) que utiliza el
análisis de transacciones y asociaciones.
Fuente: Big Data. La revolución de los datos masivos. Pag. 77.
Unos días después el director llamó al padre para
disculparse.
Respuesta conciliadora del padre:
“He estado hablando con mi hija –dijo el padre–
Resulta que en mi casa han tenido lugar ciertas
actividades de las que yo no estaba del todo
informado. Mi hija sale de cuentas en agosto. Soy
yo el que les debe una disculpa”.
Análisis de transacciones:
Un chivo expiatorio
El poder de los datos
21. Discovering Health Topics in Social Media Using Topic Models
Michael J. Paul, Mark Dredze, Johns Hopkins University, Plos One 9(8) e103408, 2014
doi:10.1371/journal.pone.0103408
Analizando Twitter para medir la
Salud Pública
Se obtienen 13 grupos coherentes de mensajes correlacionados
- Gripe estacional (r= 0.689) y alergias (r = 0.810)
- Ejercicio y obesidad relacionados con datos geográficos, ..
You Are What You Tweet
Un sistema de filtrado de datos de Twitter puede inferir
aspectos de salud analizando 144M de tuits (2011-2013)
23. Identificación por el número de compras
Identificación por el género
Identificación por el
poder adquisitivo
con las compras de tarjetas de
crédito
24. Salud
Redes sociales como fuente de datos
Industria, comercio, banca, …
Ocio y cultural (Ej. Recomendaciones)
Política
Bien social (Social good)
Impacto en la sociedad
26. http://economia.elpais.com/economia/2013/09/27/actualidad/1380
283725_938376.html
La demanda de profesionales
formados en Ciencia de Datos
y Big Data es enorme.
Se estima que la conversión de
datos en información útil generó
un mercado de 132.000 millones
de dólares en 2015 y que se crearán
más de 4.4 millones de empleos.
España necesitaba para 2015 más
de 60.000 profesionales con
formación en Ciencia de Datos y Big
Data.
Impacto Económico
http://www.revistacloudcomputing.com/2013/10/espana-necesitara-60-000-profesionales-de-big-data-hasta-2015/?
goback=.gde_4377072_member_5811011886832984067#!
27. Algunas experiencias internacionales
a nivel gubernamental
Comisión Estadística de Naciones Unidas: Seminario de Asuntos
Emergentes en la 44°Sesión de la Comisión: Big Data para la
Política, el Desarrollo y las Estadísticas Oficiales
Estados Unidos: “Iniciativa de I+D en Big Data” (2012), propuesta de la
administración Obama, dirigido por la Oficina para la Ciencia y la
Tecnología de la Casa Blanca.
Japón: Dentro de la primera estrategia de crecimiento del Japón del
gobiernode Shinzo Abe (“Desatar el poder del sector privado hasta su
máxima extensión”), se encuentra un plan básico para aprovechar Big Data”
(Mayo 2012).
Corea del Sur: “Plan Maestro de Big Data para la Implementación de una
Nación Inteligente” (2013), del gobierno coreano.
29. “Si los gobiernos quisieran, podrían ya dejar que los grandes datos (y el
sector privado) tengan un papel en el suministro de información sobre
los temas que están actualmente en el ámbito de las oficinas nacionales
de estadística” (Comisión Estadística de las Naciones Unidas, 2013)”.
“Si los gobiernos quisieran, podrían ya dejar que los grandes datos (y el
sector privado) tengan un papel en el suministro de información sobre
los temas que están actualmente en el ámbito de las oficinas nacionales
de estadística” (Comisión Estadística de las Naciones Unidas, 2013)”.
Lo que algunos consideran debe ser
la relación Big Data - INE
30. “¿Cuál es el futuro del uso de Big data para el sistema estadístico de
Los Estados Unidos? Veo un potencial inmediato: usar Big data para
mejorar la calidad de nuestros estimados dentro de nuestros marcos
metodológicos actuales”.
Michael W. Horrigan
Comisionado asociado en la Oficina de Precios y Condiciones de Vida de la
Oficina de Estadísticas Laborales de Estados Unidos
Lo que algunos consideran debe ser
la relación Big Data - INE
31. “Algún día los INE tendrán que decidir si producen estadísticas
basadas en Big Data”
Ki-Jong Woo. Comisionado del
Instituto Nacional de Estadísticas de Corea del Sur
(KOSTAT).
Lo que algunos consideran debe ser
la relación Big Data - INE
32. “La Oficina de Censos está incorporando soluciones de Big Data para
mejorar la eficiencia de las operaciones a través del ciclo de vida de la
encuesta”
William G. Bostic, Jr.
Director Asociado, Programas Económicos.
Oficina de Censos de los Estados Unidos.
Lo que algunos consideran debe ser
la relación Big Data - INE
33. • Cuál es la utilidad de Big Data para la producción de
estadísticas oficiales?.
• Para producir estadísticas oficiales ¿debemos saltar a
“Big Data”, cuando aún estamos en proceso de
maduración del uso de registros administrativos?.
• ¿Cómo , dónde y cuándo podemos usar “Big Data”, para
tomar decisiones en asuntos de políticas públicas?
• ¿Si se usará “Big Data” para la producción de
estadísticas oficiales, como mantener los asuntos de
reserva estadística propios de los INEs?.
Preguntas Sobre “Big Data”
34. • Si Big Data se computa y guarda en la “nube” ¿Qué
retos legales con relación a la información de nuestros
ciudadanos deben enfrentar los gobiernos y en
particular los INEs?.
• Qué consecuencias positivas y negativas puede tener
el uso de Big Data para políticas públicas?.
• ¿Si los INEs incorporamos Big Data en la producción
estadística, debemos adquirir bases de datos de
proveedores particulares?.
• ¿Son aplicables los modelos de planeación estadística
que incorporen el uso de Big Data?
Preguntas Sobre “Big Data”
El día de hoy queremos revisar las definiciones que hay alrededor de big data , algunas experiencias internacionales y las preguntas alrededor del tema
El día de hoy queremos revisar el papel del DANE, las definiciones que hay alrededor de big data , algunas experiencias internacionales y las preguntas como instituto de estadística alrededor del tema
Varias definiciones hay alrededor de Big Data, como la de Tom White quien define big data como “ colección de grandes conjuntos de datos complejos que tienen dificultad de ser procesados de las formas tradicionales” O la del instituto Global McKinsey en su reporte de Big Data de 2011 que señala que Big Data se refiere a conjuntos de datos cuyo tamaño está más allá de las capacidades típicas de bases de datos y software para ser administrados, almacenados y analizados.
Pero está bien si utilizamos la adoptada por la ONU en 2012 como : “Volumen masivo de datos, tanto estructurados como no-estructurados, los cuales son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales”.
Esta definición ha sido acuñada por el señor Emmanuel Letouzé a quien invitamos a que nos ilustre más adelante con su conocimiento y experiencia alrededor del tema.
Acá nos preguntamos cómo estos datos tienen las características que necesita el instituto?,
There are mainly two approaches: structure based clustering and OLAP-style graph aggregation.
Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters.
For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.
There are mainly two approaches: structure based clustering and OLAP-style graph aggregation.
Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters.
For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.
There are mainly two approaches: structure based clustering and OLAP-style graph aggregation.
Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters.
For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.
Alex ' Sandy' Pentland
Director del programa de emprendedores del 'Media Lab' del Massachusetts Institute of Technology (MIT)
Uno de los siete científicos de datos más poderosos del mundo (Forbes)
Los grandes volúmenes de datos han existido en tanto que la sociedad de la información y las actuales comunidades inteligentes producen información a través de diversos medios. Como tema de interés académico, ha sido trabajado desde los años cincuenta, pero en los últimos años, y con el surgimiento del término “Big Data”, que tiene un origen meramente empresarial, ha adquirido relevancia. Las posibilidades que la empresa privada ha hallado en Big Data (como lo muestra el investigador Kenneth Cukier, en The Economist o los múltiples informes de empresas privadas sobre el tema) han sido aprovechadas por iniciativas como Global Pulse para mostrar que con el uso de esos datos se puede obtener información que nos beneficie, que permita por ejemplo diagnosticar situaciones de riesgo de manera certera.
Esto ha hecho que algunos gobiernos hayan empezado a trabajar en el tema:
Como por ejemplo el gobierno de Corea del Sur con el “Plan Maestro para la implementación de una Nación Inteligente”, busca aprovechar Big Data como fuente de información.
En Estados Unidos, la iniciativa Big Data ha destinado más de 200 millones de dólares en varios departamentos del Estado para investigar y ver que retos y oportunidades brinda el uso de esa información.
Dentro de las estrategias de crecimiento del primer ministro japonés hay un plan para aprovechar Big Data, sobre todo en el desarrollo de sinergias entre el sector público y privado para facilitar la información de estos últimos en beneficio del primero.
Finalmente, es importante señalar los múltiples encuentros alrededor del mundo sobre el tema. En particular debo señalar el Seminario de Asuntos Emergentes de la 44° Sesión de la Comisión de estadísticas de naciones unidas . El nombre del seminario fue: Big Data para la Política, el Desarrollo y las Estadísticas Oficiales.
Como puede verse, la revolución de los datos nos afecta a todos y sobre esta situación ya empezado a reflexionar los INES alrededor del mundo. Les quiero mostrar algunas consideraciones:
Venimos en un contexto, algunos gobiernos están tomando acciones para incorporar datos masivos para producir estadísticas y hay Institutos de estadística que están viendo potencialidades para mejorar sus marcos metodológicos, mejorar la calidad de las estimaciones, producción de estadísticas basadas en big data, para mejorar la eficiencia de las operaciones, para producir estadísticas más oportunas
Como puede verse, la revolución de los datos nos afecta a todos y sobre esta situación ya empezado a reflexionar los INES alrededor del mundo. Les quiero mostrar algunas consideraciones:
Venimos en un contexto, algunos gobiernos están tomando acciones para incorporar datos masivos para producir estadísticas y hay Institutos de estadística que están viendo potencialidades para mejorar sus marcos metodológicos, mejorar la calidad de las estimaciones, producción de estadísticas basadas en big data, para mejorar la eficiencia de las operaciones, para producir estadísticas más oportunas
Como puede verse, la revolución de los datos nos afecta a todos y sobre esta situación ya empezado a reflexionar los INES alrededor del mundo. Les quiero mostrar algunas consideraciones:
Venimos en un contexto, algunos gobiernos están tomando acciones para incorporar datos masivos para producir estadísticas y hay Institutos de estadística que están viendo potencialidades para mejorar sus marcos metodológicos,
producción de estadísticas basadas en big data,
para mejorar la eficiencia de las operaciones, para producir estadísticas más oportunas
Bajo este panorama general, que sin duda será ampliado por quienes me seguirán en el uso de la palabra, quisiera que hagamos algunas reflexiones, varias de las cuales los grupos de trabajo de las Oficinas de Estadísticas o los INEs se están haciendo.
Cuál es la utilidad de big data para la producción de estadísticas oficiales? Big data se puede utilizar por ejemplo para hacer seguimiento a una epidemia o el trafico urbano casi en tiempo real, pero para el tema de las estadísticas oficiales exactamente para qué puede servir?
Para producir estadísticas oficiales ¿debemos saltar a “Big Data”, cuando aún estamos en proceso de maduración del uso de registros administrativos con fines estadísticos?.
El término Big Data se acuña alrededor de grandes conjuntos de datos (data sets) que superan los Terabytes(=1000 GB) . Registros tan importantes como los de personas que en el caso de Colombia no superan los centenares de Gigas o los registros básicos de las estadísticas vitales si consideramos que por cada ciudadano los registros vitales no superan los 10MB de información estos apenas nos darían 400 millones de megas es decir 400 GB. Aún no hemos madurado el uso de estas bases de datos,
Es importante tener en el panorama lo que se va hacer con big data pero se debe madurar el uso estadístico de registros administrativos.
¿Cómo , dónde y cuándo podemos usar “Big Data”, para tomar decisiones en asuntos de políticas públicas? En qué casos se van a necesitar esos volúmenes de datos?,
¿Si se usará “Big Data” para la producción de estadísticas oficiales, como mantener los asuntos de reserva estadística propios de los INEs?. Big Data combina datos de diversas fuentes, como será el tratamiento de información reservada que se combine con aquella que no lo es?
Una de las caraterísticas de Big Data es que los altos volúmenes y la producción casi en tiempo real llevará a computación en la nube (grid computing), que hay de los datos de los ciudadanos que quedan en la nube, podrán los INE preservas características como la anonimicidad. O como daríamos respuesta a temas de Habeas Data o como cambiaría este con el uso de Big Data.
Si Big Data se computa y guarda en la “nube” ¿Qué retos legales con relación a la información de nuestros ciudadanos deben enfrentar los gobiernos y en particular los INEs?, Una de las caraterísticas de Big Data es que los altos volúmenes y la producción casi en tiempo real llevará a computación en la nube (grid computing), que hay de los datos de los ciudadanos que quedan en la nube?, podrán los INE preservar características como la anonimicidad.?
Qué consecuencias positivas y negativas puede tener el uso de Big Data para políticas públicas?. Oiremos y oimos cosas maravillosas de Big Data, pero que consecuencias negativas puede traer?
Los altos niveles de computación, el acceso a los datos que se producen en la red y se almacenan en ella deja abierta la pregunta de cómo tener acceso a estos datos y a esa capacidad de computo.
Una última pregunta habiendo más.
¿Si los INEs incorporamos Big Data en la producción estadística, debemos adquirir bases de datos de proveedores particulares?.
Finalmente, los grandes volúmenes de datos o “Big Data” estarán en nuestra agenda como Entidad encargada de la producción oficial y queremos estar al tanto de cómo aprovecharlos, lo cual sin duda requerirá no solo nuevas herramientas tecnológicas y nuevos procedimientos, si no antes que nada nuevas reglas que faciliten su uso y garanticen los derechos de los ciudadanos.
Los dejo ahora con nuestros expertos, que podrán ayudarnos a responder los interrogantes que tenemos alrededor del tema.
Fin de la presentación