SlideShare a Scribd company logo
1 of 50
Download to read offline
Big Data para desarrolladores:
Hadoop y Openstack
I
Guillermo Alvarado Mejía
DevOps Engineer
Victor Barrera Nuñez
Data Scientist
Contenido
➢ Openstack
➢ Hadoop
➢ Arquitecturas en la nube
➢ Openstack & Hadoop
➢ Benchmark
➢ Consideraciones Generales
➢ Preguntas
Openstack
Openstack
OpenStack es producto de la colaboración mundial de
desarrolladores y administradores de sistemas DevOps
que dan como resultado una plataforma Cloud de
código abierto que entrega soluciones para todo tipo de
nubes.
Openstack
Openstack
Cuenta con más de 17.000 miembros individuales de
139 países y 850 organizaciones diferentes.
Openstack
Openstack
Habilidades requeridas para incursionar en
Openstack
➢ Python
○ Openstack está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Openstack y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
Openstack
¿Quién utiliza OpenStack? Destacan: PayPal,
MercadoLibre, Comcast, NSA, Rackspace, Cisco,
PlayStation, Dream Host, el CERN y Kio Networks
como pionero en Latinoamérica.
Visita http://www.openstack.org/user-stories/
Openstack
Openstack está siendo acogido rápidamente en el
sector corporativo.
Openstack
Esencial: Integración y API´s.
SDK’s: Clojure, Erlang, Go, Java, JS, .NET, Perl, PHP,
Python, Ruby, etc.
¿Bash? Command Line Interfaces.
Openstack
Hadoop
Hadoop
➢ Problemas con sistemas tradicionales
○ Procesadores más rápidos y más RAM en una única máquina
➢ Problemas con sistemas distribuidos
○ Sincronización de datos, ancho de banda, fallos parciales
➢ Era Big-Data
○ Terabytes de datos por día
➢ Requerimientos para un nuevo enfoque
○ Speculative execution
○ Replicación
○ Escalabilidad
Hadoop
➢ Surge a partir de 2 publicaciones realizadas por
Google en 2003 y 2004
➢ Los datos son replicados múltiples veces en el
sistema de archivos
○ Éstos son divididos en archivos más pequeños denominados
“blocks”
➢ El nodo principal o master
○ Designa tareas a los nodos esclavos o datanodes
○ Reasigna tareas cuando un nodo falla o sale de operación
Hadoop
1500 Nodos 690 Nodos 140 Nodos
http://wiki.apache.org/hadoop/PoweredBy
Hadoop
Hadoop
Hadoop
Hadoop
➢ Hadoop resuelve un problema real y por tal razón estará con nosotros
por varias décadas
➢ Hadoop es una habilidad profesional que vale la pena adquirir
Hadoop
Hadoop
Habilidades requeridas para incursionar en Hadoop
➢ Java
○ Hadoop está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Hadoop y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
➢ Hadoop Streaming
○ Python
○ Rubi
○ C
Hadoop
➢
Arquitecturas en la nube
Arquitecturas en la nube
Las Arquitecturas Cloud son los diseños y desarrollo de
elementos de infraestructura virtual y software que
hacen un uso eficiente de los servicios en Cloud.
Big Data para desarrolladores utilizando Hadoop y OpenStack
Arquitecturas en la nube
➢Son interoperables.
➢Ejecutan de forma óptima las tareas para cubrir una
necesidad de negocio.
➢Sólo hacen uso de la infraestructura que es necesaria
en cada momento.
➢Escalan basándose en la demanda.
Big Data para desarrolladores utilizando Hadoop y OpenStack
Arquitecturas en la nube
¿El problema? Son tareas concurrentes, repetitivas.
Dejemos de perder el tiempo, automaticemos. Desde
un enfoque DevOps.
Heat es el proyecto de OpenStack para Orquestación.
Arquitecturas en la nube
Heat permiten la creación y gestión de:
IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de
almacenamiento, Grupo de seguridad/Firewall, Usuarios
Funciones avanzadas:
Alta disponibilidad, autoscaling, software de terceros, recovery.
Además es compatible con Cloud Formation de AWS.
Arquitecturas en la nube
Arquitecturas en la nube
Plantillas
Archivos de texto con formato YAML, son un documento que detalla la
orquestación.
Heat Orchestration Template
(HOT), es el lenguaje nativo de Heat para escribir una plantilla.
Arquitecturas en la nube
Las plantillas también pueden especificar las relaciones
entre los recursos, por ejemplo, este volumen está
conectado a este servidor.
Arquitecturas en la nube
Openstack & Hadoop
Openstack & Hadoop
Openstack & Hadoop
Time To Provision
Time To Market
A Hadoop le viene como anillo al dedo Openstack y su
elasticidad
Openstack & Hadoop
➢ Tecnologías libres y de código abierto
➢ IDC estima un crecimiento alto (15%) de soluciones
cloud y Big Data para 2014
○ “Will big data make IT infraestructure sexy again?“, Mike Barlow,
O’Reilly, 2014)
➢ Tecnologías y soluciones Big Data abarcarán el
89% de las inversiones en IT durante 2014
➢ 70% de los datawarehouse experimentan problemas
de procesamiento y almacenamiento, Gartner
Benchmark
Benchmark
Cantidad de nodos de datos (datanodes)
➢ IBM tiene el cluster más grande con 1000 nodos de datos
➢ En promedio los cluster tienen 14 nodos de datos
Benchmark
➢ IBM, CISCO y HP son los cluster más rápidos
➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar
1TB de datos
Tiempo transcurrido ordenando un 1TB de datos
Benchmark
➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode
➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por
datanode
Velocidad de procesamiento por datanode
Benchmark
➢ Los fabricantes tienen un promedio de 1170 GB RAM
➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento
Memoria RAM total instalada
Benchmark
GB RAM versus Duración
Consideraciones
Generales
Openstack & Hadoop
El futuro:
Sahara by Openstack. Disponible para Juno.
Proyecto que proporciona un medio sencillo para
aprovisionar un cluster Hadoop sobre Openstack.
Configuración de varios parámetros:
versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.
Openstack & Hadoop
➢ Con un solo clic, autoservicio de aprovisionamiento
basado en plantillas
➢ Escalamiento dinámico, disparadores de workloads.
➢ Medición de recursos de manera sencilla, Hadoop
as a Service.
Openstack & Hadoop
➢ API´s para ejecutar tareas Map/Reduce, Oozie
workflows, consutas Hive/Pig.
➢ Administración y monitoreo centralizado.
➢ Accesos a datos controlados.
➢ Acceso a UI integrado, como Hive y Pig.
Openstack & Hadoop
➢ Infraestructura
○ Nube privada o pública (OpenStack)
○ Alojamiento de servidores (Co-location)
➢ Misión crítica, datacenter diseño TIER IV
➢ Operación
○ Help desk 24/7
➢ Big Data
○ Generación de modelos matemáticos
○ Hadoop as a Service
○ Data-Analytics as a Service
¿Preguntas?
I
Guillermo Alvardo
galvarado@kionetworks.com
@galvarado89
Victor Barrera
vabarrera@dattlas.com
@vikbar

More Related Content

What's hot

Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 

What's hot (20)

Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
Hadoop
HadoopHadoop
Hadoop
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Hadoop
HadoopHadoop
Hadoop
 
HDFS
HDFSHDFS
HDFS
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1Aula virtual apache_hadoop_v3 1
Aula virtual apache_hadoop_v3 1
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
Presentacion
PresentacionPresentacion
Presentacion
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Taller hadoop
Taller hadoopTaller hadoop
Taller hadoop
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Open analytics. data analytics con hadoop
Open analytics. data analytics con hadoopOpen analytics. data analytics con hadoop
Open analytics. data analytics con hadoop
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 

Viewers also liked

The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...
The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...
The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...spinningmatt
 
20150704 benchmark and user experience in sahara weiting
20150704 benchmark and user experience in sahara weiting20150704 benchmark and user experience in sahara weiting
20150704 benchmark and user experience in sahara weitingWei Ting Chen
 
OpenStack Data Processing ("Sahara") project update - December 2014
OpenStack Data Processing ("Sahara") project update - December 2014OpenStack Data Processing ("Sahara") project update - December 2014
OpenStack Data Processing ("Sahara") project update - December 2014Sergey Lukjanov
 
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]RootedCON
 
Layakk - Atacando 3G Vol. 2 [rootedvlc2]
Layakk - Atacando 3G Vol. 2 [rootedvlc2]Layakk - Atacando 3G Vol. 2 [rootedvlc2]
Layakk - Atacando 3G Vol. 2 [rootedvlc2]RootedCON
 
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...Juan Cruz Nores
 

Viewers also liked (7)

The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...
The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...
The state of the art for OpenStack Data Processing (Hadoop on OpenStack) - At...
 
20150704 benchmark and user experience in sahara weiting
20150704 benchmark and user experience in sahara weiting20150704 benchmark and user experience in sahara weiting
20150704 benchmark and user experience in sahara weiting
 
OpenStack Data Processing ("Sahara") project update - December 2014
OpenStack Data Processing ("Sahara") project update - December 2014OpenStack Data Processing ("Sahara") project update - December 2014
OpenStack Data Processing ("Sahara") project update - December 2014
 
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]
Javier Saez - Una panorámica sobre la seguridad en entornos web [rootedvlc2]
 
Layakk - Atacando 3G Vol. 2 [rootedvlc2]
Layakk - Atacando 3G Vol. 2 [rootedvlc2]Layakk - Atacando 3G Vol. 2 [rootedvlc2]
Layakk - Atacando 3G Vol. 2 [rootedvlc2]
 
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...
 
Hadoop and OpenStack
Hadoop and OpenStackHadoop and OpenStack
Hadoop and OpenStack
 

Similar to Big Data para desarrolladores utilizando Hadoop y OpenStack

Qnap nas training latam 2016 0810
Qnap nas training latam 2016 0810Qnap nas training latam 2016 0810
Qnap nas training latam 2016 0810QNAP Systems, Inc.
 
Plug&play:deploying big data_solutions
Plug&play:deploying big data_solutionsPlug&play:deploying big data_solutions
Plug&play:deploying big data_solutionsDavid Piris
 
Dell emc redhat_dez20
Dell emc redhat_dez20Dell emc redhat_dez20
Dell emc redhat_dez20Caio Candido
 
Docker - Sysmana 2014
Docker - Sysmana 2014Docker - Sysmana 2014
Docker - Sysmana 2014quaip
 
Origin Stack Appliance
Origin Stack ApplianceOrigin Stack Appliance
Origin Stack ApplianceNimbus Concept
 
Inteligencia artificial in house con servicios cognitivos y docker
Inteligencia artificial in house con servicios cognitivos y dockerInteligencia artificial in house con servicios cognitivos y docker
Inteligencia artificial in house con servicios cognitivos y dockerLuis Beltran
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Desarrollo de aplicaciones en la nube
Desarrollo de aplicaciones en la nubeDesarrollo de aplicaciones en la nube
Desarrollo de aplicaciones en la nubeDaniel Cruz
 
Docker: la revolución en virtualización
Docker: la revolución en virtualizaciónDocker: la revolución en virtualización
Docker: la revolución en virtualizaciónMarcelo Ochoa
 
Seguridad + Open Source: ¿funciona?
Seguridad + Open Source: ¿funciona?Seguridad + Open Source: ¿funciona?
Seguridad + Open Source: ¿funciona?Nextel S.A.
 
Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Eduardo Castro
 
Qnap Estación Vistualización
Qnap Estación VistualizaciónQnap Estación Vistualización
Qnap Estación VistualizaciónDavid Lira
 
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebula
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebulaJt2013 Exprimiendo la Infraestructura TIC con OpenNebula
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebulaJordi Guijarro
 

Similar to Big Data para desarrolladores utilizando Hadoop y OpenStack (20)

Offering Cloud Solutions
Offering Cloud Solutions Offering Cloud Solutions
Offering Cloud Solutions
 
Qnap nas training latam 2016 0810
Qnap nas training latam 2016 0810Qnap nas training latam 2016 0810
Qnap nas training latam 2016 0810
 
Training LATAM
Training LATAMTraining LATAM
Training LATAM
 
Plug&play:deploying big data_solutions
Plug&play:deploying big data_solutionsPlug&play:deploying big data_solutions
Plug&play:deploying big data_solutions
 
Academy Journal Morelia 2018
Academy Journal Morelia 2018Academy Journal Morelia 2018
Academy Journal Morelia 2018
 
Clase Hadoop
Clase HadoopClase Hadoop
Clase Hadoop
 
189 206
189 206189 206
189 206
 
Dell emc redhat_dez20
Dell emc redhat_dez20Dell emc redhat_dez20
Dell emc redhat_dez20
 
Docker - Sysmana 2014
Docker - Sysmana 2014Docker - Sysmana 2014
Docker - Sysmana 2014
 
Origin Stack Appliance
Origin Stack ApplianceOrigin Stack Appliance
Origin Stack Appliance
 
Inteligencia artificial in house con servicios cognitivos y docker
Inteligencia artificial in house con servicios cognitivos y dockerInteligencia artificial in house con servicios cognitivos y docker
Inteligencia artificial in house con servicios cognitivos y docker
 
Polybase
PolybasePolybase
Polybase
 
Desarrollo de aplicaciones en la nube
Desarrollo de aplicaciones en la nubeDesarrollo de aplicaciones en la nube
Desarrollo de aplicaciones en la nube
 
Docker: la revolución en virtualización
Docker: la revolución en virtualizaciónDocker: la revolución en virtualización
Docker: la revolución en virtualización
 
La nube de internet
La nube de internetLa nube de internet
La nube de internet
 
Seguridad + Open Source: ¿funciona?
Seguridad + Open Source: ¿funciona?Seguridad + Open Source: ¿funciona?
Seguridad + Open Source: ¿funciona?
 
Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker Introduccion a SQL Server 2017 en Docker
Introduccion a SQL Server 2017 en Docker
 
Qnap Estación Vistualización
Qnap Estación VistualizaciónQnap Estación Vistualización
Qnap Estación Vistualización
 
Devops episodio 1. devOpsTnf
Devops episodio 1. devOpsTnf Devops episodio 1. devOpsTnf
Devops episodio 1. devOpsTnf
 
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebula
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebulaJt2013 Exprimiendo la Infraestructura TIC con OpenNebula
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebula
 

More from Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

More from Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Recently uploaded

Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdf
Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdfHerramientas de Mantenimiento_Soporte Técnico_David Andrade.pdf
Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdfdaa100407
 
Algoritmos Paralelos - Actividad 14 - UNIBE.pdf
Algoritmos Paralelos - Actividad 14 - UNIBE.pdfAlgoritmos Paralelos - Actividad 14 - UNIBE.pdf
Algoritmos Paralelos - Actividad 14 - UNIBE.pdfdarosario3d
 
02 - RUP_Introduccion_Definicion.pdf
02 - RUP_Introduccion_Definicion.pdf02 - RUP_Introduccion_Definicion.pdf
02 - RUP_Introduccion_Definicion.pdfRodrigo Cerón
 
Los mejores simuladores electrónicos que se pueden utilizar
Los mejores simuladores electrónicos que se pueden utilizarLos mejores simuladores electrónicos que se pueden utilizar
Los mejores simuladores electrónicos que se pueden utilizarjosuesj13
 
Virus -Josue Cabascango _20240322_194349_0000.pdf
Virus -Josue Cabascango _20240322_194349_0000.pdfVirus -Josue Cabascango _20240322_194349_0000.pdf
Virus -Josue Cabascango _20240322_194349_0000.pdfMiSpotify
 
Simuladores de circuitos electrónicos.pdf
Simuladores de circuitos electrónicos.pdfSimuladores de circuitos electrónicos.pdf
Simuladores de circuitos electrónicos.pdfLeonardoOa4
 
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...AlexaRamirez39
 
Formato de práctica reflexiva ante una problemática social.docx.pdf
Formato de práctica reflexiva ante una problemática social.docx.pdfFormato de práctica reflexiva ante una problemática social.docx.pdf
Formato de práctica reflexiva ante una problemática social.docx.pdfjuanrubenc78
 
03 - RUP_Elaboracion_Construccion_1_2024.pdf
03 - RUP_Elaboracion_Construccion_1_2024.pdf03 - RUP_Elaboracion_Construccion_1_2024.pdf
03 - RUP_Elaboracion_Construccion_1_2024.pdfRodrigo Cerón
 

Recently uploaded (9)

Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdf
Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdfHerramientas de Mantenimiento_Soporte Técnico_David Andrade.pdf
Herramientas de Mantenimiento_Soporte Técnico_David Andrade.pdf
 
Algoritmos Paralelos - Actividad 14 - UNIBE.pdf
Algoritmos Paralelos - Actividad 14 - UNIBE.pdfAlgoritmos Paralelos - Actividad 14 - UNIBE.pdf
Algoritmos Paralelos - Actividad 14 - UNIBE.pdf
 
02 - RUP_Introduccion_Definicion.pdf
02 - RUP_Introduccion_Definicion.pdf02 - RUP_Introduccion_Definicion.pdf
02 - RUP_Introduccion_Definicion.pdf
 
Los mejores simuladores electrónicos que se pueden utilizar
Los mejores simuladores electrónicos que se pueden utilizarLos mejores simuladores electrónicos que se pueden utilizar
Los mejores simuladores electrónicos que se pueden utilizar
 
Virus -Josue Cabascango _20240322_194349_0000.pdf
Virus -Josue Cabascango _20240322_194349_0000.pdfVirus -Josue Cabascango _20240322_194349_0000.pdf
Virus -Josue Cabascango _20240322_194349_0000.pdf
 
Simuladores de circuitos electrónicos.pdf
Simuladores de circuitos electrónicos.pdfSimuladores de circuitos electrónicos.pdf
Simuladores de circuitos electrónicos.pdf
 
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...
Diseño de Algoritmos Paralelos. Mejorando la eficiencia computacional aprovec...
 
Formato de práctica reflexiva ante una problemática social.docx.pdf
Formato de práctica reflexiva ante una problemática social.docx.pdfFormato de práctica reflexiva ante una problemática social.docx.pdf
Formato de práctica reflexiva ante una problemática social.docx.pdf
 
03 - RUP_Elaboracion_Construccion_1_2024.pdf
03 - RUP_Elaboracion_Construccion_1_2024.pdf03 - RUP_Elaboracion_Construccion_1_2024.pdf
03 - RUP_Elaboracion_Construccion_1_2024.pdf
 

Big Data para desarrolladores utilizando Hadoop y OpenStack

  • 1. Big Data para desarrolladores: Hadoop y Openstack I Guillermo Alvarado Mejía DevOps Engineer Victor Barrera Nuñez Data Scientist
  • 2. Contenido ➢ Openstack ➢ Hadoop ➢ Arquitecturas en la nube ➢ Openstack & Hadoop ➢ Benchmark ➢ Consideraciones Generales ➢ Preguntas
  • 4. Openstack OpenStack es producto de la colaboración mundial de desarrolladores y administradores de sistemas DevOps que dan como resultado una plataforma Cloud de código abierto que entrega soluciones para todo tipo de nubes.
  • 6. Openstack Cuenta con más de 17.000 miembros individuales de 139 países y 850 organizaciones diferentes.
  • 8. Openstack Habilidades requeridas para incursionar en Openstack ➢ Python ○ Openstack está escrito en este lenguaje ➢ Linux (Command line navigation) ○ Openstack y sus componente corren sobre Linux ➢ Programación Bash (Linux scripting)
  • 9. Openstack ¿Quién utiliza OpenStack? Destacan: PayPal, MercadoLibre, Comcast, NSA, Rackspace, Cisco, PlayStation, Dream Host, el CERN y Kio Networks como pionero en Latinoamérica. Visita http://www.openstack.org/user-stories/
  • 10. Openstack Openstack está siendo acogido rápidamente en el sector corporativo.
  • 11. Openstack Esencial: Integración y API´s. SDK’s: Clojure, Erlang, Go, Java, JS, .NET, Perl, PHP, Python, Ruby, etc. ¿Bash? Command Line Interfaces.
  • 14. Hadoop ➢ Problemas con sistemas tradicionales ○ Procesadores más rápidos y más RAM en una única máquina ➢ Problemas con sistemas distribuidos ○ Sincronización de datos, ancho de banda, fallos parciales ➢ Era Big-Data ○ Terabytes de datos por día ➢ Requerimientos para un nuevo enfoque ○ Speculative execution ○ Replicación ○ Escalabilidad
  • 15. Hadoop ➢ Surge a partir de 2 publicaciones realizadas por Google en 2003 y 2004 ➢ Los datos son replicados múltiples veces en el sistema de archivos ○ Éstos son divididos en archivos más pequeños denominados “blocks” ➢ El nodo principal o master ○ Designa tareas a los nodos esclavos o datanodes ○ Reasigna tareas cuando un nodo falla o sale de operación
  • 16. Hadoop 1500 Nodos 690 Nodos 140 Nodos http://wiki.apache.org/hadoop/PoweredBy
  • 20. Hadoop ➢ Hadoop resuelve un problema real y por tal razón estará con nosotros por varias décadas ➢ Hadoop es una habilidad profesional que vale la pena adquirir
  • 22. Hadoop Habilidades requeridas para incursionar en Hadoop ➢ Java ○ Hadoop está escrito en este lenguaje ➢ Linux (Command line navigation) ○ Hadoop y sus componente corren sobre Linux ➢ Programación Bash (Linux scripting) ➢ Hadoop Streaming ○ Python ○ Rubi ○ C
  • 25. Arquitecturas en la nube Las Arquitecturas Cloud son los diseños y desarrollo de elementos de infraestructura virtual y software que hacen un uso eficiente de los servicios en Cloud.
  • 27. Arquitecturas en la nube ➢Son interoperables. ➢Ejecutan de forma óptima las tareas para cubrir una necesidad de negocio. ➢Sólo hacen uso de la infraestructura que es necesaria en cada momento. ➢Escalan basándose en la demanda.
  • 29. Arquitecturas en la nube ¿El problema? Son tareas concurrentes, repetitivas. Dejemos de perder el tiempo, automaticemos. Desde un enfoque DevOps. Heat es el proyecto de OpenStack para Orquestación.
  • 30. Arquitecturas en la nube Heat permiten la creación y gestión de: IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de almacenamiento, Grupo de seguridad/Firewall, Usuarios Funciones avanzadas: Alta disponibilidad, autoscaling, software de terceros, recovery. Además es compatible con Cloud Formation de AWS.
  • 32. Arquitecturas en la nube Plantillas Archivos de texto con formato YAML, son un documento que detalla la orquestación. Heat Orchestration Template (HOT), es el lenguaje nativo de Heat para escribir una plantilla.
  • 33. Arquitecturas en la nube Las plantillas también pueden especificar las relaciones entre los recursos, por ejemplo, este volumen está conectado a este servidor.
  • 37. Openstack & Hadoop Time To Provision Time To Market A Hadoop le viene como anillo al dedo Openstack y su elasticidad
  • 38. Openstack & Hadoop ➢ Tecnologías libres y de código abierto ➢ IDC estima un crecimiento alto (15%) de soluciones cloud y Big Data para 2014 ○ “Will big data make IT infraestructure sexy again?“, Mike Barlow, O’Reilly, 2014) ➢ Tecnologías y soluciones Big Data abarcarán el 89% de las inversiones en IT durante 2014 ➢ 70% de los datawarehouse experimentan problemas de procesamiento y almacenamiento, Gartner
  • 40. Benchmark Cantidad de nodos de datos (datanodes) ➢ IBM tiene el cluster más grande con 1000 nodos de datos ➢ En promedio los cluster tienen 14 nodos de datos
  • 41. Benchmark ➢ IBM, CISCO y HP son los cluster más rápidos ➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar 1TB de datos Tiempo transcurrido ordenando un 1TB de datos
  • 42. Benchmark ➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode ➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por datanode Velocidad de procesamiento por datanode
  • 43. Benchmark ➢ Los fabricantes tienen un promedio de 1170 GB RAM ➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento Memoria RAM total instalada
  • 46. Openstack & Hadoop El futuro: Sahara by Openstack. Disponible para Juno. Proyecto que proporciona un medio sencillo para aprovisionar un cluster Hadoop sobre Openstack. Configuración de varios parámetros: versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.
  • 47. Openstack & Hadoop ➢ Con un solo clic, autoservicio de aprovisionamiento basado en plantillas ➢ Escalamiento dinámico, disparadores de workloads. ➢ Medición de recursos de manera sencilla, Hadoop as a Service.
  • 48. Openstack & Hadoop ➢ API´s para ejecutar tareas Map/Reduce, Oozie workflows, consutas Hive/Pig. ➢ Administración y monitoreo centralizado. ➢ Accesos a datos controlados. ➢ Acceso a UI integrado, como Hive y Pig.
  • 49. Openstack & Hadoop ➢ Infraestructura ○ Nube privada o pública (OpenStack) ○ Alojamiento de servidores (Co-location) ➢ Misión crítica, datacenter diseño TIER IV ➢ Operación ○ Help desk 24/7 ➢ Big Data ○ Generación de modelos matemáticos ○ Hadoop as a Service ○ Data-Analytics as a Service