SlideShare a Scribd company logo
1 of 36
데이터 기술 최신 트렌드
이기훈 부장 (KeeHoon.Lee@microfocus.com)
Presales Consultant – Vertica, Asia Pacific and Japan
Micro Focus
DB 관점에서 본
본 자료의 내용은 빅데이터 분석 세미나 및 연구회 등에서의 소개 목적으로
작성되었으며, 개인적인 관점이 자료에 반영되어 있습니다.
본 자료의 내용이 “버티카” 제품이나 “마이크로포커스” 회사의 전체 관점이나 입장을
대표하지 않습니다.
2
목차
3
사례 중심의 빅데이터 분석
빅데이터 분석 기술 트렌드
- 하둡 3.0과 클라우드
- Data Lake 고도화 및 기술 발전
고급 분석을 위한 데이터 플랫폼 버티카
최신 빅데이터 분석 사례
최신 빅데이터 분석 사례
5
고객별 최적의 네트워크
장비 수를 예측하여
비용 효율성 극대화
사용량 기반 분석으로
필요한 네트워크 장비의 양을
최적화 하여 비용 감소
우버 사용자 수요를 예측하여
우버 기사의 수를 조정 및
지리 정보 분석으로 트래픽 분산
날씨, 지역 이벤트 등을
바탕으로 대중교통 수요를
예측하여 배차 간격 자동 조절
지역이나 도시별의 체형과
트렌드 분석으로 매장별 차등
재고 준비 및 전시 위치 지정
각 장비에서 발생하는 로그를
바탕으로 장비의 장애 시점 예측
및 선제적 대응 수행
최신 빅데이터 분석 사례
6
가장 빠르게 성장하는
포춘 500 회사
카드 결제 데이터를 기반으로
리포트 제작
헬스 데이터를 수집하여
관련 데이터를 활용할 수
있는 장비 및 솔루션 판매
고객 대상 보안 관련 분석 및
실시간 침입 탐지 서비스 제공
병원, 금융권 등 개인정보에
민감한 고객사를 주요 보유
약 50,000 개의 매장들을 대상
분석 서비스 제공
코카콜라, 델몬트, 헨켈, 로레알,
켈로그, 네슬레, 화이자 등의
고객사 보유
그 외 다양한 리테일, SNS 에서의
분석 사례
최신 빅데이터 분석 사례
7
▪ “자사”의 데이터를 위주로 “자사”의 업무 고도화에 적용하기 위해 분석
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥥)
▪ “타사”의 데이터를 위주로 “타사”에 판매를 목적으로 분석 알고리즘 등을 개발
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥣)
▪ “자사”의 데이터를 “타사”에 판매 목적으로 정제 및 정리
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥥, 분석 난이도 ⥥)
빅데이터 분석 업무의 비즈니스 케이스 사례
빅데이터 분석 기술 트렌드
HDFS 3.0 등장
9
2017년 후반 하둡 3.0의 소개
10
Source: https://www.slideshare.net/DatayaNolja/hadoop-10th-birthday-and-hadoop-3-alpha
HDFS 발전 타임라인
HDFS 3.0 주요 신기능 로드맵
11
<효율성>
<확장성>
<플랫폼 확장>
HDFS Erasure Coding
Multi-standby
Namenode
Intra Datanode
Balancing
GPU Yarn Support
Yarn Timeline
Service v2
Opportunistic
Containers
Multi-standby
Namenode
Distributed Scheduling
Yarn
Cloud Storage Support (AWS S3, MS Azure Data Lake)
데이터 플랫폼으로 클라우드의 등장
12
클라우드의 여러 장점이 있겠지만, 무엇보다도…
Hadoop
Object Storage
(AWS S3, Azure Blob, Google Cloud Storage)
• “빅데이터” 파일 시스템의 대명사
• 온프레미스 기반 환경에 주력
• 기존 시스템 대비 유연한 확장성 보유
• 다양한 오픈소스 생태계 활성화
• “클라우드” 파일 시스템의 대명사
• 기존 인터페이스를 흡수하며 클라우드에 주력
• 무제한 확장성, SLA로 벤더가 보장하는 가용성
• 새로운 시스템 구성 (MSA, Serverless)의 근간 기술
클라우드로의 Data Lake 개념의 확장
13
https://www.slideshare.net/steve_l/dancing-elephants-working-with-object-storage-in-apache-spark-and-hive
HDFS 3.0 발표 1년 후
14
하둡 벤더 3사의 경영 악화
Source: https://techcrunch.com/2019/01/03/cloudera-and-
hortonworks-finalize-their-merger/
Source: https://www.nextplatform.com/2019/05/31/hadoop-
pioneer-mapr-faces-an-uncertain-future/
빅데이터 회사들의 행보
15
클라우드 적극 지원 행보로의 변경
Source : https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html
요약하면, S3 및 클라우드 스토리지들은 HDFS 에 비해 더
나은 가용성과 안정성을 보장하는 동시에 약 2배 이상의
성능을 보여주고 있으며, 그와 동시에 HDFS 클러스터 대비
약 10배는 적은 금액으로 이를 제공하고 있다고 볼 수 있다.
- 결론에서의 발췌
분석 기술들의 발전
16
Matei Zaharia
CTO & Co-Founder, Databricks
사용 편의성 확대:
- 스트리밍 API에서 Spark SQL 바로 적용
딥러닝 지원 로드맵:
- 딥러닝 분산 처리를 쉽게
- Spark Deep Learning 딥러닝 라이브러리
확장 (Image 지원, Text 로드맵)
- Tensorflow, Keras 지원
딥러닝 프레임워크에 관하여
17
Tensorflow vs. Keras
• node간 흐름에 대하여 Low level로 coding
• cost/loss function 등의 알고리즘을 직접 구현
• 모듈화 되어 있는 Layer들을 순서대로 배치
• cost/loss function 등의 알고리즘을 제공
딥러닝 프레임워크 엔터프라이즈 솔루션?
18
딥러닝은 솔루션으로 사용할 수 있는가?
Source: https://emerj.com/ai-executive-guides/enterprise-adoption-of-artificial-intelligence/
현재 엔터프라이즈에서 활용하는 딥러닝은
대부분 파일럿 프로젝트 수준에 머물러 있다.
AI 를 바로 존재하는 비즈니스에 적용하는 것은
불가능하며 실제 엔터프라이즈 환경 내의
연구와 개발 과정 어디에 활용할지를
이해하도록 조직 구조를 바꾸는 것이 필요하다.
즉, “분석” 에 대한 방향과 적용안을 생각하는
것을 습관화 하는 것이 중요!
데이터 기반의 업무 설계로의 변화
19
2019년 6월 5일 출간
▪ 데이터 기반의 업무 설계에는 다음이 필요하다
- 업무, 기술, 데이터를 아는 조직
- 데이터 성숙도, 확장성, 데이터의 위치, 데이터의 가시성, 목표 설계
▪ 데이터 기반 업무 설계로의 여정이란,
- 잘 수집된 데이터를 언제든 활용할 수 있게 정제하고 수집
- 다양한 데이터에 대해 여러 시도를 통한 인사이트의 습득
- 분석 업무 확장에 따른 Scalability를 이루어 가는 과정
즉, One-time-solution으로의 분석 업무는 존재하지 않는다.
20
리서치 기관들의 Data Management System 시장 예측 자료
“컴퓨트와 스토리지의 분리”, 제프 헤일리
클라우드 이코노믹스의 사상과 일치하는 컴퓨트와 스토리지의 분리를 통해 기업들은
빅데이터와 고급 분석에 자산을 투자하는 데에 더욱 큰 유연성과 비용적인 유용성을
갖게 될 것이다.
“인데이터베이스 분석”, 락시미 랜달 & 알렉산들러 린덴
정보산업과 분석산업군의 리더들은 데이터들의 이동을 최소화 하고, 데이터 집약적인
분석을 위해 많은 곳으로 분석함수가 이동하여 처리하도록 하는 In-DBMS 분석
(인데이터베이스 분석)에 관심을 기울여야 만 할 것이다.
데이터 웨어하우스 최신 트렌드
“데이터 이동의 최소화”, 애쉬시 나드카리니
IDC 에서는 다양한 곳에 안전하게 저장된 빅데이터 저장소들이 한 시스템에서
다른 시스템으로의 이관이 최소화 된 상태로 데이터 분석 기능을 극대화 할 수 있는
환경을 Data Lake로 정의한다.
데이터 분석 플랫폼 버티카
버티카의 탄생 배경
2222
Ingres 와 Postgres 개발을 지나 C-Store 를 작성한 스톤브레이커 교수
버티카 데이터 분석 플랫폼
23
버티카는 현대 데이터 중심의 세상의 대용량의 복잡한 고급 분석을 지원하기 위한 분석 플랫폼으로, 높은 성능과
고급 분석과 머신 러닝을 보유한 MPP 분산 쿼리 엔진 기반의 데이터베이스 기술을 제공
SQL 데이터베이스
빠른 적재 기능과
효율적 저장 기술로
DW의 성능을 극대화
쿼리 엔진
다양한 곳에 존재하는
다양한 데이터를 한 눈에
볼 수 있는 고급 쿼리 엔진
분석과 머신러닝
고급 분석 호환 기능과
자체적인 대용량에 대한
머신러닝 기능 보유
분석 중심의 업무 설계를 위한 아키텍처
24
데이터 위치가 분석 업무를 수행하는 병목이 되지 않는 플랫폼 아키텍처
SQL 데이터베이스
++
고급분석과 머신러닝
하나의 분석 엔진으로 다양한 인프라 환경에 모두 적용하여 활용 가능
인프라의 선택 플랫폼 선택
온프레미스
클라우드의 선택
가상화 HDFS클라우드 사업자하이브리드 클라우드
쿼리 엔진
분석을 위한 데이터의 포맷과 위치를 지원
25
데이터의 변환을 최소화 하여 분석 업무에 집약하기 위한 플랫폼
대부분의 머신 러닝 알고리즘 지원
26
순수 내재화 된 SQL 기반 함수로 지원
Data Analysis Data Preparation Modeling Evaluation Deployment
SQL 데이터베이스
++
고급분석과 머신러닝 쿼리 엔진
Linear
Regression
Logistic
Regression
K-Means
Clustering
Random
Forrest
Naive
Bayes
Support Vector
Machines
End-to-end 전체 머신러닝 주기를 모두 지원
27
버티카만으로 머신러닝 업무 수행이 가능
Data Analysis Data Preparation Modeling Evaluation Deployment
• Statistical Summary
• Time Series
• Sessionize
• Pattern Matching
• Date/Time Algebra
• Window Partition
• Sequences
• And more…
• Outlier Detection
• Normalization
• Imbalanced Data
Processing
• Sampling
• Missing Value
Imputation
• And More…
• SVM
• Random Forests
• Logistic Regression
• Linear Regression
• Ridge Regression
• Naïve Bayes
• Cross Validation
• And More…
• Model-level Stats
• ROC Tables
• Error Rate
• Lift Table
• Confusion Matrix
• R-Squared
• MSE
• And More…
• Deploy Anywhere
• In Database Scoring
• Massively Parallel
Processing
• Speed
• Scale
• Security
• And More…
SQL 데이터베이스
++
고급분석과 머신러닝 쿼리 엔진
머신 러닝 모델 생성
28
단순한 SQL 함수로 수행
Creates new
model
Select table/view that
contains training data
Select column with
dependent variable
Select columns with
independent variables
Optional parameters
for model building
29
R과 Python 코드를
버티카에 이동하여
병렬 프로세싱으로
분석 수행 가능
Enterprise 와 Eon 비교
30
컴퓨팅 엔진과 스토리지의 결합과 분리 여부
Vertica Enterprise Mode
(On-premises, Cloud, 또는 Hybrid)
Vertica Eon Mode
(Amazon Web Services, 추후 On-Premise 지원)
클라우드 이코노믹스의 동적 워크로드
요구 사항에 대응하는 컴퓨팅 리소스만
독립적으로 확장이 가능한 아키텍처
컴퓨팅 엔진과 스토리지가 강하게 결합되어
예측 가능한 워크로드를 원하는 기대 시간
내에 빠르게 처리하기 위한 아키텍처
EC2를 컴퓨트 리소스로, S3를 데이터 저장소로
활용하여 AWS 클라우드 이코노믹스를 구현
Vertica Eon 모드
인프라의 선형적 확장. 워크로드 변경,
시즌, 피크 타임에 따라 분석에 활용되는
리소스를 탄력적으로 변경
분석 워크로드 분리. 데이터베이스를
여러 서브-클러스터로 클러스터를
분리하여 각각 다른 워크로드 수행
단순화 된 데이터베이스 관리. 쉬운 노드
복구, 월등한 워크로드 분배, 그리고 빠른
컴퓨팅 엔진 프로비저닝
컴퓨트 노드 자원의 절약. 분석 업무가
필요하지 않은 상황에는 컴퓨트 노드를
중단하거나 제거하여 자원을 절약
32
버티카의 빅데이터 환경 지원을 위한 오픈 아키텍처
데이터 분석 시장의 트렌드와 Vertica
33
▪ 데이터 레이크 (Data Lake)
- 데이터베이스와 하둡, 클라우드 오브젝트
스토리지의 연결
▪ 인데이터베이스 분석
- 대용량 데이터에 대한 머신 러닝을 위해
머신 러닝 함수가 데이터베이스에서 수행
▪ 컴퓨팅 엔진과 데이터 스토리지의 분리
- 데이터 이동의 최소화
• 비정형 데이터 지원 및 Kafka 연계
• 하둡 환경과의 연계 또는 설치
• Parquet, ORC 포맷 지원 (하둡, 오브젝트 스토리지)
• 다양한 머신러닝 SQL 함수 지원
• R, Python 등의 사용자 생성 함수 지원
• 병렬 처리 및 워크로드 관리 기능 지원
• Vertica Eon Mode
• 필요에 따른 컴퓨팅 노드 생성, 확장, 또는 제거
• 저장 스토리지 비용의 최소화
• 안정적 성능 보장을 위한 데이터 캐싱
버티카 고객 사례
34
데이터 중심 세상의 하루 속에 만나는 버티카 활용 사례
Smart
Buildings
Health / EMR
Analytics
Ride
Share
Customer
Analytics
Network
Optimization
Predictive
Maintenance
Route
Optimization
Wearable
Analytics
Smart
Agriculture
Software
Optimization
Clickstream
Analytics
Security
Analysis
IT Central 의 버티카 사용자 점수
https://www.itcentralstation.com/categories/cloud-data-warehouse https://www.itcentralstation.com/categories/data-warehouse
36

More Related Content

What's hot

[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)Steve Min
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum DNA
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
GigaSpaces소개자료
GigaSpaces소개자료GigaSpaces소개자료
GigaSpaces소개자료jungyee kang
 
[Pgday.Seoul 2018] replacing oracle with edb postgres
[Pgday.Seoul 2018] replacing oracle with edb postgres[Pgday.Seoul 2018] replacing oracle with edb postgres
[Pgday.Seoul 2018] replacing oracle with edb postgresPgDay.Seoul
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)Steve Min
 
Scalable system design patterns
Scalable system design patternsScalable system design patterns
Scalable system design patternsSteve Min
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensightstartupkorea
 
2012 07 28_cloud_reference_architecture_openplatform
2012 07 28_cloud_reference_architecture_openplatform2012 07 28_cloud_reference_architecture_openplatform
2012 07 28_cloud_reference_architecture_openplatformYousun Jeong
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoMatthew (정재화)
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Gruter
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사uEngine Solutions
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례Taehyeon Oh
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵r-kor
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Sanghee Lee
 
Memcached의 확장성 개선
Memcached의 확장성 개선Memcached의 확장성 개선
Memcached의 확장성 개선NAVER D2
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안치완 박
 

What's hot (20)

Intro to r & hadoop
Intro to r & hadoopIntro to r & hadoop
Intro to r & hadoop
 
[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)[SSA] 01.bigdata database technology (2014.02.05)
[SSA] 01.bigdata database technology (2014.02.05)
 
Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012Daum내부 Hadoop 활용 사례 | Devon 2012
Daum내부 Hadoop 활용 사례 | Devon 2012
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
GigaSpaces소개자료
GigaSpaces소개자료GigaSpaces소개자료
GigaSpaces소개자료
 
[Pgday.Seoul 2018] replacing oracle with edb postgres
[Pgday.Seoul 2018] replacing oracle with edb postgres[Pgday.Seoul 2018] replacing oracle with edb postgres
[Pgday.Seoul 2018] replacing oracle with edb postgres
 
Apache hbase overview (20160427)
Apache hbase overview (20160427)Apache hbase overview (20160427)
Apache hbase overview (20160427)
 
Scalable system design patterns
Scalable system design patternsScalable system design patterns
Scalable system design patterns
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
[경북] I'mcloud opensight
[경북] I'mcloud opensight[경북] I'mcloud opensight
[경북] I'mcloud opensight
 
2012 07 28_cloud_reference_architecture_openplatform
2012 07 28_cloud_reference_architecture_openplatform2012 07 28_cloud_reference_architecture_openplatform
2012 07 28_cloud_reference_architecture_openplatform
 
Expanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with TajoExpanding Your Data Warehouse with Tajo
Expanding Your Data Warehouse with Tajo
 
Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)Big data analysis with R and Apache Tajo (in Korean)
Big data analysis with R and Apache Tajo (in Korean)
 
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
Io t에서 big data를 통합하는 통합 빅데이터 플랫폼 flamingo_클라우다인_김병곤 대표이사
 
Gruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigDataGruter TECHDAY 2014 MelOn BigData
Gruter TECHDAY 2014 MelOn BigData
 
빅데이터 구축 사례
빅데이터 구축 사례빅데이터 구축 사례
빅데이터 구축 사례
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313Gpdb best practices v a01 20150313
Gpdb best practices v a01 20150313
 
Memcached의 확장성 개선
Memcached의 확장성 개선Memcached의 확장성 개선
Memcached의 확장성 개선
 
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
[Open Technet Summit 2014] 쓰기 쉬운 Hadoop 기반 빅데이터 플랫폼 아키텍처 및 활용 방안
 

Similar to DB관점에서 본 빅데이터 (2019년 8월)

[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략Amazon Web Services Korea
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나Amazon Web Services Korea
 
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사Amazon Web Services Korea
 
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사POSCO ICT
 
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석Amazon Web Services Korea
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03Devgear
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개I Goo Lee
 
Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0Steve Min
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Channy Yun
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)Amazon Web Services Korea
 
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기Amazon Web Services Korea
 
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...Amazon Web Services Korea
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBrockplace
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017Amazon Web Services Korea
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 

Similar to DB관점에서 본 빅데이터 (2019년 8월) (20)

[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
AWS 기반 데이터 레이크(Datalake) 구축 및 분석 - 김민성 (AWS 솔루션즈아키텍트) : 8월 온라인 세미나
 
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션 :: 정우진 이사
 
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
170426 cloud day in 포항 2. 클라우드 뉴노멀 시대의 글로벌 혁신 기업들의 디지털 트랜스포메이션_aws 정우진 이사
 
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
2017 Ad-Tech on AWS 세미나ㅣAWS에서의 빅데이터와 분석
 
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어  2015.12.03
엔터프라이즈 환경의 데이터모델 관리 방안 By 엠바카데로 데브기어 2015.12.03
 
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개MS 빅데이터 서비스 및 게임사 PoC 사례 소개
MS 빅데이터 서비스 및 게임사 PoC 사례 소개
 
Cloud Computing v1.0
Cloud Computing v1.0Cloud Computing v1.0
Cloud Computing v1.0
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
Daum’s Business Analytics Use-cases based on Bigdata technology (2012)
 
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)
 
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...
 
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
AWS Finance Symposium_바로 도입할 수 있는 금융권 업무의 클라우드 아키텍처 알아보기
 
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
[Retail & CPG Day 2019] AWS기반의 Data 분석 플랫폼 구축, 고객사례 (GS SHOP) -김형일, AWS 솔루션즈 ...
 
Azure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDBAzure Databases for PostgreSQL MYSQL and MariaDB
Azure Databases for PostgreSQL MYSQL and MariaDB
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
클라우드를 통한 엔터프라이즈 산업 변신 사례 - AWS Summit Seoul 2017
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 

DB관점에서 본 빅데이터 (2019년 8월)

  • 1. 데이터 기술 최신 트렌드 이기훈 부장 (KeeHoon.Lee@microfocus.com) Presales Consultant – Vertica, Asia Pacific and Japan Micro Focus DB 관점에서 본
  • 2. 본 자료의 내용은 빅데이터 분석 세미나 및 연구회 등에서의 소개 목적으로 작성되었으며, 개인적인 관점이 자료에 반영되어 있습니다. 본 자료의 내용이 “버티카” 제품이나 “마이크로포커스” 회사의 전체 관점이나 입장을 대표하지 않습니다. 2
  • 3. 목차 3 사례 중심의 빅데이터 분석 빅데이터 분석 기술 트렌드 - 하둡 3.0과 클라우드 - Data Lake 고도화 및 기술 발전 고급 분석을 위한 데이터 플랫폼 버티카
  • 5. 최신 빅데이터 분석 사례 5 고객별 최적의 네트워크 장비 수를 예측하여 비용 효율성 극대화 사용량 기반 분석으로 필요한 네트워크 장비의 양을 최적화 하여 비용 감소 우버 사용자 수요를 예측하여 우버 기사의 수를 조정 및 지리 정보 분석으로 트래픽 분산 날씨, 지역 이벤트 등을 바탕으로 대중교통 수요를 예측하여 배차 간격 자동 조절 지역이나 도시별의 체형과 트렌드 분석으로 매장별 차등 재고 준비 및 전시 위치 지정 각 장비에서 발생하는 로그를 바탕으로 장비의 장애 시점 예측 및 선제적 대응 수행
  • 6. 최신 빅데이터 분석 사례 6 가장 빠르게 성장하는 포춘 500 회사 카드 결제 데이터를 기반으로 리포트 제작 헬스 데이터를 수집하여 관련 데이터를 활용할 수 있는 장비 및 솔루션 판매 고객 대상 보안 관련 분석 및 실시간 침입 탐지 서비스 제공 병원, 금융권 등 개인정보에 민감한 고객사를 주요 보유 약 50,000 개의 매장들을 대상 분석 서비스 제공 코카콜라, 델몬트, 헨켈, 로레알, 켈로그, 네슬레, 화이자 등의 고객사 보유 그 외 다양한 리테일, SNS 에서의 분석 사례
  • 7. 최신 빅데이터 분석 사례 7 ▪ “자사”의 데이터를 위주로 “자사”의 업무 고도화에 적용하기 위해 분석 - 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥥) ▪ “타사”의 데이터를 위주로 “타사”에 판매를 목적으로 분석 알고리즘 등을 개발 - 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥣) ▪ “자사”의 데이터를 “타사”에 판매 목적으로 정제 및 정리 - 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥥, 분석 난이도 ⥥) 빅데이터 분석 업무의 비즈니스 케이스 사례
  • 9. HDFS 3.0 등장 9 2017년 후반 하둡 3.0의 소개
  • 11. HDFS 3.0 주요 신기능 로드맵 11 <효율성> <확장성> <플랫폼 확장> HDFS Erasure Coding Multi-standby Namenode Intra Datanode Balancing GPU Yarn Support Yarn Timeline Service v2 Opportunistic Containers Multi-standby Namenode Distributed Scheduling Yarn Cloud Storage Support (AWS S3, MS Azure Data Lake)
  • 12. 데이터 플랫폼으로 클라우드의 등장 12 클라우드의 여러 장점이 있겠지만, 무엇보다도… Hadoop Object Storage (AWS S3, Azure Blob, Google Cloud Storage) • “빅데이터” 파일 시스템의 대명사 • 온프레미스 기반 환경에 주력 • 기존 시스템 대비 유연한 확장성 보유 • 다양한 오픈소스 생태계 활성화 • “클라우드” 파일 시스템의 대명사 • 기존 인터페이스를 흡수하며 클라우드에 주력 • 무제한 확장성, SLA로 벤더가 보장하는 가용성 • 새로운 시스템 구성 (MSA, Serverless)의 근간 기술
  • 13. 클라우드로의 Data Lake 개념의 확장 13 https://www.slideshare.net/steve_l/dancing-elephants-working-with-object-storage-in-apache-spark-and-hive
  • 14. HDFS 3.0 발표 1년 후 14 하둡 벤더 3사의 경영 악화 Source: https://techcrunch.com/2019/01/03/cloudera-and- hortonworks-finalize-their-merger/ Source: https://www.nextplatform.com/2019/05/31/hadoop- pioneer-mapr-faces-an-uncertain-future/
  • 15. 빅데이터 회사들의 행보 15 클라우드 적극 지원 행보로의 변경 Source : https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html 요약하면, S3 및 클라우드 스토리지들은 HDFS 에 비해 더 나은 가용성과 안정성을 보장하는 동시에 약 2배 이상의 성능을 보여주고 있으며, 그와 동시에 HDFS 클러스터 대비 약 10배는 적은 금액으로 이를 제공하고 있다고 볼 수 있다. - 결론에서의 발췌
  • 16. 분석 기술들의 발전 16 Matei Zaharia CTO & Co-Founder, Databricks 사용 편의성 확대: - 스트리밍 API에서 Spark SQL 바로 적용 딥러닝 지원 로드맵: - 딥러닝 분산 처리를 쉽게 - Spark Deep Learning 딥러닝 라이브러리 확장 (Image 지원, Text 로드맵) - Tensorflow, Keras 지원
  • 17. 딥러닝 프레임워크에 관하여 17 Tensorflow vs. Keras • node간 흐름에 대하여 Low level로 coding • cost/loss function 등의 알고리즘을 직접 구현 • 모듈화 되어 있는 Layer들을 순서대로 배치 • cost/loss function 등의 알고리즘을 제공
  • 18. 딥러닝 프레임워크 엔터프라이즈 솔루션? 18 딥러닝은 솔루션으로 사용할 수 있는가? Source: https://emerj.com/ai-executive-guides/enterprise-adoption-of-artificial-intelligence/ 현재 엔터프라이즈에서 활용하는 딥러닝은 대부분 파일럿 프로젝트 수준에 머물러 있다. AI 를 바로 존재하는 비즈니스에 적용하는 것은 불가능하며 실제 엔터프라이즈 환경 내의 연구와 개발 과정 어디에 활용할지를 이해하도록 조직 구조를 바꾸는 것이 필요하다. 즉, “분석” 에 대한 방향과 적용안을 생각하는 것을 습관화 하는 것이 중요!
  • 19. 데이터 기반의 업무 설계로의 변화 19 2019년 6월 5일 출간 ▪ 데이터 기반의 업무 설계에는 다음이 필요하다 - 업무, 기술, 데이터를 아는 조직 - 데이터 성숙도, 확장성, 데이터의 위치, 데이터의 가시성, 목표 설계 ▪ 데이터 기반 업무 설계로의 여정이란, - 잘 수집된 데이터를 언제든 활용할 수 있게 정제하고 수집 - 다양한 데이터에 대해 여러 시도를 통한 인사이트의 습득 - 분석 업무 확장에 따른 Scalability를 이루어 가는 과정 즉, One-time-solution으로의 분석 업무는 존재하지 않는다.
  • 20. 20 리서치 기관들의 Data Management System 시장 예측 자료 “컴퓨트와 스토리지의 분리”, 제프 헤일리 클라우드 이코노믹스의 사상과 일치하는 컴퓨트와 스토리지의 분리를 통해 기업들은 빅데이터와 고급 분석에 자산을 투자하는 데에 더욱 큰 유연성과 비용적인 유용성을 갖게 될 것이다. “인데이터베이스 분석”, 락시미 랜달 & 알렉산들러 린덴 정보산업과 분석산업군의 리더들은 데이터들의 이동을 최소화 하고, 데이터 집약적인 분석을 위해 많은 곳으로 분석함수가 이동하여 처리하도록 하는 In-DBMS 분석 (인데이터베이스 분석)에 관심을 기울여야 만 할 것이다. 데이터 웨어하우스 최신 트렌드 “데이터 이동의 최소화”, 애쉬시 나드카리니 IDC 에서는 다양한 곳에 안전하게 저장된 빅데이터 저장소들이 한 시스템에서 다른 시스템으로의 이관이 최소화 된 상태로 데이터 분석 기능을 극대화 할 수 있는 환경을 Data Lake로 정의한다.
  • 22. 버티카의 탄생 배경 2222 Ingres 와 Postgres 개발을 지나 C-Store 를 작성한 스톤브레이커 교수
  • 23. 버티카 데이터 분석 플랫폼 23 버티카는 현대 데이터 중심의 세상의 대용량의 복잡한 고급 분석을 지원하기 위한 분석 플랫폼으로, 높은 성능과 고급 분석과 머신 러닝을 보유한 MPP 분산 쿼리 엔진 기반의 데이터베이스 기술을 제공 SQL 데이터베이스 빠른 적재 기능과 효율적 저장 기술로 DW의 성능을 극대화 쿼리 엔진 다양한 곳에 존재하는 다양한 데이터를 한 눈에 볼 수 있는 고급 쿼리 엔진 분석과 머신러닝 고급 분석 호환 기능과 자체적인 대용량에 대한 머신러닝 기능 보유
  • 24. 분석 중심의 업무 설계를 위한 아키텍처 24 데이터 위치가 분석 업무를 수행하는 병목이 되지 않는 플랫폼 아키텍처 SQL 데이터베이스 ++ 고급분석과 머신러닝 하나의 분석 엔진으로 다양한 인프라 환경에 모두 적용하여 활용 가능 인프라의 선택 플랫폼 선택 온프레미스 클라우드의 선택 가상화 HDFS클라우드 사업자하이브리드 클라우드 쿼리 엔진
  • 25. 분석을 위한 데이터의 포맷과 위치를 지원 25 데이터의 변환을 최소화 하여 분석 업무에 집약하기 위한 플랫폼
  • 26. 대부분의 머신 러닝 알고리즘 지원 26 순수 내재화 된 SQL 기반 함수로 지원 Data Analysis Data Preparation Modeling Evaluation Deployment SQL 데이터베이스 ++ 고급분석과 머신러닝 쿼리 엔진 Linear Regression Logistic Regression K-Means Clustering Random Forrest Naive Bayes Support Vector Machines
  • 27. End-to-end 전체 머신러닝 주기를 모두 지원 27 버티카만으로 머신러닝 업무 수행이 가능 Data Analysis Data Preparation Modeling Evaluation Deployment • Statistical Summary • Time Series • Sessionize • Pattern Matching • Date/Time Algebra • Window Partition • Sequences • And more… • Outlier Detection • Normalization • Imbalanced Data Processing • Sampling • Missing Value Imputation • And More… • SVM • Random Forests • Logistic Regression • Linear Regression • Ridge Regression • Naïve Bayes • Cross Validation • And More… • Model-level Stats • ROC Tables • Error Rate • Lift Table • Confusion Matrix • R-Squared • MSE • And More… • Deploy Anywhere • In Database Scoring • Massively Parallel Processing • Speed • Scale • Security • And More… SQL 데이터베이스 ++ 고급분석과 머신러닝 쿼리 엔진
  • 28. 머신 러닝 모델 생성 28 단순한 SQL 함수로 수행 Creates new model Select table/view that contains training data Select column with dependent variable Select columns with independent variables Optional parameters for model building
  • 29. 29 R과 Python 코드를 버티카에 이동하여 병렬 프로세싱으로 분석 수행 가능
  • 30. Enterprise 와 Eon 비교 30 컴퓨팅 엔진과 스토리지의 결합과 분리 여부 Vertica Enterprise Mode (On-premises, Cloud, 또는 Hybrid) Vertica Eon Mode (Amazon Web Services, 추후 On-Premise 지원) 클라우드 이코노믹스의 동적 워크로드 요구 사항에 대응하는 컴퓨팅 리소스만 독립적으로 확장이 가능한 아키텍처 컴퓨팅 엔진과 스토리지가 강하게 결합되어 예측 가능한 워크로드를 원하는 기대 시간 내에 빠르게 처리하기 위한 아키텍처
  • 31. EC2를 컴퓨트 리소스로, S3를 데이터 저장소로 활용하여 AWS 클라우드 이코노믹스를 구현 Vertica Eon 모드 인프라의 선형적 확장. 워크로드 변경, 시즌, 피크 타임에 따라 분석에 활용되는 리소스를 탄력적으로 변경 분석 워크로드 분리. 데이터베이스를 여러 서브-클러스터로 클러스터를 분리하여 각각 다른 워크로드 수행 단순화 된 데이터베이스 관리. 쉬운 노드 복구, 월등한 워크로드 분배, 그리고 빠른 컴퓨팅 엔진 프로비저닝 컴퓨트 노드 자원의 절약. 분석 업무가 필요하지 않은 상황에는 컴퓨트 노드를 중단하거나 제거하여 자원을 절약
  • 32. 32 버티카의 빅데이터 환경 지원을 위한 오픈 아키텍처
  • 33. 데이터 분석 시장의 트렌드와 Vertica 33 ▪ 데이터 레이크 (Data Lake) - 데이터베이스와 하둡, 클라우드 오브젝트 스토리지의 연결 ▪ 인데이터베이스 분석 - 대용량 데이터에 대한 머신 러닝을 위해 머신 러닝 함수가 데이터베이스에서 수행 ▪ 컴퓨팅 엔진과 데이터 스토리지의 분리 - 데이터 이동의 최소화 • 비정형 데이터 지원 및 Kafka 연계 • 하둡 환경과의 연계 또는 설치 • Parquet, ORC 포맷 지원 (하둡, 오브젝트 스토리지) • 다양한 머신러닝 SQL 함수 지원 • R, Python 등의 사용자 생성 함수 지원 • 병렬 처리 및 워크로드 관리 기능 지원 • Vertica Eon Mode • 필요에 따른 컴퓨팅 노드 생성, 확장, 또는 제거 • 저장 스토리지 비용의 최소화 • 안정적 성능 보장을 위한 데이터 캐싱
  • 34. 버티카 고객 사례 34 데이터 중심 세상의 하루 속에 만나는 버티카 활용 사례 Smart Buildings Health / EMR Analytics Ride Share Customer Analytics Network Optimization Predictive Maintenance Route Optimization Wearable Analytics Smart Agriculture Software Optimization Clickstream Analytics Security Analysis
  • 35. IT Central 의 버티카 사용자 점수 https://www.itcentralstation.com/categories/cloud-data-warehouse https://www.itcentralstation.com/categories/data-warehouse
  • 36. 36