DB관점에서 본 빅데이터 (2019년 8월)

데이터 기술 최신 트렌드
이기훈 부장 (KeeHoon.Lee@microfocus.com)
Presales Consultant – Vertica, Asia Pacific and Japan
Micro Focus
DB 관점에서 본

본 자료의 내용은 빅데이터 분석 세미나 및 연구회 등에서의 소개 목적으로
작성되었으며, 개인적인 관점이 자료에 반영되어 있습니다.
본 자료의 내용이 “버티카” 제품이나 “마이크로포커스” 회사의 전체 관점이나 입장을
대표하지 않습니다.
2

목차
3
사례 중심의 빅데이터 분석
빅데이터 분석 기술 트렌드
- 하둡 3.0과 클라우드
- Data Lake 고도화 및 기술 발전
고급 분석을 위한 데이터 플랫폼 버티카

최신 빅데이터 분석 사례

5
고객별 최적의 네트워크
장비 수를 예측하여
비용 효율성 극대화
사용량 기반 분석으로
필요한 네트워크 장비의 양을
최적화 하여 비용 감소
우버 사용자 수요를 예측하여
우버 기사의 수를 조정 및
지리 정보 분석으로 트래픽 분산
날씨, 지역 이벤트 등을
바탕으로 대중교통 수요를
예측하여 배차 간격 자동 조절
지역이나 도시별의 체형과
트렌드 분석으로 매장별 차등
재고 준비 및 전시 위치 지정
각 장비에서 발생하는 로그를
바탕으로 장비의 장애 시점 예측
및 선제적 대응 수행

6
가장 빠르게 성장하는
포춘 500 회사
카드 결제 데이터를 기반으로
리포트 제작
헬스 데이터를 수집하여
관련 데이터를 활용할 수
있는 장비 및 솔루션 판매
고객 대상 보안 관련 분석 및
실시간 침입 탐지 서비스 제공
병원, 금융권 등 개인정보에
민감한 고객사를 주요 보유
약 50,000 개의 매장들을 대상
분석 서비스 제공
코카콜라, 델몬트, 헨켈, 로레알,
켈로그, 네슬레, 화이자 등의
고객사 보유
그 외 다양한 리테일, SNS 에서의
분석 사례

7
▪ “자사”의 데이터를 위주로 “자사”의 업무 고도화에 적용하기 위해 분석
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥥)
▪ “타사”의 데이터를 위주로 “타사”에 판매를 목적으로 분석 알고리즘 등을 개발
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥣, 분석 난이도 ⥣)
▪ “자사”의 데이터를 “타사”에 판매 목적으로 정제 및 정리
- 업무 고도화에 대한 정의를 바탕으로 분석 과제를 설계 (도메인 지식 ⥥, 분석 난이도 ⥥)
빅데이터 분석 업무의 비즈니스 케이스 사례

빅데이터 분석 기술 트렌드

HDFS 3.0 등장
9
2017년 후반 하둡 3.0의 소개

10
Source: https://www.slideshare.net/DatayaNolja/hadoop-10th-birthday-and-hadoop-3-alpha
HDFS 발전 타임라인

HDFS 3.0 주요 신기능 로드맵
11
<효율성>
<확장성>
<플랫폼 확장>
HDFS Erasure Coding
Multi-standby
Namenode
Intra Datanode
Balancing
GPU Yarn Support
Yarn Timeline
Service v2
Opportunistic
Containers
Multi-standby
Namenode
Distributed Scheduling
Yarn
Cloud Storage Support (AWS S3, MS Azure Data Lake)

데이터 플랫폼으로 클라우드의 등장
12
클라우드의 여러 장점이 있겠지만, 무엇보다도…
Hadoop
Object Storage
(AWS S3, Azure Blob, Google Cloud Storage)
• “빅데이터” 파일 시스템의 대명사
• 온프레미스 기반 환경에 주력
• 기존 시스템 대비 유연한 확장성 보유
• 다양한 오픈소스 생태계 활성화
• “클라우드” 파일 시스템의 대명사
• 기존 인터페이스를 흡수하며 클라우드에 주력
• 무제한 확장성, SLA로 벤더가 보장하는 가용성
• 새로운 시스템 구성 (MSA, Serverless)의 근간 기술

클라우드로의 Data Lake 개념의 확장
13
https://www.slideshare.net/steve_l/dancing-elephants-working-with-object-storage-in-apache-spark-and-hive

HDFS 3.0 발표 1년 후
14
하둡 벤더 3사의 경영 악화
Source: https://techcrunch.com/2019/01/03/cloudera-and-
hortonworks-finalize-their-merger/
Source: https://www.nextplatform.com/2019/05/31/hadoop-
pioneer-mapr-faces-an-uncertain-future/

빅데이터 회사들의 행보
15
클라우드 적극 지원 행보로의 변경
Source : https://databricks.com/blog/2017/05/31/top-5-reasons-for-choosing-s3-over-hdfs.html
요약하면, S3 및 클라우드 스토리지들은 HDFS 에 비해 더
나은 가용성과 안정성을 보장하는 동시에 약 2배 이상의
성능을 보여주고 있으며, 그와 동시에 HDFS 클러스터 대비
약 10배는 적은 금액으로 이를 제공하고 있다고 볼 수 있다.
- 결론에서의 발췌

분석 기술들의 발전
16
Matei Zaharia
CTO & Co-Founder, Databricks
사용 편의성 확대:
- 스트리밍 API에서 Spark SQL 바로 적용
딥러닝 지원 로드맵:
- 딥러닝 분산 처리를 쉽게
- Spark Deep Learning 딥러닝 라이브러리
확장 (Image 지원, Text 로드맵)
- Tensorflow, Keras 지원

딥러닝 프레임워크에 관하여
17
Tensorflow vs. Keras
• node간 흐름에 대하여 Low level로 coding
• cost/loss function 등의 알고리즘을 직접 구현
• 모듈화 되어 있는 Layer들을 순서대로 배치
• cost/loss function 등의 알고리즘을 제공

딥러닝 프레임워크 엔터프라이즈 솔루션?
18
딥러닝은 솔루션으로 사용할 수 있는가?
Source: https://emerj.com/ai-executive-guides/enterprise-adoption-of-artificial-intelligence/
현재 엔터프라이즈에서 활용하는 딥러닝은
대부분 파일럿 프로젝트 수준에 머물러 있다.
AI 를 바로 존재하는 비즈니스에 적용하는 것은
불가능하며 실제 엔터프라이즈 환경 내의
연구와 개발 과정 어디에 활용할지를
이해하도록 조직 구조를 바꾸는 것이 필요하다.
즉, “분석” 에 대한 방향과 적용안을 생각하는
것을 습관화 하는 것이 중요!

데이터 기반의 업무 설계로의 변화
19
2019년 6월 5일 출간
▪ 데이터 기반의 업무 설계에는 다음이 필요하다
- 업무, 기술, 데이터를 아는 조직
- 데이터 성숙도, 확장성, 데이터의 위치, 데이터의 가시성, 목표 설계
▪ 데이터 기반 업무 설계로의 여정이란,
- 잘 수집된 데이터를 언제든 활용할 수 있게 정제하고 수집
- 다양한 데이터에 대해 여러 시도를 통한 인사이트의 습득
- 분석 업무 확장에 따른 Scalability를 이루어 가는 과정
즉, One-time-solution으로의 분석 업무는 존재하지 않는다.

20
리서치 기관들의 Data Management System 시장 예측 자료
“컴퓨트와 스토리지의 분리”, 제프 헤일리
클라우드 이코노믹스의 사상과 일치하는 컴퓨트와 스토리지의 분리를 통해 기업들은
빅데이터와 고급 분석에 자산을 투자하는 데에 더욱 큰 유연성과 비용적인 유용성을
갖게 될 것이다.
“인데이터베이스 분석”, 락시미 랜달 & 알렉산들러 린덴
정보산업과 분석산업군의 리더들은 데이터들의 이동을 최소화 하고, 데이터 집약적인
분석을 위해 많은 곳으로 분석함수가 이동하여 처리하도록 하는 In-DBMS 분석
(인데이터베이스 분석)에 관심을 기울여야 만 할 것이다.
데이터 웨어하우스 최신 트렌드
“데이터 이동의 최소화”, 애쉬시 나드카리니
IDC 에서는 다양한 곳에 안전하게 저장된 빅데이터 저장소들이 한 시스템에서
다른 시스템으로의 이관이 최소화 된 상태로 데이터 분석 기능을 극대화 할 수 있는
환경을 Data Lake로 정의한다.

데이터 분석 플랫폼 버티카

버티카의 탄생 배경
2222
Ingres 와 Postgres 개발을 지나 C-Store 를 작성한 스톤브레이커 교수

버티카 데이터 분석 플랫폼
23
버티카는 현대 데이터 중심의 세상의 대용량의 복잡한 고급 분석을 지원하기 위한 분석 플랫폼으로, 높은 성능과
고급 분석과 머신 러닝을 보유한 MPP 분산 쿼리 엔진 기반의 데이터베이스 기술을 제공
SQL 데이터베이스
빠른 적재 기능과
효율적 저장 기술로
DW의 성능을 극대화
쿼리 엔진
다양한 곳에 존재하는
다양한 데이터를 한 눈에
볼 수 있는 고급 쿼리 엔진
분석과 머신러닝
고급 분석 호환 기능과
자체적인 대용량에 대한
머신러닝 기능 보유

분석 중심의 업무 설계를 위한 아키텍처
24
데이터 위치가 분석 업무를 수행하는 병목이 되지 않는 플랫폼 아키텍처
++
고급분석과 머신러닝
하나의 분석 엔진으로 다양한 인프라 환경에 모두 적용하여 활용 가능
인프라의 선택 플랫폼 선택
온프레미스
클라우드의 선택
가상화 HDFS클라우드 사업자하이브리드 클라우드
쿼리 엔진

분석을 위한 데이터의 포맷과 위치를 지원
25
데이터의 변환을 최소화 하여 분석 업무에 집약하기 위한 플랫폼

대부분의 머신 러닝 알고리즘 지원
26
순수 내재화 된 SQL 기반 함수로 지원
Data Analysis Data Preparation Modeling Evaluation Deployment
++
고급분석과 머신러닝 쿼리 엔진
Linear
Regression
Logistic
Regression
K-Means
Clustering
Random
Forrest
Naive
Bayes
Support Vector
Machines

End-to-end 전체 머신러닝 주기를 모두 지원
27
버티카만으로 머신러닝 업무 수행이 가능
Data Analysis Data Preparation Modeling Evaluation Deployment
• Statistical Summary
• Time Series
• Sessionize
• Pattern Matching
• Date/Time Algebra
• Window Partition
• Sequences
• And more…
• Outlier Detection
• Normalization
• Imbalanced Data
Processing
• Sampling
• Missing Value
Imputation
• And More…
• SVM
• Random Forests
• Logistic Regression
• Linear Regression
• Ridge Regression
• Naïve Bayes
• Cross Validation
• And More…
• Model-level Stats
• ROC Tables
• Error Rate
• Lift Table
• Confusion Matrix
• R-Squared
• MSE
• And More…
• Deploy Anywhere
• In Database Scoring
• Massively Parallel
Processing
• Speed
• Scale
• Security
• And More…
++
고급분석과 머신러닝 쿼리 엔진

머신 러닝 모델 생성
28
단순한 SQL 함수로 수행
Creates new
model
Select table/view that
contains training data
Select column with
dependent variable
Select columns with
independent variables
Optional parameters
for model building

29
R과 Python 코드를
버티카에 이동하여
병렬 프로세싱으로
분석 수행 가능

Enterprise 와 Eon 비교
30
컴퓨팅 엔진과 스토리지의 결합과 분리 여부
Vertica Enterprise Mode
(On-premises, Cloud, 또는 Hybrid)
Vertica Eon Mode
(Amazon Web Services, 추후 On-Premise 지원)
클라우드 이코노믹스의 동적 워크로드
요구 사항에 대응하는 컴퓨팅 리소스만
독립적으로 확장이 가능한 아키텍처
컴퓨팅 엔진과 스토리지가 강하게 결합되어
예측 가능한 워크로드를 원하는 기대 시간
내에 빠르게 처리하기 위한 아키텍처

EC2를 컴퓨트 리소스로, S3를 데이터 저장소로
활용하여 AWS 클라우드 이코노믹스를 구현
Vertica Eon 모드
인프라의 선형적 확장. 워크로드 변경,
시즌, 피크 타임에 따라 분석에 활용되는
리소스를 탄력적으로 변경
분석 워크로드 분리. 데이터베이스를
여러 서브-클러스터로 클러스터를
분리하여 각각 다른 워크로드 수행
단순화 된 데이터베이스 관리. 쉬운 노드
복구, 월등한 워크로드 분배, 그리고 빠른
컴퓨팅 엔진 프로비저닝
컴퓨트 노드 자원의 절약. 분석 업무가
필요하지 않은 상황에는 컴퓨트 노드를
중단하거나 제거하여 자원을 절약

32
버티카의 빅데이터 환경 지원을 위한 오픈 아키텍처

데이터 분석 시장의 트렌드와 Vertica
33
▪ 데이터 레이크 (Data Lake)
- 데이터베이스와 하둡, 클라우드 오브젝트
스토리지의 연결
▪ 인데이터베이스 분석
- 대용량 데이터에 대한 머신 러닝을 위해
머신 러닝 함수가 데이터베이스에서 수행
▪ 컴퓨팅 엔진과 데이터 스토리지의 분리
- 데이터 이동의 최소화
• 비정형 데이터 지원 및 Kafka 연계
• 하둡 환경과의 연계 또는 설치
• Parquet, ORC 포맷 지원 (하둡, 오브젝트 스토리지)
• 다양한 머신러닝 SQL 함수 지원
• R, Python 등의 사용자 생성 함수 지원
• 병렬 처리 및 워크로드 관리 기능 지원
• Vertica Eon Mode
• 필요에 따른 컴퓨팅 노드 생성, 확장, 또는 제거
• 저장 스토리지 비용의 최소화
• 안정적 성능 보장을 위한 데이터 캐싱

버티카 고객 사례
34
데이터 중심 세상의 하루 속에 만나는 버티카 활용 사례
Smart
Buildings
Health / EMR
Analytics
Ride
Share
Customer
Analytics
Network
Optimization
Predictive
Maintenance
Route
Optimization
Wearable
Analytics
Smart
Agriculture
Software
Optimization
Clickstream
Analytics
Security
Analysis

IT Central 의 버티카 사용자 점수
https://www.itcentralstation.com/categories/cloud-data-warehouse https://www.itcentralstation.com/categories/data-warehouse

DB관점에서 본 빅데이터 (2019년 8월)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DB관점에서 본 빅데이터 (2019년 8월)

Similar to DB관점에서 본 빅데이터 (2019년 8월) (20)

DB관점에서 본 빅데이터 (2019년 8월)