Tachyon 2015 08 China

内存为中心的大数据
分布式存储系统
范斌,
软件工程师
Tachyon Nexus
2015/08/30 @ 南京

• Tachyon项目的创始人及核心开发人员
• A轮融资： Andreessen Horowitz，750万美元
• 致力于Tachyon开源项目
2
www.tachyonnexus.com

大纲
• Tachyon系统
– 背景
– 系统架构
– 使用
• Tachyon开源项目
– 近况
– 产品用例
• 路线图
5

大纲
• Tachyon系统
– 背景
– 系统架构
– 使用
– 近况
– 产品用例
• 路线图
6

Tachyon
7
• 一种假想的超光速粒子
• 发音: ['tækiːˌɒn]

Tachyon从UC Berkeley AMPLab诞生
8
服务器集群管理并发计算平台
可靠, 分布式，以内存为中心的存储系统

9
我们为什么需要Tachyon?

DRAM正越来越快
10
Memory-locality：达到交互级别响应的关键

DRAM正越来越便宜
source: jcmit.com
11

涌现出的In-Memory平台
12

14
缺少存储层面的解决方
案

一个例子: -
• In-memory大数据处理框架
• 在JVM中存储one in-memory copy
• 记录并使用 lineage 来重建遗失数据
map
filter map
join reduce
Lineage Tracking
15

问题一
16
数据共享可能成为瓶颈:
Slow writes to disk
Spark Job1 Spark Job2
block 1
HDFS / Amazon S3
block 1
block 1

问题一
17
数据共享可能成为瓶颈:
Slow writes to disk
Spark Job1
Hadoop MR
Job
block 1
HDFS / Amazon S3
block 1
block 1

问题二
18
Spark Task
Spark memory
block manager
block 1
block 3
HDFS / Amazon S3
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
进程崩溃会导致缓存的数据丢失

19
crash
Spark memory
block manager
block 1
block 3
HDFS / Amazon S3
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
问题二

HDFS / Amazon S3
20
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
crash
问题二

HDFS / Amazon S3
问题三
21
In-memory数据重复 & JVM GC
Spark Task1
Spark mem
block manager
block 1
block 3
Spark Task2
Spark mem
block manager
block 3
block 1
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
(duplication & GC)

Tachyon
Reliable data sharing
at memory-speed
within and across cluster
frameworks/jobs
22

概述
基本想法
• 围绕DRAM为中心的存储架构
• 在存储层实现lineage
• 管理tiered storage
实践
• 保持一份数据在DRAM
• 通过Re-computation保证容错
23

解决问题一
28
以内存读写速度共享数据:
跨Job/Framework
Spark Job1
HDFS / Amazon S3
Tachyon
in-memory
block 1
Hadoop MR
Job

HDFS / Amazon S3
block 1
block 3
block 2
block 4
Tachyon
in-memory
block 1
block 3 block 4
解决问题二
29
Spark Task
Spark memory
block manager
execution engine &
storage engine
same process
保护 in-memory数据安全，
即使遭遇JVM进程崩溃.
.

解决问题二
30
HDFS
disk
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
Tachyon
in-memory
block 1
block 3 block 4
crash
HDFS / Amazon S3
block 1
block 3
block 2
block 4
保护 in-memory数据安全，
即使遭遇JVM进程崩溃.

解决问题三
31
避免in-memory数据重复, 减少 GC
Spark Task
Spark mem
Spark Task
Spark mem
HDFS / Amazon S3
block 1
block 3
block 2
block 4
execution engine &
storage engine
same process
(no duplication & GC)
HDFS
disk
block 1
block 3
block 2
block 4
Tachyon
in-memory
block 1
block 3 block 4

Spark/MapReduce/Shark
without Tachyon
• Spark
scala> val file = sc.textFile(“hdfs://ip:port/path”)
• Hadoop MapReduce
$ hadoop jar hadoop-examples-1.0.4.jar wordcount
hdfs://localhost:19998/input
hdfs://localhost:19998/output
• Shark
CREATE TABLE orders_cached AS SELECT * FROM orders;
34

Spark/MapReduce/Shark
with Tachyon
• Spark
scala> val file = sc.textFile(“tachyon://ip:port/path”)
• Hadoop MapReduce
$ hadoop jar hadoop-examples-1.0.4.jar wordcount
tachyon://localhost:19998/input
tachyon://localhost:19998/output
• Shark
CREATE TABLE orders_tachyon AS SELECT * FROM orders;
35

大纲
• Tachyon系统
– 背景
– 系统架构
– 使用
– 近况
– 产品用例
• 路线图
36

开源项目概述
• 2012年夏天于UC Berkeley AMPLab开始
• Apache License 2.0, Version 0.7 (2015年7月)
• 在超过50家公司部署 (2014年7月数据)
• 有超过30家公司参与贡献代码
37

项目Contributor飞速增长
38
v0.4
Feb ‘14
v0.3
Oct ‘13
v0.2
Apr ‘13
v0.1
Dec ‘12
v0.6
Mar ‘15
v0.5
Jul ‘14
v0.7
Jul ‘15
1 3
15
30
46
70
111

代码量飞速增长
v0.4
Feb ‘14
v0.3
Oct ‘13
v0.2
Apr ‘13
39
v0.6
Mar ‘15
v0.5
Jul ‘14
v0.7
Jul ‘15
465
commits
696
commits
1080
commits
1610
commits
2884
commits
4969
commits

感谢我们的Contributors!
40

南京大学PASA大数据实验室
• 顾荣博士
– Tachyon开源不到4个月便加入社区
– Tachyon项目核心开发者, Meetup组织者
• 5+ contributor
• 200+ commits
• Performance Benchmark, Tiered Storage
41

• 合作2年以上
• 10+ contributor
• 500+ commits
• Tiered Storage, System Stability, Security
42

Under Filesystem: 丰富的选择
(Big Data, Cloud, HPC, Enterprise)
44

• Framework: SparkSQL
• Tachyon Storage: MEM + HDD
• Under Storage: Baidu’s File System
• 部署规模: 100+ 节点
• 管理存储容量: 1PB+
• 提升性能: 30x
More Details: www.meetup.com/Tachyon
用例一: Baidu
45

用例二: SAAS公司
• Framework: Impala
• Tachyon Storage: MEM + SSD
• Under Storage: S3
• 提升性能: 15x
46

用例三: 石油公司
• Framework: Spark
• Tachyon Storage: MEM
• Under Storage: GlusterFS
• 分析传统存储系统中的数据
47

用例四: SAAS公司
• Framework: Spark
• Tachyon Storage: SSD
• Under Storage: S3
• Elastic Tachyon deployment
48

大纲
• Tachyon系统
– 背景
– 系统架构
– 使用
– 近况
– 产品用例
• 路线图
49

新功能
• Lineage in Storage (alpha)
• Tiered Storage (beta)
50

新功能
• Lineage in Storage (alpha)
• Tiered Storage (beta)
• Data Serving
• Support for New Hardware
• …
• Your New Feature!
51

更方便更有效的使用其他系统
欢迎合作!
53JIRA New Contributor Tasks

• Website: http://tachyon-project.org
• Github: https://github.com/amplab/tachyon
• Meetup: http://www.meetup.com/Tachyon
• New Contributor Tasks: http://goo.gl/zmt2PS
• News Letter Subscription: http://goo.gl/mwB2sX
• Email: binfan@tachyonnexus.com
54

Tachyon 2015 08 China

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (10)

Similar to Tachyon 2015 08 China

Similar to Tachyon 2015 08 China (20)

Tachyon 2015 08 China

Editor's Notes