Big Data e seu fiel companheiro Spark

SPARK
BIG DATA E SEU FIEL COMPANHEIRO

ENGENHEIRO DE
DADOS NA
GLOBO.COM
@renan_oliveira

NÃO É DE COMER, EU ACHO..
É UM FRAMEWORK
▸ Simples e Performático
▸ Processamento de grandes dados
▸ Descomplicando “big data”
▸ Para desenvolvedores
▸ Estatísticos Friendly
▸ DataFrames estilo Pandas e R
▸ Multi linguagens e databases
▸ Além do Map/Reduce

SPARK
SQL
SPARK
STREAMING MLLIB GRAPHX PACKAGES
DATASET API
LOGICAL PLAN
PHYSICAL PLAN/TUNGSTEN EXECUTION

DATASETS
DE RDD E DATAFRAME PARA

DATASET É A FORMA QUE O SPARK
CONSEGUE SER PERFORMÁTICO, ELE CRIA
“MAGICAMENTE" UM PLANO DE AÇÃO
DISTRIBUÍDO SOBRE AQUELA AÇÃO.
DATASET É LINDO - DATAFRAME É O NOVO DATASET[ROW]

GRANDESDADOS.COM
PRA QUE USAMOS NA GLOBO.COM
▸ recommendation
▸ machine learning
▸ analytics
▸ a/b test
▸ pipeline
▸ workﬂow
▸ data driven organization

▸ + 50 jobs em produção nesse
momento
▸ Streaming e Batch
▸ Scala e Python
▸ MLlib e SQL
▸ Desde a versão 0.9, 2013
▸ +120 pessoas já usaram na
globo.com
E AÍ VCS USAM MESMO?

UM DOS MAIORES CASES DO BRASIL
SHOW ME THE NUMBERS
▸ 50 milhões de usuários únicos
mês
▸ 3.5 bilhões de eventos por dia
▸ 100 mil novos conteúdos
▸ 1 milhão de conexões
simultâneas

▸ SQL
▸ Algoritmos prontos
▸ Otimizações gratuitas
▸ Open-Souce
▸ Comunidade enorme
▸ maior projeto da apache
▸ n consultorias
VOU TER QUE APRENDER UM MUNDO NOVO?

SPARK 2.0
o que era bom ficou
melhor!

10X MAIS RÁPIDO QUE A 1.6
PARA OPERAÇÕES EM SQL
Spark Release
VELOCIDADE É IMPORTANTE

SCALA - AIRFLOW
EM SERVIÇOS/APIS

val pageview = spark.read.parquet(path)
val pvByUserAndProduct = pageview
.groupBy("user", "product")
.count()
pvByUserAndProduct.describe().show()
summary count
count 25236
mean 2.45276
stddev 2.02837
min 1
max 40

val pvValidUsers = removeFromPartitions(pvByUserAndProduct)
def removeFromPartitions(df: DataFrame): DataFrame = {
df.cache()
val partitions = df.select("product").distinct().collect()
val cleanedPartitionsData = partitions.par.map { row =>
val partition = row(0)
val partitionData = df.filter(df("product") === partition)
val cutted = cut99(partitionData)
partitionData.filter(partitionData("count") < cutted)
}
val result = cleanedPartitionsData.reduce[DataFrame] {
case (leftDF, rightDF) => leftDF union rightDF
}
result
}
def cut99(df: DataFrame): Double = {
df.stat.approxQuantile("count", Array(0.99), 0.001).head
}

val pvValidUsers = removeFromPartitions(pvByUserAndProduct)
pvValidUsers.describe().show()
summary count
count 24983
mean 2.33754
stddev 1.79223
min 1
max 9

JUPYTER - PYTHON
ESTAMOS MUDANDO A EMPRESA COM

IF YOU WANT TO
CONVINCE ME OF
SOMETHING…
SHOW ME NUMBERS

OBRIGADO!
RENAN OLIVEIRA - @RENAN_OLIVEIRA
WWW.RENANOLIVEIRA.NET
WWW.GRANDESDADOS.COM

Big Data e seu fiel companheiro Spark

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Big Data e seu fiel companheiro Spark

Similar to Big Data e seu fiel companheiro Spark (20)

More from Renan Moreira de Oliveira

More from Renan Moreira de Oliveira (16)

Big Data e seu fiel companheiro Spark