O documento discute como o Great Expectations e o Spark podem ser usados juntos para escalar a qualidade de dados no Modern Data Stack. Ele explica o que é o Great Expectations, como ele pode definir expectativas e testar dados, e apresenta um exemplo de arquitetura onde os testes do Great Expectations são executados no Spark para validar dados armazenados em um Data Lake.
Escalando a Qualidade de Dados com Great Expectations e Spark no Modern Data Stack
1. TRILHA ARQUITETURA DE DADOS
Escalando a Qualidade de Dados com
Great Expectations e Spark
no Modern Data Stack
Innovation 2023
2. - Data Platform Manager @ Dadosfera;
- Bacharel em Sistemas de Informação pelo
IFG;
- Pós graduado em Big Data e Machine
Learning pela Fasam;
Cicero Moura
cicerojmm
/in/cicero-moura
/cicerojmm
4. 4
“O Modern Data Stack é um conjunto flexível de
tecnologias que ajudam as empresas a
armazenar, gerenciar e aprender com seus
dados de forma rápida e eficiente”.
5. Por que agora?
5
● Amadurecimento da área de Dados;
● Tecnologias mais sólidas;
● Conceitos e práticas onde é possível formar o
Modern Data Stack (MDS).
6. Pilares do MDS
6
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
7. Pilares do MDS
7
Reverse ETL
Metrics Layer
Data Mesh
Data Catalog
3.0
Data Team
as Product
Team
Data
Observability
Data Quality
12. O que é o Great Expectations?
12
● O Great Expectations (GE) é uma ferramenta de
qualidade de dados open source;
● É possível definir expectativas sobre seus dados e
verificar se elas atendem ou não.
■ Expectativas padrões;
■ Expectativas customizadas e;
■ Perfil completo sobre os dados.
13. Principais funcionalidades
13
● Testes de dados diretamente de dataframes criados
com Pandas ou Spark;
● Documentação dos testes em HTML de forma
automática;
● Criação de suítes e checkpoints dos testes;
● CLI que facilita a criação dos casos de testes;
15. Cenário de Negócio - Exemplo
15
● Temos dados armazenados em um Data Lake que se
encontra no S3 da AWS;
● Precisamos verificar a qualidade dos dados antes
que o negócio tome decisões críticas em cima deles;
● Os dados são sobre vendas de produtos de um
e-commerce.
26. Dicas e insights
26
● O Great Expectations possui uma comunidade bem
ativa e com muitas evoluções;
● É interessante criar um framework para
desenvolvimento e padronização da qualidade de
dados;
● Criar relatório para monitoramento da qualidade de
dados;
● Agregar o Great Expectations com um catálogo de
dados é essencial;
27. 27
Mais do que ter os dados disponíveis para
análise, é preciso garantir a qualidade deles.