SlideShare a Scribd company logo
1 of 23
Filiação Partidária e Risco de Corrupção
de Servidores Públicos Federais
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
Brasil 100% Digital: 1º Seminário sobre Análise de Dados na
Administração Pública | 11/09/2015 @ TCU
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
2
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
3
Introdução
INTERESSES
ILEGÍTIMOS
CORRUPÇÃO FILIAÇÃO
Partido
Político
4
Introdução
Objetivo
5
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
6
Entendimento do Negócio
DIE
PREVENÇÃO E COMBATE À CORRUPÇÃO
Diretoria de
Pesquisas e
Informações
Estratégicas
Servidores públicos federais
alocados em todos os estados
PRIORIZAÇÃO EFETIVA
EM LARGA ESCALA
SERVIDOR
PÚBLICO
FEDERAL
Equipe
Reduzida
7
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
8
Entendimento dos Dados
SIAPE TSE
BD PRINCIPAL
SERVIDORES
FILIADOS
TCU
RFB
CGU
CEAFCORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
CORRUPTO
NÃO-CORRUPTO
SERVIDOR PÚBLICO
Cadastro de servidores
Dados de filiação partidária
9
Entendimento dos Dados
SIAPE TSE
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
 
2
1 12
k l
ij ij
i j
ij
O E
E
  



2
1 158 
H0: Variáveis são
independentes
H0 não pode
ser aceita
10
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
11
Preparação dos Dados
CORRUPTOS
FILIADOS
NÃO-CORRUPTOS
FILIADOS
LIMPEZA DE DADOS
 Valores inválidos
Total de dias filiado
Número máximo de dias
filiado a um partido
Maior código de motivo de
cancelamento
SELEÇÃO DE ATRIBUTOS
 Correlation-Based
 3 atributos selecionados
UNDERSAMPLING
 Não-Corruptos filiados
AGREGAÇÃO
 6 Atributos
ATRIBUTOS FINAIS
12
Preparação dos Dados
DISCRETIZAÇÃO
 Multi-interval (MI)
 Equal-Freq. (EQ)
 Prop. K-int. (PKI)
9
NORMALIZAÇÃO
Média 0
Variância 1
1
10 datasets
Total de dias filiado
Número máximo de dias
filiado a um partido
Maior código de motivo de
cancelamento
ATRIBUTOS FINAIS
13
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
14
Modelagem
TREINAMENTO = 90%
TESTE = 10%
Bayesian Networks (BN)
Random Forest (RF)
Support Vector Machines (SVM)
Artificial Neural Networks (ANN)
MetaCost WRAPPER
[0.0 1.0]
[5.0 0.0]
CUSTO de FALSOS POSITIVOS
15
Modelagem  4 algoritmos x 10 datasets = 40 modelos
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
16
Avaliação
DATASET 4
 Atrib. 1 = MI
 Atrib. 2 = PKI
RESULTADO MÉDIO DOS 4 ALGORITMOS PARA CADA DATASET
17
Avaliação
RANDOM FOREST
RESULTADO FINAL POR ALGORITMO PARA DATASET 4
18
Avaliação
86%
15% +
13% +
12% -
 7% +
COMPARAÇÃO FINAL ENTRE
MODELO DE ESPECIALISTAS
E MODELO GERADO PELO RANDOM FOREST
(DADOS DE TESTE)
19
Avaliação
CONFIRMOU
+ COD_MAIOR_MOTIV_CANC
+ RISCO DE CORRUPÇÃO
IGNOROU
NR_PARTIDOS_FILIADO
GANHO DE CONHECIMENTO
+ NR_DIAS_FILIADO
 - RISCO DE CORRUPÇÃO
VISUALIZAÇÃO DE UMA DAS ÁRVORES DO MODELO
20
Roteiro
1) Introdução
2) Entendimento do Negócio
3) Entendimento dos Dados
4) Preparação dos Dados
5) Modelagem
6) Avaliação
7) Conclusão
CRISP-DM
21
Conclusão
1) Dados apoiam hipótese (Filiação Partidária  Corrupção)
2) Resultados justificam uso de aprendizagem de máquina
3) Análise piloto de risco de corrupção na DIE / CGU
4) Trabalho gerou artigo aceito em conferência internacional
 BRACIS 2014 – Brazilian Conference on Intelligent Systems
 Using Political Party Affiliation Data to Measure Civil Servants’ Risk of Corruption
 http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6984825
22
Obrigado!
Ricardo Silva Carvalho – CGU/SE/DIE/CGIE
ricardo.carvalho@cgu.gov.br
ricardosc@gmail.com
LinkedIn: br.linkedin.com/in/ricardoscr
23

More Related Content

Viewers also liked

O Uso de Tecnologia da Informação na Prevenção e no Combate à Corrupção
O Uso de Tecnologia da Informação na Prevenção e no Combate à CorrupçãoO Uso de Tecnologia da Informação na Prevenção e no Combate à Corrupção
O Uso de Tecnologia da Informação na Prevenção e no Combate à CorrupçãoEditora Fórum
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosRafael Albani
 

Viewers also liked (19)

Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05   03 - Gustavo - Markus - Busca de vínculos na Administração PúblicaPainel 05   03 - Gustavo - Markus - Busca de vínculos na Administração Pública
Painel 05 03 - Gustavo - Markus - Busca de vínculos na Administração Pública
 
Taller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCUTaller Innovación - Innovación como solución para problemas complejos - TCU
Taller Innovación - Innovación como solución para problemas complejos - TCU
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
Control social 2016 - la visión del Tribunal de Cuentas de la Unión - 1
 
Presentación del ccc - TCU
Presentación del ccc   - TCUPresentación del ccc   - TCU
Presentación del ccc - TCU
 
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...Painel 04   03 - leon - Construção de modelos preditivos para melhoria na sel...
Painel 04 03 - leon - Construção de modelos preditivos para melhoria na sel...
 
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...Painel 05   02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
Painel 05 02 - Remis Balaniuk - modelo bayesiano de analise de risco de con...
 
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.Control social 2016 -  la visión del Tribunal de Cuentas de la Unión.
Control social 2016 - la visión del Tribunal de Cuentas de la Unión.
 
Innovación como solución para problemas complejos -2016- TCU - 2
Innovación como solución para problemas complejos -2016-   TCU - 2Innovación como solución para problemas complejos -2016-   TCU - 2
Innovación como solución para problemas complejos -2016- TCU - 2
 
La visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCULa visión del ministerio de planificación- TCU
La visión del ministerio de planificación- TCU
 
Presentación del instituto serzedello corrêa - TCU
Presentación del instituto serzedello corrêa  - TCUPresentación del instituto serzedello corrêa  - TCU
Presentación del instituto serzedello corrêa - TCU
 
O Uso de Tecnologia da Informação na Prevenção e no Combate à Corrupção
O Uso de Tecnologia da Informação na Prevenção e no Combate à CorrupçãoO Uso de Tecnologia da Informação na Prevenção e no Combate à Corrupção
O Uso de Tecnologia da Informação na Prevenção e no Combate à Corrupção
 
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...Painel 03   03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
Painel 03 03 - lucas freire - Filtros econômicos e combate a cartéis em lic...
 
Dawarehouse e OLAP
Dawarehouse e OLAPDawarehouse e OLAP
Dawarehouse e OLAP
 
Ministro Benjamin Zymler (TCU) - Apresentação "Colóquio: As Novas Vertentes d...
Ministro Benjamin Zymler (TCU) - Apresentação "Colóquio: As Novas Vertentes d...Ministro Benjamin Zymler (TCU) - Apresentação "Colóquio: As Novas Vertentes d...
Ministro Benjamin Zymler (TCU) - Apresentação "Colóquio: As Novas Vertentes d...
 
Design thinking 2016 - Herramientas
Design thinking 2016 -  HerramientasDesign thinking 2016 -  Herramientas
Design thinking 2016 - Herramientas
 
Control social 2016 - la visión de la cámara de diputados.
Control social 2016 -  la visión de la cámara de diputados.Control social 2016 -  la visión de la cámara de diputados.
Control social 2016 - la visión de la cámara de diputados.
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
 
Introdução a Bancos de Dados
Introdução a Bancos de DadosIntrodução a Bancos de Dados
Introdução a Bancos de Dados
 

Similar to Filiação Partidária e Risco Corrupção

Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalRommel Carvalho
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningJosias Oliveira
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasRommel Carvalho
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Tesla ADS - Além da fraude com inteligência artificial
Tesla ADS - Além da fraude com inteligência artificialTesla ADS - Além da fraude com inteligência artificial
Tesla ADS - Além da fraude com inteligência artificialJonathan Baraldi
 
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidadeCarlos Augusto Oeiras
 
Como o SERPRO Atende os Direitos dos Titulares
Como o SERPRO Atende os Direitos dos TitularesComo o SERPRO Atende os Direitos dos Titulares
Como o SERPRO Atende os Direitos dos TitularesDouglas Siviotti
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e AplicaçõesLeandro de Castro
 
Webinar - FME para Agronegócio
Webinar - FME para Agronegócio Webinar - FME para Agronegócio
Webinar - FME para Agronegócio Solutial OFICIAL
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Rodrigo Dornel
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL ServerRodrigo Dornel
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosCicero Joasyo Mateus de Moura
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
 
Gerenciamento da qualidade total 6sigma marcus vinicius carina
Gerenciamento da qualidade total 6sigma marcus vinicius carinaGerenciamento da qualidade total 6sigma marcus vinicius carina
Gerenciamento da qualidade total 6sigma marcus vinicius carinaMarcus Vinicius Carina
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteJuly A. M. Rizzo
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Joao Galdino Mello de Souza
 
Apresentação TSPD 1
Apresentação TSPD 1Apresentação TSPD 1
Apresentação TSPD 1summitcti
 

Similar to Filiação Partidária e Risco Corrupção (20)

Mapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federalMapeamento de risco de corrupção na administração pública federal
Mapeamento de risco de corrupção na administração pública federal
 
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine LearningPalestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
Palestra Cobisa-2019 - Desenvolvendo Cultura Analítica e Machine Learning
 
Detecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de comprasDetecção preventiva de fracionamento de compras
Detecção preventiva de fracionamento de compras
 
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...Painel 03   01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
Painel 03 01 - Rommel Carvalho - detecção preventiva de fracionamento de co...
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Tesla ADS - Além da fraude com inteligência artificial
Tesla ADS - Além da fraude com inteligência artificialTesla ADS - Além da fraude com inteligência artificial
Tesla ADS - Além da fraude com inteligência artificial
 
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidade
 
Pesquisa sobre o uso de IHC e Métodos Ágeis
Pesquisa sobre o uso de IHC e Métodos ÁgeisPesquisa sobre o uso de IHC e Métodos Ágeis
Pesquisa sobre o uso de IHC e Métodos Ágeis
 
Como o SERPRO Atende os Direitos dos Titulares
Como o SERPRO Atende os Direitos dos TitularesComo o SERPRO Atende os Direitos dos Titulares
Como o SERPRO Atende os Direitos dos Titulares
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações
 
Webinar - FME para Agronegócio
Webinar - FME para Agronegócio Webinar - FME para Agronegócio
Webinar - FME para Agronegócio
 
Mineração com sql server 2008 r2
Mineração com sql server 2008 r2Mineração com sql server 2008 r2
Mineração com sql server 2008 r2
 
CVitae- Sergio Della Nina
CVitae- Sergio Della Nina CVitae- Sergio Della Nina
CVitae- Sergio Della Nina
 
Biweek Mineração de Dados com SQL Server
Biweek   Mineração de Dados com SQL ServerBiweek   Mineração de Dados com SQL Server
Biweek Mineração de Dados com SQL Server
 
Big Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dadosBig Data na prática: como construir um Data Lake para análise de dados
Big Data na prática: como construir um Data Lake para análise de dados
 
Virtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine LearningVirtualização de dados para Advanced Analytics e Machine Learning
Virtualização de dados para Advanced Analytics e Machine Learning
 
Gerenciamento da qualidade total 6sigma marcus vinicius carina
Gerenciamento da qualidade total 6sigma marcus vinicius carinaGerenciamento da qualidade total 6sigma marcus vinicius carina
Gerenciamento da qualidade total 6sigma marcus vinicius carina
 
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligenteSAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
SAP Forum Brasil 2018 - A importância dos dados para a empresa inteligente
 
Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)Modelagem Analítica – Queueing Theory (Part I)
Modelagem Analítica – Queueing Theory (Part I)
 
Apresentação TSPD 1
Apresentação TSPD 1Apresentação TSPD 1
Apresentação TSPD 1
 

More from Tribunal de Contas da União - TCU (Oficial)

Painel 03 02 - joão batista - classificação de risco de transferências volu...
Painel 03   02 - joão batista - classificação de risco de transferências volu...Painel 03   02 - joão batista - classificação de risco de transferências volu...
Painel 03 02 - joão batista - classificação de risco de transferências volu...Tribunal de Contas da União - TCU (Oficial)
 

More from Tribunal de Contas da União - TCU (Oficial) (9)

Painel 03 02 - joão batista - classificação de risco de transferências volu...
Painel 03   02 - joão batista - classificação de risco de transferências volu...Painel 03   02 - joão batista - classificação de risco de transferências volu...
Painel 03 02 - joão batista - classificação de risco de transferências volu...
 
Painel 02 03 - Rommel Carvalho - identificação automática de tipos de pedid...
Painel 02   03 - Rommel Carvalho - identificação automática de tipos de pedid...Painel 02   03 - Rommel Carvalho - identificação automática de tipos de pedid...
Painel 02 03 - Rommel Carvalho - identificação automática de tipos de pedid...
 
Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em...
Painel 02   02 - Thiago Marzagão -  classificação automatizada de produtos em...Painel 02   02 - Thiago Marzagão -  classificação automatizada de produtos em...
Painel 02 02 - Thiago Marzagão - classificação automatizada de produtos em...
 
Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplica...
Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplica...Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplica...
Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplica...
 
Painel 01 02 - felipe fonseca - Classificação de clientes bancários com bai...
Painel 01   02 - felipe fonseca - Classificação de clientes bancários com bai...Painel 01   02 - felipe fonseca - Classificação de clientes bancários com bai...
Painel 01 02 - felipe fonseca - Classificação de clientes bancários com bai...
 
Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...Painel 01   01 - tiago hillermam - Análise de Cobranças Suspeitas  de Consult...
Painel 01 01 - tiago hillermam - Análise de Cobranças Suspeitas de Consult...
 
Painel 00 02 - Gilson Libório - a visão da controladoria-geral da união
Painel 00   02 - Gilson Libório - a visão da controladoria-geral da uniãoPainel 00   02 - Gilson Libório - a visão da controladoria-geral da união
Painel 00 02 - Gilson Libório - a visão da controladoria-geral da união
 
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
Painel 00   01 - wesley - Análise de dados como ferramenta estratégica para o...Painel 00   01 - wesley - Análise de dados como ferramenta estratégica para o...
Painel 00 01 - wesley - Análise de dados como ferramenta estratégica para o...
 
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Painel 01   03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...Painel 01   03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
Painel 01 03 - leonardo teles - Projeto CNAE: Algoritmo para classificação ...
 

Filiação Partidária e Risco Corrupção