SlideShare a Scribd company logo
1 of 21
Download to read offline
https://dacon.io
AI프렌즈 시즌3
공공데이터를 활용한 전력수요
및 SMP 예측 경진대회
최정명
목차
1
2
3
STEP 1
STEP 2
STEP 3
https://dacon.io 2
데이터 전처리 & EDA
모델 구축 & 학습
결과 및 결언
데이터 전처리 &EDA
모델 구축 & 학습
결과 및 결언
• 변수 선택
• 모델 구축
• 훈련
• 예측
• 외부 데이터
• 데이터 전처리
• 데이터 결합
• EDA
https://dacon.io 3
1-1 외부데이터 -SMP
https://www.kpx.or.kr/www/contents.do?key=226
대회에서 제공되는 데이터들과 같은 데이터를 사용
일별 제주 지역의 SMP 최대, 최소, 가중평균의 데이터를 수집
기간 : 2010-01-01 ~ 2020-05-18
https://dacon.io 4
1-1 외부데이터 - supply
https://www.kpx.or.kr/www/contents.do?key=356
대회에서 제공되는 데이터들과 같은 데이터 + 추가 데이터를 사용
일별 제주지역의 설비용량, 공급능력, 최대전력, 공급예비력, 예비율 데이터를 수집
기간 : 2010-01-01 ~ 2020-05-18
https://dacon.io 5
1-1 외부데이터 – 제주 기온
https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36
대회에서 제공되는 데이터들과 같은 데이터를 사용
일별 제주 지역에서 측정된 지점별 평균, 최저, 최고 기온을 수집
기간 : 2010-01-01 ~ 2020-05-18
https://dacon.io 6
1-2 supply 데이터 전처리
2016년 5월 17일 데이터에서 결측값이 존재하여 전 날과 다음 날의 평균으로 대체
각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합
https://dacon.io 7
1-2 SMP 데이터 전처리
각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합
https://dacon.io 8
1-2 제주 기온 데이터 전처리
각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합
제주 지점별 데이터에서 평균, 최고, 최저 기온을 일별로 평균낸다.
https://dacon.io 9
1-3 데이터 결합
앞에서 생성 했던 supply, SMP, 기온 데이터들을 결합한다.
추가로 날짜를 통해 month, day, dayofweek 데이터를 생성하여 데이터를 결합한다.
https://dacon.io 10
1.4 EDA - supply
• Supply 데이터는 분기별 특성을 가지는 것으로 보인다.
• 과거에서 현재로 올수록 저점과 고점이 꾸준히 상상하는 형태가 나타난다.
• 저점 보다 고점이 더 큰 폭으로 커지는 것으로 보인다.
• 날짜 데이터와 이전 며칠동안 측정된 supply 데이터가 예측하는데 큰 영향을 끼칠 것으로 예상된다.
https://dacon.io 11
1-4 EDA – SMP(max)
• 중간중간 위로 치솟는 데이터가 존재
• 10년 동안의 자료로 보아선 분기별 특성이 뚜렷하게 나타나지는 않는 것 처럼 보인다.
• 상승할 때는 꾸준히 상승하고 하락할 대는 꾸준히 하락하는 모습을 보인다.
• 하락과 상승이 뚜렷하게 보이지 않고 횡보하는 형태를 나타날 때는 날별로 큰 변동이 보인다.
• 최근의 데이터를 보면 날 마다 큰 변동이 있는 것으로 보아 꾸준한 상승이나 하락 보다는 횡보하는
형태로 나타날 것으로 보인다.
https://dacon.io 12
1-4 EDA – SMP(min)
• 중간중간 밑으로 떨어지는 데이터가 존재
• 과거 데이터에는 큰 폭으로 떨어지는 데이터가 많이 없지만 2014년 이후 크게 떨어지는 날 이 잦다.
• 상승할 때는 꾸준한 상승, 하락할 때는 꾸준한 하락을 보인다.
• 최근 들어서는 변동이 심하다.
https://dacon.io 13
1-4 EDA – SMP(mean)
• 가중 평균 값이기 때문에 변동성이 큰 날은 잦지 않다.
• 과거에는 꾸준한 하락 혹은 꾸준한 상상을 하고 있지만 최근에는 변동성이 심해진 것을 볼 수 있다.
https://dacon.io 14
2-1 모델 구축 & 훈련 – 변수 선택
• target value인 supply, SMP(mean, max, min)을 예측하기 위해 각각 입력 데이터들을 다르게 설정하였다.
• Supply
• 주기적인 특성이 뚜렷히 보이는 것 같아 날짜 관련 데이터를 모두 사용하고 supply 관련 데이터, 기
온 데이터를 모두 사용하였다.
• SMP 데이터들은 최대한 많은 과거 데이터를 통해 최근 30일의 데이터로 현재를 예측할 수 있도록 구성
• SMP(mean)
• smp_mean과 기온의 평균 데이터를 사용하였다.
• SMP(max)
• smp_max와 smp_mean, 날짜 관련 데이터, 기온의 평균 데이터를 사용
• SMP(min)
• smp_min, supply, 기온의 평균 데이터를 사용하였다.
https://dacon.io 15
2-2 모델 구축 & 훈련
• 사용한 모델 : LightGBM
• 파라미터
• 4개의 파라미터로 target들을 각각 예측한다.
• Loss를 MAE 혹은 MSE로 하는 2가지 경우와 feature_fracion옵션을 0.1로 하거나 기본으로 하는 2가지
경우의 수를 조합하여 총 4개의 파라미터로 설정
• 사용하는 파라미터는 target에 따라 다르게 설정
• 100 번 동안 성능 개선 없을 시 학습 종료 (Early Stopping)
• 학습하기 위한 데이터 구축
• 30일 간의 시계열 데이터를 학습하기 위한 featur로 하고 7일 후 ~ 35일 후 데이터를 타겟 값으로
하여 데이터를 구축한다.(N일 후를 예측하는 모델이 생성되어 28개의 모델이 생성됨)
• 학습하기 위한 데이터를 구축한 후 전체 데이터에서 최근 날짜 20%는 검증데이터로 사용한다.
나머지는 훈련 데이터로 사용한다.
• 훈련
• SMP, supply를 각 파라미터를 통해 7일 ~ 35일 후 타겟값들을 예측할 수 있도록 훈련
30일
TARGET
30일
TARGET
30일
TARGET
30일
TARGET
https://dacon.io 16
2-3 모델 예측 결과 – SMP(max, min)
2020-04-19 ~ 2020-05-18 데이터를 통해 2020-05-25 ~ 2020-06-28 (28일) 의 target 값들을 예측
https://dacon.io 17
2-3 모델 예측 결과 – SMP(mean), supply
2020-04-19 ~ 2020-05-18 데이터를 통해 2020-05-25 ~ 2020-06-28 (28일) 의 target 값들을 예측
https://dacon.io 18
3-1 결과 - 실제 측정된 데이터와 비교
2020-05-25 ~ 2020-06-28 (28일) 의 실제 데이터를 예측 데이터와 비교
• SMP
• 변동성을 예측하게 될 시 반대로 예측하게 되면 큰 오류 값을 가지게 된다.
• 예측 한 값들을 보면 변동성을 예측하기 보다 이전 데이터들을 통해 현재 추세의 평균 정도로
예측하는 것으로 보인다.
https://dacon.io 19
3-1 결과 - 실제 측정된 데이터와 비교
2020-05-25 ~ 2020-06-28 (28일) 의 실제 데이터를 예측 데이터와 비교
• Supply 하루하루 변동되는 추세를 잘 예측하고 있는 것으로 보인다.
https://dacon.io 20
3-2 결언
• 7일 후 ~ 28일 후의 데이터를 정확한 값을 예측하기 보다 과거의 많은 데이터를 통해 어떤 패턴으로
움직이는지, 꾸준한 상승 혹은 하락을 보이는지 예측했던 모델이 장기적으로 큰 오류없이 좋은
성적을 낸 것으로 보인다.
• 평가 가중치가 높았던 supply 모델이 실제 데이터와 비슷한 움직임으로 예측하여 좋은 성적을 낸
것으로 보인다.
THANK YOU
THANK YOU
https://dacon.io 21

More Related Content

What's hot

생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작DACON AI 데이콘
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명DACON AI 데이콘
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명DACON AI 데이콘
 
천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명DACON AI 데이콘
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강Minji Kang
 
Clustering for graduate course in Sogang university
Clustering for graduate course in Sogang universityClustering for graduate course in Sogang university
Clustering for graduate course in Sogang universityHoSung Park
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
Azure ml studio_fraud_detection
Azure ml studio_fraud_detectionAzure ml studio_fraud_detection
Azure ml studio_fraud_detectionSeung-Woo Kang
 

What's hot (10)

생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작생체 광학 데이터 분석 AI 경진대회 8위 수상작
생체 광학 데이터 분석 AI 경진대회 8위 수상작
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명천체 유형 분류 대회 3위 수상자 코드 설명
천체 유형 분류 대회 3위 수상자 코드 설명
 
천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명천체 유형 분류 대회 2위 수상자 코드 설명
천체 유형 분류 대회 2위 수상자 코드 설명
 
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
딥러닝을 이용한 사용자 선호도 기반 의상 추천 알고리즘 Ppt 선수강
 
Clustering for graduate course in Sogang university
Clustering for graduate course in Sogang universityClustering for graduate course in Sogang university
Clustering for graduate course in Sogang university
 
K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션K-Fashion 경진대회 1등 수상자 솔루션
K-Fashion 경진대회 1등 수상자 솔루션
 
K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션K-Fashion 경진대회 2등 수상자 솔루션
K-Fashion 경진대회 2등 수상자 솔루션
 
Azure ml studio_fraud_detection
Azure ml studio_fraud_detectionAzure ml studio_fraud_detection
Azure ml studio_fraud_detection
 
AUTOML
AUTOMLAUTOML
AUTOML
 

Similar to 공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작

데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture상래 노
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측Robert Lee
 
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명DACON AI 데이콘
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표kiminPark2
 
[패스트캠퍼스]해외 영화의 매출액 예측하기
[패스트캠퍼스]해외 영화의 매출액 예측하기[패스트캠퍼스]해외 영화의 매출액 예측하기
[패스트캠퍼스]해외 영화의 매출액 예측하기Haesol Youn
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내Dylan Ko
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오Kihoon4
 
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트Amazon Web Services Korea
 
LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인Hansung University
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다BESPIN GLOBAL
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)Hanbin Seo
 

Similar to 공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작 (20)

데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측
 
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명원자력발전소 상태 판단 대회 1위 수상자 코드 설명
원자력발전소 상태 판단 대회 1위 수상자 코드 설명
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표Aiffel 해커톤 최종 발표
Aiffel 해커톤 최종 발표
 
[패스트캠퍼스]해외 영화의 매출액 예측하기
[패스트캠퍼스]해외 영화의 매출액 예측하기[패스트캠퍼스]해외 영화의 매출액 예측하기
[패스트캠퍼스]해외 영화의 매출액 예측하기
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
시종설 1조
시종설 1조시종설 1조
시종설 1조
 
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내
데이터 활용 스타트업을 위한 특화 지원사업 DB-Stars 안내
 
권기훈_개인포트폴리오
권기훈_개인포트폴리오권기훈_개인포트폴리오
권기훈_개인포트폴리오
 
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
클라우드 기술 동향과 인공 지능 서비스의 미래 - 윤석찬, AWS 테크에반젤리스트
 
LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인LOD 구축 공정 가이드라인
LOD 구축 공정 가이드라인
 
덕성여자대학교 KIS VALUE 이용자 매뉴얼
덕성여자대학교 KIS VALUE 이용자 매뉴얼 덕성여자대학교 KIS VALUE 이용자 매뉴얼
덕성여자대학교 KIS VALUE 이용자 매뉴얼
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다[웨비나] 교육, 클라우드로 혁신하다
[웨비나] 교육, 클라우드로 혁신하다
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
글로벌 주가지수 증감 예측(제1회 미래에셋대우 빅데이터페스티벌, 입상작)
 

More from DACON AI 데이콘

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engDACON AI 데이콘
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korDACON AI 데이콘
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의DACON AI 데이콘
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션DACON AI 데이콘
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등DACON AI 데이콘
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2DACON AI 데이콘
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상DACON AI 데이콘
 
생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작DACON AI 데이콘
 

More from DACON AI 데이콘 (19)

Introduction to e tapr for hai con -eng
Introduction to e tapr for hai con -engIntroduction to e tapr for hai con -eng
Introduction to e tapr for hai con -eng
 
Introduction to e tapr for hai con -kor
Introduction to e tapr for hai con -korIntroduction to e tapr for hai con -kor
Introduction to e tapr for hai con -kor
 
20210728 대회주최 문의
20210728 대회주최 문의20210728 대회주최 문의
20210728 대회주최 문의
 
데이콘 뽀개기
데이콘 뽀개기데이콘 뽀개기
데이콘 뽀개기
 
Bittrader competition (1)
Bittrader competition (1)Bittrader competition (1)
Bittrader competition (1)
 
Bittrader competition
Bittrader competitionBittrader competition
Bittrader competition
 
Superbai
SuperbaiSuperbai
Superbai
 
K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션K-Fashion 경진대회 3등 수상자 솔루션
K-Fashion 경진대회 3등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 2등 수상자 솔루션
 
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
아리랑 위성영상 AI 객체 검출 경진대회 1등 수상자 솔루션
 
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등진동데이터 활용 충돌체 탐지 AI 경진대회 2등
진동데이터 활용 충돌체 탐지 AI 경진대회 2등
 
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등진동데이터 활용 충돌체 탐지 AI 경진대회 1등
진동데이터 활용 충돌체 탐지 AI 경진대회 1등
 
20200923
2020092320200923
20200923
 
포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상포스트 코로나 데이터 시각화 경진대회 - 대상
포스트 코로나 데이터 시각화 경진대회 - 대상
 
포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상포스트 코로나 데이터 시각화 경진대회 - 최우수상
포스트 코로나 데이터 시각화 경진대회 - 최우수상
 
포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상포스트 코로나 데이터 시각화 경진대회 - 우수상
포스트 코로나 데이터 시각화 경진대회 - 우수상
 
포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2포스트 코로나 데이터 시각화 경진대회 - 장려상2
포스트 코로나 데이터 시각화 경진대회 - 장려상2
 
포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상포스트 코로나 데이터 시각화 경진대회 - 장려상
포스트 코로나 데이터 시각화 경진대회 - 장려상
 
생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작생체 광학 데이터 분석 AI 경진대회 5위 수상작
생체 광학 데이터 분석 AI 경진대회 5위 수상작
 

공공 데이터 활용 전력수요 및 SMP 예측 AI 경진대회 2위 수상작

  • 1. https://dacon.io AI프렌즈 시즌3 공공데이터를 활용한 전력수요 및 SMP 예측 경진대회 최정명
  • 2. 목차 1 2 3 STEP 1 STEP 2 STEP 3 https://dacon.io 2 데이터 전처리 & EDA 모델 구축 & 학습 결과 및 결언 데이터 전처리 &EDA 모델 구축 & 학습 결과 및 결언 • 변수 선택 • 모델 구축 • 훈련 • 예측 • 외부 데이터 • 데이터 전처리 • 데이터 결합 • EDA
  • 3. https://dacon.io 3 1-1 외부데이터 -SMP https://www.kpx.or.kr/www/contents.do?key=226 대회에서 제공되는 데이터들과 같은 데이터를 사용 일별 제주 지역의 SMP 최대, 최소, 가중평균의 데이터를 수집 기간 : 2010-01-01 ~ 2020-05-18
  • 4. https://dacon.io 4 1-1 외부데이터 - supply https://www.kpx.or.kr/www/contents.do?key=356 대회에서 제공되는 데이터들과 같은 데이터 + 추가 데이터를 사용 일별 제주지역의 설비용량, 공급능력, 최대전력, 공급예비력, 예비율 데이터를 수집 기간 : 2010-01-01 ~ 2020-05-18
  • 5. https://dacon.io 5 1-1 외부데이터 – 제주 기온 https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36 대회에서 제공되는 데이터들과 같은 데이터를 사용 일별 제주 지역에서 측정된 지점별 평균, 최저, 최고 기온을 수집 기간 : 2010-01-01 ~ 2020-05-18
  • 6. https://dacon.io 6 1-2 supply 데이터 전처리 2016년 5월 17일 데이터에서 결측값이 존재하여 전 날과 다음 날의 평균으로 대체 각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합
  • 7. https://dacon.io 7 1-2 SMP 데이터 전처리 각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합
  • 8. https://dacon.io 8 1-2 제주 기온 데이터 전처리 각각의 파일들을 로드하여 2010-01-01 ~ 2020-05-18 의 일별 데이터로 결합 제주 지점별 데이터에서 평균, 최고, 최저 기온을 일별로 평균낸다.
  • 9. https://dacon.io 9 1-3 데이터 결합 앞에서 생성 했던 supply, SMP, 기온 데이터들을 결합한다. 추가로 날짜를 통해 month, day, dayofweek 데이터를 생성하여 데이터를 결합한다.
  • 10. https://dacon.io 10 1.4 EDA - supply • Supply 데이터는 분기별 특성을 가지는 것으로 보인다. • 과거에서 현재로 올수록 저점과 고점이 꾸준히 상상하는 형태가 나타난다. • 저점 보다 고점이 더 큰 폭으로 커지는 것으로 보인다. • 날짜 데이터와 이전 며칠동안 측정된 supply 데이터가 예측하는데 큰 영향을 끼칠 것으로 예상된다.
  • 11. https://dacon.io 11 1-4 EDA – SMP(max) • 중간중간 위로 치솟는 데이터가 존재 • 10년 동안의 자료로 보아선 분기별 특성이 뚜렷하게 나타나지는 않는 것 처럼 보인다. • 상승할 때는 꾸준히 상승하고 하락할 대는 꾸준히 하락하는 모습을 보인다. • 하락과 상승이 뚜렷하게 보이지 않고 횡보하는 형태를 나타날 때는 날별로 큰 변동이 보인다. • 최근의 데이터를 보면 날 마다 큰 변동이 있는 것으로 보아 꾸준한 상승이나 하락 보다는 횡보하는 형태로 나타날 것으로 보인다.
  • 12. https://dacon.io 12 1-4 EDA – SMP(min) • 중간중간 밑으로 떨어지는 데이터가 존재 • 과거 데이터에는 큰 폭으로 떨어지는 데이터가 많이 없지만 2014년 이후 크게 떨어지는 날 이 잦다. • 상승할 때는 꾸준한 상승, 하락할 때는 꾸준한 하락을 보인다. • 최근 들어서는 변동이 심하다.
  • 13. https://dacon.io 13 1-4 EDA – SMP(mean) • 가중 평균 값이기 때문에 변동성이 큰 날은 잦지 않다. • 과거에는 꾸준한 하락 혹은 꾸준한 상상을 하고 있지만 최근에는 변동성이 심해진 것을 볼 수 있다.
  • 14. https://dacon.io 14 2-1 모델 구축 & 훈련 – 변수 선택 • target value인 supply, SMP(mean, max, min)을 예측하기 위해 각각 입력 데이터들을 다르게 설정하였다. • Supply • 주기적인 특성이 뚜렷히 보이는 것 같아 날짜 관련 데이터를 모두 사용하고 supply 관련 데이터, 기 온 데이터를 모두 사용하였다. • SMP 데이터들은 최대한 많은 과거 데이터를 통해 최근 30일의 데이터로 현재를 예측할 수 있도록 구성 • SMP(mean) • smp_mean과 기온의 평균 데이터를 사용하였다. • SMP(max) • smp_max와 smp_mean, 날짜 관련 데이터, 기온의 평균 데이터를 사용 • SMP(min) • smp_min, supply, 기온의 평균 데이터를 사용하였다.
  • 15. https://dacon.io 15 2-2 모델 구축 & 훈련 • 사용한 모델 : LightGBM • 파라미터 • 4개의 파라미터로 target들을 각각 예측한다. • Loss를 MAE 혹은 MSE로 하는 2가지 경우와 feature_fracion옵션을 0.1로 하거나 기본으로 하는 2가지 경우의 수를 조합하여 총 4개의 파라미터로 설정 • 사용하는 파라미터는 target에 따라 다르게 설정 • 100 번 동안 성능 개선 없을 시 학습 종료 (Early Stopping) • 학습하기 위한 데이터 구축 • 30일 간의 시계열 데이터를 학습하기 위한 featur로 하고 7일 후 ~ 35일 후 데이터를 타겟 값으로 하여 데이터를 구축한다.(N일 후를 예측하는 모델이 생성되어 28개의 모델이 생성됨) • 학습하기 위한 데이터를 구축한 후 전체 데이터에서 최근 날짜 20%는 검증데이터로 사용한다. 나머지는 훈련 데이터로 사용한다. • 훈련 • SMP, supply를 각 파라미터를 통해 7일 ~ 35일 후 타겟값들을 예측할 수 있도록 훈련 30일 TARGET 30일 TARGET 30일 TARGET 30일 TARGET
  • 16. https://dacon.io 16 2-3 모델 예측 결과 – SMP(max, min) 2020-04-19 ~ 2020-05-18 데이터를 통해 2020-05-25 ~ 2020-06-28 (28일) 의 target 값들을 예측
  • 17. https://dacon.io 17 2-3 모델 예측 결과 – SMP(mean), supply 2020-04-19 ~ 2020-05-18 데이터를 통해 2020-05-25 ~ 2020-06-28 (28일) 의 target 값들을 예측
  • 18. https://dacon.io 18 3-1 결과 - 실제 측정된 데이터와 비교 2020-05-25 ~ 2020-06-28 (28일) 의 실제 데이터를 예측 데이터와 비교 • SMP • 변동성을 예측하게 될 시 반대로 예측하게 되면 큰 오류 값을 가지게 된다. • 예측 한 값들을 보면 변동성을 예측하기 보다 이전 데이터들을 통해 현재 추세의 평균 정도로 예측하는 것으로 보인다.
  • 19. https://dacon.io 19 3-1 결과 - 실제 측정된 데이터와 비교 2020-05-25 ~ 2020-06-28 (28일) 의 실제 데이터를 예측 데이터와 비교 • Supply 하루하루 변동되는 추세를 잘 예측하고 있는 것으로 보인다.
  • 20. https://dacon.io 20 3-2 결언 • 7일 후 ~ 28일 후의 데이터를 정확한 값을 예측하기 보다 과거의 많은 데이터를 통해 어떤 패턴으로 움직이는지, 꾸준한 상승 혹은 하락을 보이는지 예측했던 모델이 장기적으로 큰 오류없이 좋은 성적을 낸 것으로 보인다. • 평가 가중치가 높았던 supply 모델이 실제 데이터와 비슷한 움직임으로 예측하여 좋은 성적을 낸 것으로 보인다.