데이터분석가/데분당태 블로그챌린지

시계열 데이터 교차검증 방법 9가지

chan's chance 2023. 4. 26. 10:35

https://vcerq.medium.com/9-techniques-for-cross-validating-time-series-data-7828fc3f781d

 

9 Techniques for Cross-validating Time Series Data

Exploring the pros and cons of different cross-validation approaches for time series

vcerq.medium.com

Medium에서 Victor Cerqueira 님의 원문을 통해 요약하여 작성된 글입니다.
사전 지식이 있는 분들은 그림을 통해 이해하면서 빠르게 넘어가셔도 좋을 것 같습니다! 
글의 설명이 부족하여 오해할 여지가 있어, 관심이 있으신 분들은 꼭 원문을 참고해 이해하시는게 좋습니다!

--

안녕하세요, 오늘은 지인의 추천을 받아 소개할 글을 선정하게 되었습니다.
시계열데이터 모델링 후 이를 평가하는 방법 9가지에 대해 소개한 글입니다.
9가지는 다음과 같습니다.

1. 홀드아웃 : 데이터를 훈련세트와 평가세트로 나누어, 훈련세트에 모델을 적합시키고, 평가세트로 평가하는 가장 기초가 되는 방법.

 

 

2. 시계열 교차검증 : 일부분의 데이터만 홀드아웃을 실행하고, 범위를 전체 데이터로 점차 넓혀가는 방법.

 

 

3. 간격을 둔 시계열 교차검증 : 시계열 교차검증과 동일하지만, 훈련세트와 평가세트 사이에 간격을 두는 방법.

 

 

4. 슬라이딩 시계열 교차검증 : 시계열 교차검증과 달리, 범위를 '유지'하며 조금씩 '일정'하게 이동하는 방법.

 

 

5. 몬테카를로 교차검증 : 슬라이딩 시계열 교차검증과 달리, 범위는 '유지'하지만 '랜덤'하게 이동하는 방법.

 

 

6. K-폴드 교차검증 : 전체 데이터에서 '랜덤'하게 k개의 평가세트를 사용하여 평가하고, 이를 여러번 '겹치지 않게' 반복하여, 전체 데이터가 훈련세트와 평가세트로 모두 사용되는 방법.

 

 

7. 블럭 K-폴드 교차검증 : K-폴드 교차검증과 동일하지만, 평가세트를 '랜덤하지 않게' 사용한다는 점이 차이입니다.

 

 

8. hv-블럭 K-폴드 교차검증 : 블럭 K-폴드 교차검증과 동일하지만, 훈련세트와 평가세트 사이에 간격을 두어 독립성을 확보하는 것이 차이입니다.

 

 

9. 수정 K-폴드 교차검증 : K-폴드 교차검증과 같이 '랜덤'하게 평가세트를 사용하지만, 훈련세트와 평가세트 간에 모두 간격을 두어 독립성을 확보하는 것이 차이입니다.

 

 

머신러닝을 학습하며 배웠던 이론들이지만, 이론으로만 배워 가물가물했습니다.
좋은 기회로 정리하게 되었고, 기억나지 않을 때 참고하면 좋을 것 같아요!