2에서 뽑아낸 이 train data에서 33개 family 의 date 별 평균값을 뽑아내서 y값에 둔다
가게 위치, 품목은 신경쓰지 않고 그냥 팔린 갯수만 확인하는거다. 그럴 경우 우상향 그래프를 확인할 수 있다.
dp의 시간축을 average sale 에서 끌어오고, X축과 미래 90일을 설정해본다.
그 후 회귀분석 모델을 가져와 X, y 로 학습한다.
그러면 학습된 model을 y_pred 로 확인할 수 있고, 이를 통해서 미래 90일을 y_fore 로 확인할 수 있다. 이를 시각화해보면
파란선은 학습된 모델, 회색선은 예상치인것을 확인할 수 있다.
degree 를 늘릴수록 파랑선이 휘는것을 확인할 수 있는데, 너무 곧게도 아니고, 너무 휘게도(과적합) 아니게 하는 것이 regression 의 포인트라고 할 수 있다.
store_nbr(상이한 가게), family(상이한 품목), holiday(날짜의 특성) 등등을 싹 무시하고 낸 예측이니까 rough 할 수 밖에 없다. 이제 이를 천천히 대입하면서 정답을 향해 가는게 목적이다.
항상 주말, 공휴일이 많이 팔릴수밖에 없다. head(30)을 잡고 linear regression 을 해보자 예측이 맞았단 사실을 알 수 있다.
1월 1일은 열지 않아 팔리지 않고, 주말 이틀이 항상 많은 사람이 방문함을 알 수 있다.
그러면 주말과 평일을 나누어 회귀분석을 하는 것도 방법이 될 수 있겠다. (?아직 확실한 표현인지는 모른다)
우선 공휴일, 주말을 포함해 회귀분석을 해야한다는 것은 확실하고, 가게 종류와 품목 종류는 어떻게 반영해야할지 고려해봐야겠다.
'CS > DB' 카테고리의 다른 글
[DB] maxscale 전환시 read/write 스트레스 테스트 (0) | 2024.10.28 |
---|---|
[DB] Maxscale 이중화 방법(ubuntu live) (0) | 2024.08.02 |
[캐글] 중복된 데이터 병합하기 (kaggle store-sales-time-series-forecasting_2) (0) | 2022.10.23 |
[캐글] 파이썬 CSV 데이터 확인하는 2가지 방법 (kaggle store-sales-time-series-forecasting_1) (0) | 2022.10.19 |
[MySQL] First normalization, 다대다, 연결 테이블 (0) | 2022.02.05 |