Study history/공모전, Kaggle, Dacon 기록

공모전) 2022 KOPIS 빅데이터 분석 공모전 장려상 후기

성실한 나무 2022. 10. 22. 10:53

#1. KOPIS 빅데이터 분석 공모전 후기

 ADP 자격증 취득을 위해 데이터 분석을 공부하면서 참 많은 것을 알게 되었다. 이 지식들을 활용해 볼 방법이 없을까? 분석 스킬을 더 발전시키려면 무엇을 하면 좋을까? 하는 물음에서 블로그에 공부한 내용을 정리하기 시작했다. 그 후에 Kaggle과 Dacon도 어슬렁 거리기 시작했고, 데이터 분석 공모전에도 참여하게 되었다.

 그리고 3~4번의 빅데이터 분석 공모전의 문을 두드린 끝에 "2022 KOPIS 빅데이터 분석 공모전 장려상 수상"이라는 결실을 얻게 되었다. 참 감사한 일이다. 운도 좋았던 것 같다. ^^

공연전산망 빅데이터 분석 공모전 (2022) 장려상

 공모전은 서류 심사와 멘토링, PT 발표로 크게 세 단계에 걸쳐서 진행되었다. 서류 심사에 통과한 18팀은 입상, 그 중 1팀이 최우수상, 2팀이 우수상, 3팀이 장려상으로 수상을 하게 된다.

 상장과 상금 수령까지는 시상식 후 한달 정도가 소요되었다. 참고로 상금은 4.4% 세금을 제하고 받게 된다. 이 세금은 내년 5월 종합소득세 신고 시 환급 받을 수 있다.

 

#2.  나의 분석 내용

 나는 "공연 티켓 판매 건수에 영향을 미치는 요인 분석 및 모델링"이라는 주제로 분석을 진행하였다. 이런 분석 공모전 점수의 반은 주제 선정에 있는 것 같다. 앞으로 다른 공모전을 참여하게 된다면 더 흥미롭고, 활용가능한 주제 선정을 위해 신경 쓸 것 같다. 사실, 내가 정한 주제는 신선하고 흥미로운 주제는 아닌 것 같다. ㅎㅎ

 그럼에도 불구하고 장려상 수상을 할 수 있었던 이유는 성실한(?) 분석 프로세스가 아니었을까 예상해 본다.

 먼저, 공연 예매 raw data를 기반으로 예매 건수를 예측할 것으로 예상되는 feature들을 추출하고, 관객 관련 feature들로는 clustering을 진행하여 'cluster'라는 신규 feature를 추출하였다. 예매 건수 회귀 모델링은 다중선형회귀와 랜덤포레스트 알고리즘을 사용하였다. 본격적인 모델링에 앞서 탐색적 데이터 분석도 진행하였다.

관객 데이터 분석 과정

 

 결론은, 해당 모델을 실제로 어떻게 활용할 건지에 초첨을 두었다. 활용방법 중 하나는 공연 기획 및 마케팅 믹스 전략 시 다중회귀모델에서 얻은 변수 중요도를  활용하는 것이다. 뮤지컬의 예매 건수가 높아지는 월을 선택한다든지, 편의시설로 카페가 있을 수록 예매 건수가 높아지는 점에 주목한다든지 하는 것이다.

분석 결과 활용 예시

 

#3. 소감

 하면 할수록 참 많이 부족하다는 것을 깨닫는다. 열심히 분석하다가도 분석 결과와 내 상식선에서 괴리가 느껴질 때 무엇이 맞는 것인지 헷갈린다. 이 방법을 선택해서 분석을 하고 있는데 이 데이터에 이 문제를 풀기 위해 이 방법이 맞는 것인지도 항상 의심스럽다 ^^; 그래도 그렇게 고민하면서 구글링도 하고, 책도 찾아보고, 물어도 보고... 하면서 많이 배운다.

 분석 능력을 한 단계 더 성장시키기 위해 무엇을 하면 좋을지 고민하는 계기가 되었다. 그리고 그동안 열심히 공부한 것에 대한 '선물'을 받은 것 같아서 위로를 받았고, 성취감을 느꼈다.

 "시작이 반이다"

 

 일단 시작을 하면, 발을 내딛게 되면, 새로운 일이 일어나는 것 같다. 그래서 옛 어른들이 시작이 반이라고 하셨구나. 새로운 일을 시작하는 것은 엄청난 부담이고 어려운 일이지만, 막상 또 하기 시작하면 몰입해서 열심히 하게 된다. 몰랐던 새로운 세계로, 용감하게 뛰어들어가 봐야겠다는 생각이 많이 든다.