대회 내용

KDX 한국데이터거래소

정보

참가 결과 PPT

https://s3-us-west-2.amazonaws.com/secure.notion-static.com/2bee4206-eece-4db8-90d4-8057750c7266/KDX_PR.pdf

참여 후기

최근 소비 트렌드 및 코로나로 인한 지역 경제 활성화와 여러 빅데이터 시각화 및 아이디어 공모전이 줄줄이 열리고 있다. 그 중 그나마 짦은 시간에 승부를 볼 수 있는 것으로 참여했다. KDX 한국데이터거래소 라는 곳에서 처음 추죄한 대회이다. 대회 마감 이틀 전에 시작해서 시간이 많지 않았다. 그전부터 어떤주제를 할지 고민을 꽤 하긴했지만 참가신청을 해야 내부 분석환경을 사용할 수 있었는데 신청이 늦어져서 23일에나 사용할 수 있었다. 때문에 23일 밤부터 낙성대 오렌지연필 카페에 가서 이틀밤을 새어 제출했다. 막상 내부환경에서 하게되니 제공되는 데이터의 품질이 꽤 좋아서 주제도 변경하고 사용할 데이터도 바뀌어 처음부터 다시 고민하게 되었다. 그래서 인지 결국 하고 싶은게 상당히 많았지만 시간이 부족해서 완성하지 못한 아쉬움이 있다.

분석 환경은 주최 측에서 제공한 서버만을 사용해야 했다. 제공된 분석 환경은 R studio와 jupyter hub 였다. 때문에 노트북 환경에서 제한된 상태로 했기에 시간이 부족한 나에겐 던져볼 만한 승부였다고 생각한다. 노트북 환경에서 시각화 대시보드를 만든다는건 당연 제한적이기 때문이다. 요즘 시대에 시각화 툴을 쓰지 파이썬만으로 시각화를 하라고 하다니.. 아쉬운 점이다. 하지만 시간이 없었던 나에겐 오히려 다행이었다.

아쉬웠던 점은 더많은 데이터를 활용할 생각이었지만 시간이 부족해서 그렇지 못했다는 점이다. 또한 군집 이외에 예측 모델링을 통해 소비 트렌드의 변화에 대해서도 나타내고 싶었지만 역시나 시간이 없었다. 이틀 동한 한것 치고는 좋은 퀄리티였다고 생각된다.

이번 공모전 참여로 이틀정도 밤새며 해본 경험으로는 확실히 여러 공모전과 논문 그리고 프로젝트를 경험해보니 어느정도 간단한 주제에 대해서는 처음부터 결말까지 어느정도 한 번에 그려진다는 것이다. 결론까지 경험해 본다는 것에 대한 중요성을 다시 깨닫는 시간이었다. 단, 결론을 같이 가는게 아니라 어느정도 선에서 본인 주도하에 마무리까지 진행해 보는 것이 중요하다.

또한 지금껏 경험을 통해 느꼈던 다른점은 무작정 데이터를 들여다 보고 있어도 아무 소용 없다는 것이다. 처음 EDA를 보고 배울 땐 신기하기도 하고 이것저것 의미없는 데이터 분포와 여러 변수간의 관계만 주구창장 그려봤다. 결국엔 뭐라도 해보고싶은 생각 이었지만 목적이 딱히 없는게 문제였다. 이번에는 그런 자잘한 시간을 줄이기 위해 데이터는 간단한 변수 설명만 참고한 상태로 어떤 방법을 적용해서 어떤 결론을 끌어내는 것이 가장 깔끔 할 지 고민했다. 전체적으로 그림을 잘 그린 뒤 시작하니 이후로는 막히는 것 없이 잘 진행 할 수 있었다.

현재로서 공개할 수 있는 자료는 피피티 정도라고 생각된다. 이후 결과가 나오고 주최측에 문의하여 코드도 함께 공개할 수 있는지 확인해보려 한다.