한국에서 아마존 효과가 어떻게 나타나고 있냐를 살펴보려고, 공공 데이터 포털에서 수집/공개하는 온라인 가격 데이터를 돌려보려고 하는데…소위 빅데이터이다.

본 글은 그야말로 삽질기를 기록한 것이다.
공공 데이터 OPEN API 실전 사용기는 여기로

오픈API에 맞게 코드를 짜서 해보니 전체 데이터는 2014년부터인데, API로는 2015년부터만 가능해서 일단 2015년 이후로만 해보려다, 이게 하루에 웹으로 긁은 모든 가격 데이터를 일별로 쏴주는 것이다 보니까 상품이나 품목별로 가격 추이를 얻으려면 또 전체 데이터를 한번 붙여야 하는 상황이 발생.

▲R 코드 예시

회사 클라우드 PC로 하루 이틀 정도는 어찌 돌렸는데, 전체 데이터를 붙여서 뽑아 낸다는 것이 불가능하다는 판단에 대안으로 시도해본것이 https://rstudio.cloud (무료계정)인데, 이것도 하루 이틀치는 잘 돌아가나 싶더니 아예 뻑이 나버려서 수정한 코드를 받아오지도 못하는 형편이 되어버렸고… (12월 10일 오후에서야 일단 프로젝트가 열리긴 했다)

PC방을 가서 전처리 정도만 해볼까 하다가 인공지능 박사님들과 얘기를 해보니 AWS같은 퍼블릭 클라우드를 이용해보면 어떻냐는 이야기가 나와서 마침 구글 클라우드에서 30만원 크레딧을 준 기억이 나서 거기에 월 6만원짜리 윈도우 서버를 설치해서 구동해 보려니, 회사에선 RDP(원격 데스크톱 프로토콜)를 또 막아둬서 스마트폰에 RDP 클라이언트를 깔아서 깨작깨작 해보다가 도저히 안되서…

▲스마트폰 RDP 클라이언트로 구글 클라우드 접속

회사에 따로 노트북을 신청해서 RDP를 해보려니 또 뭐 보안정책으로 막아뒀고, 세팅이라도 간편하게 해보려고 도커를 깔아보려니 다운은 되는데, 인스톨 과정에서 완전 먹통.(요것도 보안정책으로 실행을 막아 둔듯) 그래서 rstudio깔고, 뭐깔고해서 세팅하고 이제는 API를 이용하는 대신에 그냥 일별 csv데이터를 월별 압축파일로 묶어서 올려놓은 데이터를 2014년 1월~2018년 10월까지 다운받기 시작하기를 지난 금요일…

▲데이터 포털에서 자료 직접 다운

노트북이 120기가 SSD인데, 이게 C가 70기가 D가 50기가로 또 쪼개져 있어서, 월별로 받다가 압축을 풀어서 다음 드라이버에 넘기고 하다 보니… 이게 전체 데이터가 압축을 풀면 125기가가 넘어간다는 것을 딱… 결국 외장하드를 추가로 신청해서 붙여서 금요일 퇴근전에 다운과 압축 푸는 것을 걸어우고 퇴근했더니…

▲총 파일 사이즈가 125기가

이게 어떤 것은 받다가 혼자 다운이 끝나버려서 압축 파일이 깨진 것이 있는가 하면, 어떤 데이터는 아예 원본 데이터가 크롤링 봇에 문제가 있었는지 일별로 이빨이 빠진 날이 발생해서 이런 저런 이슈가 있는 데이터를 다시 다운받고 압축풀고 하다보니까 오늘도 반나절이 가버렸다……

월별 파일 한 묶음이 1기가 넘는 것이 많다 보니까 트래픽이 어마어마하게 발생했는지, 회사 클라우드가 끊긴다고 클래임이 들어왔다고 그러고…..

대충 파일을 다 받아서 열어보니까 데이터 칼럼이 시기별로 조금 달라진 것이 또 발생…(아이쿠 통계청!!!) 이게 데이터가 일별로만 해도 몇백메가 수준이니 엑셀로 간단히 데이터 확인만 하는데도 한참이 걸리는 상황… 2015년 1월과 2015년 12월의 데이터 칼럼이 달라졌으니 이제 어느월에서 달라졌는지 확인하기 위해서 소위 ‘이진 탐색’ 삽질을 해야하는 상황.

▲엑셀에서 열어본 연도별 데이터 형태

데이터의 온전함만 확인하는데 이렇게 시간을 잡아 먹었으니…(사실 API 키를 신청하는 과정에서도 데이터 포털과 통계청 서버 사이에 문제가 있어서 몇번이나 이래저래 전화를 하다가 결국 트래픽이 얼마 남지 않았다는 임시키를 발급받아서 테스트 하던 것….)

본 모델을 돌리는데는 또 얼마나 많은 삽질이 기다리고 있을까 두렵기도 하지만, 최근 읽은 데이터 사이언스 책 을 보니 (빅)데이터 분석 작업의 70~80%가 데이터 가공에 소요되었다고 하니 조금은 위로가 된다.