데이터 분석을위해서는 정리된데이터가 필요하다. 정리된 데이터는 분석하기 좋은 깔끔한 데이터(Tidy data)라고 부른다. 대표적인 형태가 엑셀 시트 형태로 데이터가 준비된 상황이다. 가로는 변수명이 자리 잡고 있고, 세로로 값들이 이어지는 표 형태의 데이터다.

가로, 세로의 엑셀 표 형태로 구성된 데이터는 왜 분석이 편할까? 2차원으로 구성되어 있기에 사람의 인지능력으로 렌더링하기 좋은 형태이기 때문에 첫 번째라고 볼 수 있다. 결국 분석을 위한 코딩은 사람이 하게 되는데, 가로가 변수명, 세로가 값이라는 규칙이 확립되어 있으면 이래저래 코딩하기가 편하기 때문이라고 볼 수 있다.

데이터프레임과 판다스

파이썬과 R에서 엑셀 형태로 데이터를 다루기 위해서 나온 자료형이 **데이터프레임(DadaFrame)**이다. 딱 엑셀 시트에 가로 첫행은 변수, 세로는 데이터들이 박힌 전형적인 데이터를 다루는 자료형이다. R의 핵심 경쟁력 중 하나가 데이터프레임의 존재라고 할 수 있으며, 파이쎤에서 데이터프레임을 쉽게 다룰 수 있게 나온 라이브러리(패키지)가 **판다스(Pandas)**이다.

깔끔한 데이터(Tidy Data)는 데이터 연결부터