들어가며
택시 운영 데이터를 분석하는 과정에서 통합사업구역이라는 특수한 개념을 고려해야 했습니다. 통합사업구역이란 행정구역은 다르지만 택시 운영 측면에서 하나의 구역으로 간주되는 지역을 의미합니다. 이러한 통합사업구역 내에서의 택시 운영 패턴을 분석하기 위해 복잡한 SQL 쿼리를 개발하게 되었고, 그 과정과 결과를 공유하고자 합니다.
이 분석을 통해 택시 호출의 지역 간 이동 패턴, 통합사업구역 내 운영 효율성, 그리고 관내/관외 운행 비율 등을 파악할 수 있었습니다. 이러한 인사이트는 택시 서비스 개선과 정책 결정에 중요한 기초 자료가 될 수 있습니다.
문제 정의 및 배경
택시 운영에서 ‘통합사업구역’은 중요한 개념입니다. 예를 들어, 서울과 경기도 일부 지역(광명시)은 행정구역은 다르지만 택시 운영 측면에서는 하나의 통합된 구역으로 간주될 수 있습니다. 또한 위례신도시처럼 여러 행정구역(송파구, 성남시, 하남시)에 걸쳐 있는 지역도 있습니다.
이러한 통합사업구역 내에서의 택시 운영 패턴을 분석하기 위해서는 다음과 같은 문제를 해결해야 했습니다:
- 행정구역 코드(hcode)를 어떻게 처리할 것인가?
- 통합사업구역을 어떻게 정의하고 구분할 것인가?
- 호출의 유형(관내/관외)을 어떻게 분류할 것인가?
데이터 개요
분석에 사용된 데이터는 택시 호출 정보를 담고 있는 테이블입니다. 개인정보 보호와 외부 공유를 고려하여 테이블명과 컬럼명을 일부 마스킹하여 설명하겠습니다.
주요 필드:
- day: 호출 날짜
- id: 호출 고유 ID
- driver_id: 운전자 ID (해시 처리됨)
- status: 호출 상태 코드 (50: 운행완료, 80/81/90/100: 배차성공 등)
- origin_hcode: 출발지 행정구역 코드
- destination_hcode: 도착지 행정구역 코드
- region_hcode: 택시 운행 지역 코드