NYC Taxi 데이터
MRS를 사용하여 대형 데이터 집합을 처리하고 분석하는 방법을 배우기 위해 NYC Taxi 데이터 집합를 사용합니다. 이 데이터 집합은 몇 년에 걸쳐 한 해의 각 달에 대하여 12개의 CSV 파일로 구성되어 있습니다. 파일의 각 레코드(행)는 다음과 같은 중요한 속성(열)이 기록 된 뉴욕시의 택시 운행 정보를 표시합니다.
- 탑승 및 하차 날짜와 시간
- 운행당 승객 수
- 운행 거리
- 탑승 및 하자 위도와 경도
- 지불 정보 : 결제 유형, 지불 금액 - 운행요금, 팁, 기타 할증료
각각의 CSV 파일 크기는 약 2Gb이므로 6 개월 동안 12Gb가됩니다. 이는 일반적으로 단일 개인용 컴퓨터에서 사용 가능한 메모리 이상의 크기 입니다. 서버는 훨씬 더 큰 메모리 용량을 가질 수 있지만 한 번에 많은 사용자가 서버를 사용할 경우, R은 매우 빨리 서버의 메모리를 소모할 수 있습니다.