데이터 인사이트 스터디 내용을 관리하는 블로그 입니다.

Data Insight Study Blog

  • Join Us on Facebook!
  • Follow Us on Twitter!
  • LinkedIn
  • Subcribe to Our RSS Feed

3. Examining and Visualizing Data > Examining the Data > Focusing on Manhattan

맨해튼 지역에 집중

택시 운행의 가장 많은 부분이 맨해튼에서 이루어지기 때문에, 우리는 맨해튼에 집중하고 다른 네 개의 지역은 무시합니다. 이를 위해 pickup_nhood 및 dropoff_nb 라는 원래 열을 기반으로 두 개의 새 열인 pickup_nhood 및 dropoff_nhood를 만듭니다. 단 factor의 level은 맨해튼 지역으로 제한합니다 (다른 factor level은 NA로 대체 됨). 이렇게 하지 않으면 맨해튼 외부의 다른 지역이 해당 열과 관련된 모델링 또는 요약 함수에 표시되기 때문에, 이렇게 처리하는 것이 중요합니다.

manhattan_nhoods <- rownames(nhoods_by_borough)[nhoods_by_borough$`New York City-Manhattan` > 0]

refactor_columns <- function(dataList) {
  dataList$pickup_nb = factor(dataList$pickup_nhood, levels = nhoods_levels)
  dataList$dropoff_nb = factor(dataList$dropoff_nhood, levels = nhoods_levels)
  dataList
}

rxDataStep(nyc_xdf, nyc_xdf, 
           transformFunc = refactor_columns,
           transformObjects = list(nhoods_levels = manhattan_nhoods),
           overwrite = TRUE)

rxs_pickdrop <- rxSummary( ~ pickup_nb:dropoff_nb, nyc_xdf)
head(rxs_pickdrop$categorical[[1]])
Rows Processed: 69406520 
 
      pickup_nb   dropoff_nb Counts
1  Battery Park Battery Park  19876
2 Carnegie Hill Battery Park   2699
3  Central Park Battery Park   3479
4       Chelsea Battery Park  61024
5     Chinatown Battery Park   3813
6       Clinton Battery Park  23962
답글 기능이 비활성화되어 있습니다