데이터 인사이트 스터디 내용을 관리하는 블로그 입니다.

Data Insight Study Blog

  • Join Us on Facebook!
  • Follow Us on Twitter!
  • LinkedIn
  • Subcribe to Our RSS Feed

1. Introduction > Introduction > Objectives

시작하기


분석을 시작하기에 앞서서 먼저 우리가 사용할 도구를 결정해야 합니다. 탐색적 데이터 분석을 수행하려고 할 때, R은 훌륭한 선택이 될 수 있습니다. 간결하고 매우 읽기 쉬운 구문과 많은 패키지는 R이 제공하는 분명한 장점입니다. 그러나 R에도 역시 단점이 있습니다. 테이블 형식의 데이터를 표현하는 R의 data.frame은 다른 여러 R 객체들과 마찬가지로 메모리에 로드 되어야만 합니다. 이로 인하여 데이터 집합이 커지는 경우, 사용 가능한 메모리의 양은 급격하게 부족해집니다. 또한 R에서 사용하는 대부분의 분석 및 모델링 알고리즘은 data.frame에서만 작동하는데, 대용량 데이터 집합은 Hadoop, Spark 클러스터, SQL Server와 같은 분산 환경에 저장되는 경우가 많습니다. 이러한 경우 디스크의 데이터 또는 클러스터 전체에 분산된 데이터에 대하여 직접 작업할 수 있는 알고리즘이 필요하며, 데이터 크기가 커짐에 따라서 확장이 가능한 알고리즘 또한 필요합니다. 이번 모듈에서는 RevoScaleR 패키지가 어떻게 이러한 필요성들을 충족시키는지에 대하여 살펴 보겠습니다.

답글 기능이 비활성화되어 있습니다