데이터 조사
데이터가 논리적 관점에서 합리적인지를 묻는 것에 더하여, 데이터가 비즈니스 관점 또는 실질적인 관점에서 합당한 지를 확인하는 것이 좋습니다. 이러한 검토를 통하여 데이터에 잘못된 라벨이 지정되거나 잘못된 기능 집합을 갖도록 하는 속성과 같은 데이터의 특정한 오류를 발견하는 데 도움이 됩니다. 내용들이 규명되지 않을 경우, 이러한 작은 오류들이 분석에 큰 영향을 미칠 수 있습니다.
학습 목표
이 장을 학습한 후, 우리는 다음과 같은 방법들을 알게 될 것입니다.
- 데이터에 대한 기본 도표 작성 및 요약을 실행합니다.
- RevoScaleR summary 함수에서 반환 객체를 가져 와서 R 함수를 사용하여 플로팅 및 추가 처리를 수행합니다.
- rxHistogram을 사용하여 열의 분포를 시각화합니다.
- 큰 데이터의 무작위 표본을 추출하고 이를 이용하여 이상값을 검사합니다.