데이터 준비
원시 데이터는 분석에 직접 사용하기에는 적절하지 않은 경우가 많습니다. 원시 데이터를 로딩한 이후에, 데이터 과학자는 해당 데이터를 정제하고 현재 분석중인 데이터에 특성(feature) 항목들을 추가하는 데 많은 시간과 노력을 사용합니다. 데이터를 정리하는 방법은 한 편으로는 분석을 통하여 어떻게 상식적인 비즈니스를 이끌어 내고 특정 요구 조건을 만족 시킬수 있도록 하는지, 다른 한 편으로는 특정 분석 알고리즘에 대하여 데이터를 적용하기 위하여 해당 데이터를 어떻게 가공해야 하는 지에 따라 결정됩니다. 다시 말하면, 데이터 정제 업무는, 분석을 어렵게 만들지 않는 한도 내에서는, 다소간 주관적인 작업일 수 있습니다.
일반적인 데이터 준비 작업은 누락 값에 대한 처리 - 아웃 라이어 처리 - 데이터에 대한 세분화 수준 결정 (예 : 시간 변수가 초, 분 또는 시간 등일 경우) - 분석을 보다 재미 있고 쉽게 해석할 수 있도록 특성(feature)을 추가하거나 기존 특성을 기반으로 새로운 특성을 추출하는 것 등이 될 수 있습니다.
학습 목표
이 장을 읽은 후, 우리는 데이터에 대한 사전 검사를 수행하는 방법과, rxDataStep을 사용하여 기존 열을 수정하거나 새 열을 추가하거나, 더 복잡한 변환을 함수로 작성하여 감싼 후 rxDataStep에 직접 전달하거나, 작업한 내용의 재확인을 위하여 새로운 특성(feature) 정보를 조사하거나 요약하는 방법을 알게 될 것입니다.