데이터 인사이트 스터디 내용을 관리하는 블로그 입니다.

Data Insight Study Blog

  • Join Us on Facebook!
  • Follow Us on Twitter!
  • LinkedIn
  • Subcribe to Our RSS Feed

[공지] 두 번째 주제, Power BI 3차 모임 후기

이번 주는 작성된 분석 보고서를 클라우드 SaaS인 Power BI Service로 업로드 후에, Dashboard를 구성하는 방법 및 Excel과 Power BI Service를 연동하는 방법들이 주제였습니다.

Power BI를 서비스를 사용하게 되면, 시간과 공간이라는 물리적인 제약을 상당 부분 뛰어넘어 정보 접근 및 활용이 가능해 집니다. 오늘 세미나에서 충분히 다루지 못한 내용으로 다양하게 제공되는 Power BI 앱이 있습니다. 위도우즈용 앱은 물론, 안드로이드 및 아이폰 앱을 마켓에서 무료로 제공하기 때문에, 추가적인 클라이언트 도구 개발 없이도 소지하고 있는 다양한 디바이스에서 클라우드로 배포된 분석 보고서를 쉽게 접근할 수 있습니다.

그 밖에 엑셀 연동 부분은 기존에 엑셀 분석에 더 익숙한 사용자의 경우, 해당 역량을 그대로 Power BI 서비스와 함께 적용할 수 있는 기능입니다. 저의 경우 두 번째 LAB 문제는 엑셀의 Power Pivot 기능을 이용하여 해결하였습니다. ^^;

늦은 시간까지 온라인 오프라인으로 참여해 주신 여러분께 진심으로 감사 드립니다.

[공지] 두 번째 주제, Power BI 2차 모임 후기

Power BI의 두 번째 시간으로, 분석 보고서 작성시 핵심이 되는 2.Power BI Desktop Modelling과 3.Power BI Desktop Visualization이 오늘의 범위 었습니다.

eDX 코스를 보면 2장은 12개, 3장은 29개의 10분 미만의 짧은 동영상들로 구성되어 있는데 난이도는 매우 쉬운 편이지만 분량이 많은 데다가 초반 설명하지 못했던 구현상의 미스테리(?)한 부분등으로 어느 정도 지연이 발생하는 등 오늘은 조금 진행이 매끄럽지 못했던 것 같습니다. 다루지 못했던 부족한 부분은 eDX의 본강좌를 통하여 개별적으로 꼼꼼히 살펴보실 것을 권고 드립니다.

매트릭스 챠트에서 전년 YTD 값이 표시가 안 되었던 부분은 원인을 규명하여 별도 동영상 또는 설명 자료를 올릴 예정입니다.

다음 시간은 4.Power BI Service와 5.Working with Excel을 대상으로 3월 7일(화)에 진행될 예정입니다.

늦은 시간까지 온라인 오프라인으로 참여해 주신 여러분께 진심으로 감사 드립니다.

[공지] 두 번째 주제, Power BI 1차 모임 후기

안녕하세요,

오늘은 DI Study 두 번째 주제인 Power BI의 첫 시간이었습니다. 1시간이 조금 넘는 온라인 진행 이후에, 오프라인에서 30분 정도 발표 내용과 관련된 실무 주제로 추가 토의가 이루어 졌습니다.

전반부는 Power BI eDX 과정에 대한 개략적인 설명과 Power BI 공식 사이트의 전반적 내용 확인이, 후반부는 최초 데이터 원본 연결 부터 내장된 데이터 변환 도구를 사용하는 첫번째 eDX LAB의 3가지 주제를 중심으로 내용이 진행되었습니다.

Power BI는 지금까지 나온 BI 소프트웨어 중에서 단연 최고라고 감히 이야기 드릴 수 있으며, 짧은 시간이지만 최대한 많은 내용을 소개드리기 위해 노력하였습니다.

차주는 화요일에 두 번째 모임이 있으며, 분석을 위한 가장 핵심 부분인 모델링이 논의됩니다.

오늘 참석하신 분 모두 수고 많으셨습니다.

감사합니다.

[DAT213x] Analyzing Big Data with Microsoft R Server 세미나 자료

처음 스터디 주제였던 eDXAnalyzing Big Data with Microsoft R Server 는 성공적으로 종료 되었습니다. 아래의 링크를 클릭하시면, 스터디 발표 자료를 살펴보실 수 있습니다.

범위

일자

발표자료

1. Introduction

1월 5일(목) 20:00

2. Reading and Preparing Data

- Reading the Data

- Preparing the Data

1월 12일(목) 20:00

3. Examining and Visualizing Data

- Examining the Data

- Visualizing the Data

1월 19일(목) 20:00 
 

4. Clustering and Modeling

- Clustering

- Predictive Modelling

2월 2일(목) 20:00  
 

5. Deploying and Scaling

- Deploying to SQL Server

- Working with Spark

- Wrap-up & Next

2월 9일(목) 20:00
자료에 대하여 궁금하신 점은 우상단 [연락처] 메뉴를 통하여 저에게 문의하여 주십시요.
 
Last Updated : 2017-02-16
 

[공지] 스터디 5차 모임 후기 / 최종회

어느새 금방 한 달이 지나간 것 같습니다.

이번 스터디에서는 아래의 내용들이 진행되었습니다.

  1. 후반부 주요 LAB 정리
  2. SQL Server 컨텍스트에서 RevoScaleR 수행
    - eDX 내용 정리
    - Fraud Detection 적용 예제 소개 
  3. HDInsight Spark 컨텍스트에서 RevoScaleR 수행
    - HDInsight / R Server 설정 방법
    - Spark 컨텍스트에서 RevoScaleR 처리

그동안 관심 가져주시고, 성공적으로 종료되도록 도와주신 많은 여러분들께 진심으로 감사드립니다.

이어지는 뒷풀이 모임에서, 다음 스터디 주제가 "Power BI"로 결정되었습니다.
최초 클라우드 Hadoop 쪽으로 계획이 있었으나, 보다 실용적인 주제로 변경하자는 의견이 대부분이어서 논의 끝에 "Power BI"가 주제로 선정되었습니다.

다음주 한 주간 컨텐츠와 일정을 정리한 이후에, 2월 22일 수요일 부터 매주 수요일에 새로운 스터디를 시작할 계획이며 별도 공지를 드릴 예정입니다.

김환태

[공지] 스터디 4차 모임 후기

짧지 않은 설연휴를 마치고 오래간 만에 4차 모임을 가졌습니다. 메인 주제인 Machine Learning Topic이 본격적으로 다루어 졌으며, 이주경님과 김은정님께서 각각 RevoScaleR 패키지를 사용하는 Clustering과 Predictive Modelling에 대해서 알기 쉽게 잘 설명해 주셨습니다.

주로 논의되었던 Clustering과 Linear Regression 모델은 특히 RevoScaleR 적용에 있어서 대량 병렬 연산 기능이 돋보이는 항목이었으며, 실전에서 아주 유용하게 쓰일 수 있을 트릭으로 초기 소량 데이터로 클러스터 center들을 가늠한 이후 대용량의 본 데이터 적용하는 것 같은 흥미로운 내용들이 다루어 졌습니다.

본격적인 개발 부분은 오늘로서 어느 정도 마무리가 되었으며, 차주는 SQL Server 및 Spark에 배포하는 내용을 중심으로 이번의 스터디 과정을 마무리 하고자 합니다.

차주는 스터디 종료 후, 간단한 Beer와 함께 이후 스터디 내용과 일정을 논의드리고자 하오니 많은 관심 부탁드립니다.

DI Study는 열린 스터디로 누구나 참여하실 수 있습니다.
오늘도 수고 많으셨습니다.

[공지] 스터디 3차 모임 후기

이번 3차 모임에서는 추운 날씨 탓인지 시작 이래 가장 적은 인원이 참석하셨습니다.(총 6명) 그렇지만 내용은 회를 거듭할 수록 충실해 지고 있다는 느낌입니다. 꼼꼼하게 내용을 챙겨서 설명해 주신 한석진 부장님, 정말 감사드립니다!
우선 지난 시간까지의 주요 내용들을 LAB 1을 통해 간단히 복습하고, 본격적인 데이터의 탐색과 시각화 작업들에 대한 설명과 시연이 이어졌습니다. 뉴욕시의 맨해튼 지역의 6개월간의 옐로우캡 택시 운행 정보에 대하여, 분석 포인트를 바꾸어 가면서 단계별로 필요한 factor를 정리해 가면서 차분하게 RevoScaleR에서의 데이터 가공 방법을 단계적으로 제대로 볼 수 있었던 기회 였습니다.
개인적으로는 독습으로 진행할 때 어렴풋하게 두리뭉실 넘어갔던 내용들을 질문 및 토의를 통하면서 명확하게 할 수 있었던 점이 좋았던 것 같습니다.
차주는 설연휴 주간으로 스터디가 없으며, 모든 일정을 1주일씩 뒤로 조정하기로 하였습니다. 다음 모임에서 발표는 이주경님(Clustering))과 김은정님(Predictive Modeling)이 수고해 주시기로 하였습니다.

해당 챕터는 Machine Learning의 핵심 내용이므로 놓치지 마시기 바랍니다.

DI Study는 열린 스터디로 누구나 참여하실 수 있습니다.
오늘도 수고 많으셨습니다.

[공지] 스터디 2차 모임 후기

안녕하세요,
이번 2차 모임에서는 모두 10분(오프라인 6명 온라인 4명)이 참석하여 주셨습니다. 갑작스러운 추위에도 시간을 내어 참석하여 주신 분들께 진심으로 감사드립니다. 1회 모임과 마찬가지로 온라인 1시간 진행 이후에, 오프라인에서도 역시 1시간 정도 발표 내용 및 실무 연계에 대한 주제로 추가 토의가 이루어 졌습니다.

데이터 분석에서 데이터의 준비 및 가공 과정에는 가장 많은 노력과 시간이 들어갑니다. 오늘 살펴본 내용은 RevoScaleR 패키지의 rx 함수들을 사용하여, 어떻게 이러한 처리들을 진행하는 지에 대하여 개념을 잡아갈 수 있었던 시간이었던 것 같습니다.

안정적이고 충실하게 준비해 오신 이주경 님의 발표 덕분으로 스터디 진행에 대한 틀이 어느 정도 잡혀가는 느낌이며, 온라인 발표 이후에 최고의 R 강사이신 이후선 대표님의 소중한 즉석 강의도 무척 좋은 시간이었습니다.

차주 발표는 마이크로소프트의 한석진 부장님께서 'Examining the Data' 파트를 맡아 주시기로 하였고, 나머지 'Visualizing the Data' 부분은 발표하실 지원자를 찾는중입니다.  발표 의사가 있으신 분은 저에게 알려 주십시요. eDX 해당 내용을 30분 정도로 요약하여 주시면 됩니다. ^^;

오늘 발표된 내용에 대한 질문은 본 후기 게시판의 댓글 또는 저에게 이메일로 알려주시면, 정리하여 블로그에 반영하도록 하겠습니다.

차차주는 설연휴여서 스터디 모임 일정에 변경이 있을 수 있습니다. 이 부분은 다음 모임에서 결정하여 공지 드리도록 하겠습니다.

모두 수고 많으셨습니다.

[공지] 스터디 1차 모임 후기

안녕하세요,
이번 1차 모임에서는 모두 23분(오프라인 8명 온라인 15명)이 참석하여 주셨습니다. 온라인 1시간 진행 이후에, 오프라인에서도 1시간 정도 더 토의가 이루어 졌습니다. eDX 내용 이외에 실무적인 주제와 몇가지 Power BI와  연계된 시각화 및 데이터 검증 방안 등이 논의되었습니다. 이번에는 진행이 미숙하여 스터디로 얻을 수 있는 네트워킹 시간이 미흡했는데, 다음 모임에서는 보완될 수 있도록 고민중입니다.
 
아래 모임이후 논의되었던 몇 가지 내용들을 정리하여 공유 드립니다.
 
1. Microsoft R 의 가격은 어떻게 되는지?
  • 설치형 (On-Premise)
    - SQL Server R Services : SQL Server 라이센스에 포함되며, 코어 단위로 구매(최소 4코어 구매. 이후 2코어씩 구매가능)
    - Hadoop/Suse/redhat/teradata를 지원하는 R Server : Hadoop 워커노드에 설치되는 R Server는 노드 기준, 스탠드얼론 리눅스, 테라데이터 등은 코어 기준
    - 단위 가격은 총판 또는 영업 담당자에게 문의 필요
  • 클라우드 (Azure)
    - R Server for HDInsight : HDInsight 가격과 거의 동일하나 약간의 추가 비용 있음 (https://azure.microsoft.com/ko-kr/pricing/details/hdinsight/)
    - R Server Virtual Machines : VM 옵션에 따라 상이(https://azure.microsoft.com/ko-kr/pricing/details/virtual-machines/r-server/)
2. 개발 및 테스트를 위힌 Azure 클라우드상의 환경 셋팅 방법은?
3. 기존 작성하였던 Base R 코드에서 ScaleR로  변경해야 할 때, 어느 정도 작업이 필요한지?
  • 상황에 따라 다르며, 대용량 빅데이터 처리 또는 기존 R 프로그램의 성능 향상을 위한 목적일 경우, 데이터 ingest 및 조작, 처리, 모델링 단계별로 병렬 처리가 가능한 ScaleR의 rx로 시작되는 Function들이 Base R 대비 향상된 Function 적용을 검토될 수 있으며, 특정 Function들은 입력 및 출력으로 data.frame이 아닌 .xdf 파일로 변경이 필요할 수도 있음
  • Comparison of Base R and ScaleR Functions : 기존 R 코드를 기반으로 ScaleR로 전환시 참조 (영문)
1월 12일 다음 스터디에서 뵙겠습니다!
 
김환태

[공지] 스터디 모임 1차

2017년도 1차 스터디 모임을 다음과 같이 진행합니다. 공지 드린 바와 같이 온라인 중계를 겸하여 진행되므로 아래 참석 링크를 통하여 동일한 시간에 참석 가능합니다. 저는 당일 19시 부터 현장에 대기하고 있을 예정이므로, 오프 라인으로 참석 하실 분들은 12층에 오셔서 저에게 전화 주시면 됩니다. (010-8957-8041 / 김환태)

  •  제목 : 스터디 1차 미팅 / DAT213x Analyzing Big Data with Microsoft R Server 
  • 일시 : 2017년 1월 5일(목) 20:00
  • 장소 : 마이크로소프트 광화문 본사 12층 Vancouver 회의실 / 위치
  • 온라인 참석 링크 : Join Skype Meeting (클릭!하시면 브라우저에 Webapp이 설치됩니다.)
  • 범위 : 1. Introduction / 프로그램 설치 / 예제 파일 및 데이터 설치 등

온라인 중계 내용의 녹화는 지난 테스트 미팅에서 별 문제 없이 진행되었으나, 강의가 아닌 스터디인 성격상 그대로 공개 하기에는 내용에 군더더기 부분들이 많아서, 스터디 동영상 공유는 진행하지 않을 계획입니다. 발표 자료 및 기타 유용한 동영상은 스터디 종료 이후에 블로그를 통해서 공유하도록 하겠습니다.

그럼, 목요일 저녁에 뵙겠습니다.