1. KDD(Knowledge Discovery in Database) 분석 방법론
- 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가짐
- 분석 절차
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
- 데이터셋 선택(Selection)
- 데이터 전처리(Preprocessing) : 잡음(Noise), 이상값(Outlier), 결측치(Missing value) 제거
- 데이터 변환(Transformation) : 변수 선택, 차원 축소 등
- 데이터 마이닝(Data Mining) : 분석 목적에 맞는 데이터 마이닝 기법 알고리즘 선택, 데이터 패턴 찾기, 데이터 분류, 예측 작업 시행
- 데이터 마이닝 결과 평가(Interpretation/Evaluation) : 분석 결과에 대한 해석, 평가, 활용
2. CRISP-DM(Cross Industry Standard Process for Data Mining) 분석 방법론
- 1996년 유럽 연합의 ESPRIT 프로젝트에서 시작
- 계층적 프로세스 모델로 4개 레벨로 구성
- 분석 절차
- 업무 이해(Business Understanding) : 비즈니스 관점 프로젝트의 목적과 요구사항 이해, 초기 프로젝트 계획 수립
- 데이터 이해(Data Understanding) : 분석을 위한 데이터 수집, 데이터 속성 이해, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
- 데이터 준비(Data Preparation) : 분석 기법에 적합한 데이터셋 선택, 데이터 정제, 통합, 포맷팅
- 모델링(Modeling) : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 과적합(Overfitting) 발견
- 평가(Evaluation) : 모델이 프로젝트의 목적에 부합하는지 평가, 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개(Deployment) : 완성된 모델을 실제 업무에 적용하기 위한 계획 수립 및 유지 보수 계획 마련, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
3. KDD VS CRISP-DM
KDD | CRISP-DM |
---|---|
분석 대상 비즈니스 이해 | 업무 이해(Business Understanding) |
데이터셋 선택(Selection) | 데이터 이해(Data Understanding) |
데이터 전처리(Preprocessing) | |
데이터 변환(Transformation) | 데이터 준비(Data Preparation) |
데이터 마이닝(Data Mining) | 모델링(Modeling) |
데이터 마이닝 결과 평가(Interpretation/Evaluation) | 평가(Evaluation) |
데이터 마이닝 활용 | 전개(Deployment) |
4. 빅데이터 분석 방법론
- 기획 : 계획을 위한 수립 및 진행과정
- 계획 : 기획을 통해 산출되는 결과
5. 분석 기획(Planning)
1) 비즈니스 이해 및 범위 설정
- 비즈니스 이해 : 비즈니스 자료 조사
- 프로젝트 범위 설정 : 프로젝트에 참여하는 관계자들(Stakeholders)의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서인 SOW(Statement of Work) 작성
2) 프로젝트 정의 및 계획 수립
- 데이터 분석 프로젝트 정의 : 프로젝트 목표 및 KPI(핵심 성과 지표), 목표 수준 등을 구체화, 모델 이미지 평가 기준 설정
- 프로젝트 수행 계획 수립 : 프로젝트 수행 계획서 작성하는 단계, 프로젝트의 목적 및 배경, 기대효과, 수행 방법, 일정 및 추진 조직, WBS 작성(전체업무를 구성 요소를 만든 후 각 요소 평가하고 일정별로 계획하며 완수 할 수 있는 사람에게 할당해주는 역할을 함)
3) 프로젝트 위험 계획 수립
- 데이터 분석 위험 식별, 계획 수립 단계에서 발생 가능한 모든 위험을 식별, 식별된 위험의 우선순위 설정
- 위험 대응 계획 수립 : 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)로 구분하여 위험 관리 계획서 작성
6. 데이터 준비(Preparing)
1) 필요 데이터 정의
- 데이터 정의 : 데이터 정의서 작성(메타데이터 정의서, ERD(Entity Relationship Diagram))
- 데이터 획득 방안 수립
2) 데이터 스토어 설계
- 정형 데이터 스토어 설계 : 관계형데이터베이스(RDBMS) 이용, 데이터 매핑 정의서
- 비정형 데이터 스토어 설계 : 하둡, NoSQL 이용
3) 데이터 수집 및 정합성 점검
- 데이터 수집 및 저장 : ETL(Extract Transform Laod)로 데이터 수집(ex. 크롤러)
- 데이터 정합성(무결성) 점검
7. 데이터 분석(Analyzing)
1) 분석용 데이터 준비
- 비즈니스 룰 확인 : 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 정확히 인식
- 분석용 데이터셋 준비 : 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터 추출
2) 텍스트 분석
- 어휘/구문 분석(Word Analysis), 감정 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소셜 네트워크 분석(SNA)
3) 탐색적 분석(EDA)
- 기초 통계량 산출, 데이터 분포와 변수간의 관계 파악, 데이터 시각화
4) 모델링(Modeling)
- 데이터 분할 : 훈련용 데이터셋과 테스트용 데이터셋으로 분리하여 과적합 방지
- 데이터 모델링
- 모델 적용 및 운영 방안 : 모델에 대한 상세한 알고리즘 작성
5) 모델 평가 및 검증 : 테스트 데이터셋을 이용하여 모델 검증 작업 실시, 보고서 작성
8. 시스템 구현(Developing)
- 시스템 분석 및 설계 구현
- 시스템 테스트 및 운영 : 단위테스트, 통합테스트, 시스템 테스트 실시
9. 평가 및 전개(Deploying)
- 모델 발전 계획 수립
- 프로젝트 평가 보고 : 프로젝트의 성과를 정량적, 정성적으로 평가 하고 최종보고서 작성