<p> 이번 방학이 끝나기 전에 자격증을 하나 따보자! 해서 신청한게 ADsP(데이터 분석 준전문가) 시험이다. 데이터 분석에 관한 자격증이 뭐가 있나 봤더니 이게 있었다! 실제로 통계학과 분들은 이 자격증을 많이 따기도 하고 따는 사람을 본적도 있다. 취업시 많은 혜택이 있는 자격증은 아니지만 어느정도 가산점이 있고 기초를 자세히 정리하기에 좋을 것 같아서 신청하고 시험 준비중이다! 나는 통계학과 학생은 아니지만… 어느정도 머신러닝 프로그래밍을 하면서 약간의 지식은 가지고 있고 통계학만.. 잘 다루면 되지 않을까해서 일단 도전! 해보는 것이다. 이 자격증과 관련된 네이버 카페도 있는데 한 3주정도면 다들 취득할 수 있다고들 한다. 원래 저번주에 신청했지만… 갑자기 연구실 일이 폭풍같이 밀려들어서… 사실 지금 시작하는거와 다름없다. 8월 25일이 시험인데 걱정된다 ㅠ.ㅠ 학부때 통계학개론 교양 수업을 들었지만… c+이라는 아픈 기억이 있으므로 통계학 개론 기초 수업을 찾아서 들었다. 강의 이름은 K-MOOC R을 활용한 통계학개론 이라는 강의이다. 간단 명료하게 강의내용이 딱딱 정리되어 있는 스타일이라서 좋았다. 이 수업의 통계학 개론 내용과 ADsP에서 필요한 통계학 내용과 결합하여 정리할 예정이다.
</p>
1. 통계학이란?
통계학(Statistics)이란 Status(국가)와 ics(학문)라는 접미어를 합쳐서 만든 단어로 국가의 경영 또는 통치에 필요한 학문이라는 뜻이다.
과거의 통계학은 경제 관련자료에 대한 기록을 주로 다뤘다면 현재의 통계학은 수학을 바탕으로 더 과학적이고 논리적 체계를 갖춘 학문으로 발전하였다. 통계학은 자료가 발생될 수 있는 모든 분야에서 활용이 가능하며 특히 빅데이터에 통계학적인 지식을 많이 접목하여 활용하고 있다.
2. 빅 데이터(Big Data)란?
빅 데이터의 특징은 3V로 표현 될 수 있다. 3V는 Velocity(데이터의 발생 속도), Volume(데이터의 크기), Variety(데이터의 다양성)을 가리킨다.
- Velocity(데이터의 발생 속도) : Velocity 관점에서 두가지로 해석 될 수 있다. 데이터가 빠른 속도로 발생한다, 사용자가 원하는 시간에 데이터 분석 결과를 제공한다.
- Volumn(데이터의 크기) : 데이터의 양이 방대하다.
- Variety(데이터의 다양성) : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석대상으로 한다.
3. 인공지능(AI, Artificial Intelligence)과 데이터(Data)
인공지능은 입력은 반드시 데이터의 형태를 가지며 입력된 자료를 분석하여 최적의 분류(classification)을 할 수 있는 기계(machine)을 가리킨다.
훈련자료를 기계(machine)에 input으로 넣어 기계가 자료를 분석하여 학습한 기계를 인공지능이라고 하며 기계가 자료를 분석하여 분류할 수 있도록 학습하는 과정을 머신러닝(machine learning)이라고 한다.
머신러닝의 종류에는 단순 학습(shallow learning)과 심화 학습(deep learning)이 있다.
단순학습(shallow learning)은 어떠한 filter를 이용해 단순히 예측값을 도출하는 반면 심화 학습(deep learning)은 인간의 신경망을 본뜬 알고리즘으로 기계 스스로 학습하며 정답값이 주어지면 hidden layers를 통해 기계 스스로 학습하며 어떠한 이유로 그렇게 학습되는지 명확하게 규명할 수 없다. 또한, 도출된 예측값을 다시 input data로 활용하여 여러번 반복하여 학습하므로 shallow learning 보다는 더욱 복잡한 예측이 가능하다.
인공지능의 핵심기술은 크게 음성인식(Voice Recognition)과 형상인식(Pattern Recognition)으로 나뉠 수 있다.
references
- http://www.kmooc.kr/courses/course-v1:PNUk+RS_C01+2017_KM_009/info