1. 빅데이터의 정의
- 데이터 크기 관점 : 저장, 관리 분석할 수 있는 범위를 초과하는 규모의 데이터
- 데이터 분석 관점 : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
- 데이터 가치 관점 : 대용량 데이터를 활용해 작은 데이터에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 것
- 3V(Volume, Variety, Velocity)
종류 | 주요 솔루션 |
---|---|
데이터의 크기(Volume) | 생성되는 모든 데이터를 수집 |
데이터의 다양성(Variety) | 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석 대상으로 함 |
데이터의 속도(Velocity) | 사용자가 원하는 시간 내에 데이터 분석결과를 제공하는 것 데이터의 업데이터되는 속도가 매우 빨라지는 것 |
2. 빅데이터가 만들어내는 본질적인 변화
- 사전처리 -> 사후처리
: 정해진 특정한 정보만 수집하는 것이 아닌 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. - 표본조사 -> 전수조사
: 데이터 수집비용이 더는 문제가 되지 않고 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격하게 감소하고 있다. 전수조사의 장점은 표본조사가 주지 못하는 패턴이나 정보를 제공해 준다. - 질 -> 양
: 데이터의 수가 증가함에 따라 사소한 몇개의 오류가 대세에 영향을 주지 못한다. - 인과관계 -> 상관관계
: 인과관계 분석은 데이터를 얻는데 드는 비용이 매우 비싼 모델이다. 비즈니스 상황에서는 상관관계 분석으로 충분하다.
3. 데이터의 크기를 나타내는 단위
단위 | 크기 |
---|---|
1테라바이트(Terabyte) | 1024 기가바이트(Gigabyte) |
1페타바이트(Petabyte) | 1024 테라바이트(Terabyte) |
1엑사바이트(Exabyte) | 1024 페타바이트(Petabyte) |
1제타바이트(Zettabyte) | 1024 엑사바이트(Exabyte) |