1. 빅데이터의 정의
  • 데이터 크기 관점 : 저장, 관리 분석할 수 있는 범위를 초과하는 규모의 데이터
  • 데이터 분석 관점 : 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
  • 데이터 가치 관점 : 대용량 데이터를 활용해 작은 데이터에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 것


  • 3V(Volume, Variety, Velocity)
종류 주요 솔루션
데이터의 크기(Volume) 생성되는 모든 데이터를 수집
데이터의 다양성(Variety) 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석 대상으로 함
데이터의 속도(Velocity) 사용자가 원하는 시간 내에 데이터 분석결과를 제공하는 것
데이터의 업데이터되는 속도가 매우 빨라지는 것



2. 빅데이터가 만들어내는 본질적인 변화
  • 사전처리 -> 사후처리
    : 정해진 특정한 정보만 수집하는 것이 아닌 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
  • 표본조사 -> 전수조사
    : 데이터 수집비용이 더는 문제가 되지 않고 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격하게 감소하고 있다. 전수조사의 장점은 표본조사가 주지 못하는 패턴이나 정보를 제공해 준다.
  • 질 -> 양
    : 데이터의 수가 증가함에 따라 사소한 몇개의 오류가 대세에 영향을 주지 못한다.
  • 인과관계 -> 상관관계
    : 인과관계 분석은 데이터를 얻는데 드는 비용이 매우 비싼 모델이다. 비즈니스 상황에서는 상관관계 분석으로 충분하다.



3. 데이터의 크기를 나타내는 단위
단위 크기
1테라바이트(Terabyte) 1024 기가바이트(Gigabyte)
1페타바이트(Petabyte) 1024 테라바이트(Terabyte)
1엑사바이트(Exabyte) 1024 페타바이트(Petabyte)
1제타바이트(Zettabyte) 1024 엑사바이트(Exabyte)