빅데이터란?
포스트
취소

빅데이터란?

빅데이터 분석이란?

빅데이터는 큰사이즈의 데이터로부터 유의미한 지표를 분석해 내는 것으로 정의한다.

  • 데이터 규모에 초점을 맞춘 정의
    • 기존 DB관리도구의 수집, 저장, 관리, 분석 역량을 넘어서는 데이터
  • 업무 수행 방식에 초점을 맞춘 정의
    • 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 빠른 수집, 발굴, 분석을 지원하도록 고안된 기술

데이터 용량

출현배경

본래에도 데이터를 분석하는 업무는 많이 존재하였다(Business Intelligence 등…). 하지만 기술의 발전을 통하여 최근 빅데이터에 대한 분석 방법론 등 많은 관심이 쏟아지고 있다. 그에 대한 이유는 아래와 같다.

  • 데이터 양의 증가 / 데이터 저장기술의 발달
  • SNS의 등장, 스마트 기기의 보급
  • 데이터 저장장치(하드웨어의 용량 등)와 기술의 발달
  • 경제적 타당성 증가(저장장치의 보편화로 인한 가격의 인하. e.g) 1980년대 1G 메모리는 10억 이상이였다고 한다.)
  • 데이터 처리 기술의 발달(분산 병렬처리 등…)
  • CPU의 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화

특징

빅데이터의 특징은 크게 3V, 깊게는 5V로 요약할 수 있다.

  • Volume - 크기
    • 저장장치 가격의 하락, 네트워크 속도의 향상, SNS, 스마트기기의 보급등 으로 매일 수 페타바이트의 데이터가 생성됨(e.g. 유튜브의 경우 1분마다 400시간 분량의 동영상이 업로드된다고 함.).
  • Variety - 다양성
    • 정형 : DB 같이 고정형 필드(Attribute)에 저장되는 데이터
    • 반정형 : XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
    • 비정형 : 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
  • Velocity - 속도
    • 정보의 유통 속도
    • 데이터의 처리 속도

– 이하는 5V에 추가되는 사항이다.

  • Value - 가치
    • 유의미한 가치를 가지는 지표
  • Veracity - 정확성
    • 빅데이터를 이용하여 뽑아낸 데이터의 신뢰성

빅데이터의 5V

빅데이터 처리 5단계

빅데이터는 수집 -> 정제 -> 적재 -> 분석 -> 시각화 의 5단계로 처리된다.

  • 수집
    • 데이터를 수집하는 단계
  • 정제
    • 수집한 데이터를 적재하기 위해 필요없는 데이터(결측치 등), 깨진 데이터를 정리하는 단계
    • 일반적으로 전처리 단계를 의미함.
  • 적재
    • 정제된 데이터를 분석하기 위해 적재하는 단계
    • RDB, NoSQL, Redshift, Druid 등의 도구에 적재
  • 분석
    • 적재한 데이터를 의미있는 지표로 분석하는 단계
    • 이용자가 데이터를 활용할 수 있게 데이터로 분석하는 단계
  • 시각화
    • 분석한 데이터를 도표로 보여주는 단계
    • 데이터를 이해하기 쉬운 차트로 분석하는 단계
Reference

https://wikidocs.net/31412

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.