[Bigdata] - 빅데이터 기초 01 : 개념과 용어
in ML on Ml, Bigdata
개념과 용어
1. 데이터 분석
- 사실, 관계, 패턴, 인사이트, 트랜드를 찾기 위해 검토하는 과정
- 더 나은 의사결정을 지원
2. 데이터 애널리틱스
- 데이터 분석을 포괄하는 더 광범위한 용어
- 수집, 정리, 구성, 저장, 분석 및 데이터 관리를 포함하는 데이터 수명주기 전체를 관리
1) 운영 비용을 낮추고 전략적 의사 결정을 쉽게 한다.
2) 현상의 원인을 파악하여 예측의 정확성을 높일 수 있다.
3) 비용을 줄임으로써 고품질 서비스 제공에 주력할 수 있다.
데이터 애널리틱스의 4가지 분석
- 서술분석
- 진단분석
- 예측분석
- 처방분석
1) 서술 분석
이미 발생한 사건에 대한 질문에 답하기 위해 수행된다. 이런 형태의 분석은 정보를 생성하기 위해 데이터를 상황에 맞게 조정한다.
서술 분석
은 가장 가치가 떨어지며 상대적으로 기본적인 기술을 필요로 한다.
ex)
- 지난 12개월 동안의 판매량은 얼마인가?
- 심각성 및 지리적 위치별 문의 전화는 몇 건인가?
- 각 판매원이 받은 월간 수수료는 얼마인가?
2) 진단 분석
사건의 원인에 초점을 둔 질문을 이용하여 과거에 발생한 현상의 원인을 파악하는 것을 목표로 한다. 어떤 일이 왜 발생했는지 판단하다.
서술 분석
보다 더 많은 가치를 제공하지만 더 고급 기술을 필요로 한다. 여러 소스의 데이터를 수집하고 이를드릴다운
및롤업
분석을 수행할 수 있는 구조에 저장해야한다.
ex)
- 2/4분기 판매가 1/4분기 판매보다 적은 이유는 무엇인가?
- 왜 동부 지역이 서부 지역보다 더 많은 문의 전화량이 있었는가?
- 왜 지난 3개월 동안 환자 재입원율이 증가했는가?
3) 예측 분석
결과를 예측하려고 하며, 예측은 과거 및 현재 데이터에서 발견된 패턴, 추세 및 예외를 기반으로 이루어진다. 위험과 기회에 대한 파악으로 이어질 수 있다.
예측 분석에 사용되는 모델은 과거 사건이 발생한 상황에 대해서 암묵적으로 의존성을 가지고 있음을 이해하는 것이 중요하다. 기본 조건이 변경되면 , 예측을 수행하는 모델을 업데이트해야 한다.
ex) 대게 what-if방식을 이용한 질문들
- 특정 고객이 대출에 대해 채무 불이행할 가능성은 어느 정도인가?
- 이러한 고객의 특징은 무엇인가? 예를 들어, 월세를 제대로 내지 못하는가?
- 약물 A 대신 약물 B를 투여하면 환자의 생존율은 어떻게 될 것인가?
- 고객이 제품 A와 B를 산 경우 제품 C를 살 가능성은 어느 정도인가?
4) 처방 분석
예측 분석을 기반으로 하며, 어떤 조치를 취해야 할지 처방한다. 여기서는 어떤 처방을 따르는 게 가장 좋을지가 아니라 왜 그 처방을 따라야 하는지가 초점이다.
처방 분석은 비즈니스 규칙과 많은 양의 내부 및 외부 데이터를 사용하여 결과를 시뮬레이션하고 최상의 행동 방침을 규정한다.
ex)
- 세 가지 약 중, 어느 것이 가장 좋은 결과를 제공하는가?
- 특정 주식을 거래하기에 가장 좋은 시기는 언제인가?
- 내 차의 엔진 오일을 언제 교환해야 하는가?
3. 비즈니스 인텔리전스 (Besiness Intelligence, BI)
조직이 비즈니스 프로세스 및 정보 시스템에서 생성된 데이터를 분석함으로써 기업의 성과에 대한 인사이트를 얻을 수 있게 한다.
BI는 분석 쿼리를 실행하기 위해, 일반적으로 기업 데이터 웨어하우스에 통합된, 기업 전반에 걸친 대량의 데이터를 분석한다.
4. 핵심 성과 지표 (Key Performance Indicator, KPI)
특정 비즈니스 상황에서 성공을 측정하는데 사용할 수 있는 지표이다. 기업의 전반적인 전략 목표 및 목적과 연결되어 있다.
5. 빅데이터의 특성
데이터 세트가 빅데이터로 간주되기 위해서는 하나 이상의 특성이 있어야한다.
- 용량
- 속도
- 다양성
- 정확성
- 가치
1) 용량
대용량의 데이터는 별도의 데이터 저장 및 처리는 물론 추가 데이터 준비, 선별 및 관리 프로세스를 요구한다.
ex)
- 판매 시점 및 은행 업무와 같은 온라인 거래
- GPS 센서, RFID, 스마트 미터 및 텔레매틱스와 같은 센서
- 페이스북과 트위터와 같은 소셜 미디어
2) 속도
데이터의 빠른 유입에 대처하기 위해 기업은 탄력적이면서 사용 가능한 데이터 처리 솔루션과 이에 상응하는 데이터 저장 능력을 설계해야 한다.
ex)
- 60초 -> 350,000개의 트윗
- 60초 -> 300시간 분량의 비디오
- 60초 -> 1억 7,100만 개의 이메일
3) 다양성
데이터의 다양성은 데이터 통합, 변환, 처리 및 저장과 관련하여 기업에 어려움을 초래한다.
금융 거래 형태의 정형 데이터
, 이메일 형태의 반정형 데이터
및 이미지 형태의 비정형 데이터
4) 정확성
데이터는 품질에 대한 평가가 필요하며, 이로 인해 무효 데이터를 해결하고 잡음을 제거하는 데이터 처리 활동으로 이어질 수 있다.
온라인 고객 등록과 같은 제어된 방식으로 수집된 데이터는 블로그 게시물과 같은 제어되지 않은 소스를 통해 얻은 데이터보다 일반적으로 잡음이 적다. 잡음 비율은 데이터 소스 및 유형에 따라 다르다.
5) 가치
가치는 기업에 대한 데이터의 유용성으로 정의된다. 정확성
이 높을수록 비즈니스에 더 높은 가치를 가져다준다. 분석 결과가 유효기간을 갖기 때문에 가치는 데이터 처리 시간
에 좌우된다. 가치
와 시간
은 반비례
관계를 맺고 있다.
6. 다양한 유형의 데이터
인간에 의해 생성된 데이터와 기계에서 생성된 데이터는 다양한 소스에서 나올 수 있으며 다양한 형식이나 유형으로 표현될 수 있다.
- 정형 데이터
- 비정형 데이터
- 반정형 데이터
1) 정형 데이터
데이터 모델 또는 스키마를 따르며 주로 테이블 형식으로 저장된다. 주로 관계형 데이터 베이스
2) 비정형 데이터
데이터 모델 또는 데이터 스키마를 따르지 않는 데이터를 비정형 데이터라고 한다. 기업 내의 데이터의 80%는 비정형 데이터가 차지하는 것으로 추산된다.
ex)
- 오디오
- 텍스트 (블로그, 트위터)
- 비디오
- 이미지
만약 비정형 데이터를 RDB
에 저장하려면 BLOB
형태로 저장된다. 또는 NoSQL Database
에 정형 데이터와 함께 비정형 데이터를 저장할 수 있다.
3) 반정형 데이터
구조가 정의되어 있고 일관성을 가지고 있지만 본질적으로는 관계형이 아니다. 계층적이거나 그래프 기반이다.
ex)
- XML
- JSON
- 센서 데이터
- 스프레드시트
비정형 데이터보다 처리가 쉽다.
기본 형식이 텍스트 기반이 아닌 경우, 반정형 데이터는 주로 특수한 전처리 및 저장 요구 사항을 가진다.
반정형 데이터에 대한 전처리의 예로는 XML 파일의 유효성을 검사하여 스키마 정의와 일치하는지 확인하는 것을 들 수 있다.
4) 메타데이터
데이터 세트의 특성 및 구조에 대한 정보를 제공한다.
ex)
- 작성자와 날짜에 대한 정보를 제공하는 XML 태그
- 사진의 크기와 해상도를 제공하는 속성들
빅데이터 솔루션은 데이터를 처리할 때 메타데이터에 의존한다.
- 출처 [빅데이터 기초 개념,동인,기법]