● DIKW 피라미드
구분 | 내용 |
데이터(Data) | 가공되기 전의 객관적 수치 또는 기호 |
정보(Information) | 데이터의 가공 및 처리를 통해 도출된 현상 |
지식(Knowledge) | 정보의 구조화를 통해 도출되는 고유의 아이디어 |
지혜(Wisdom) | 지식의 축적과 아이디어가 결합된 창의적 산물 |
-> 데이터 분석은 데이터로부터 가치 있는 정보를 추출하고 이를 통해 더 나은 의사 결정(지혜의 도출)을 할 수 있도록 지원하는 일.
● 공통화 : 개인 혹은 집단이 경험을 공유함으로써 지식이 공유되는 과정 (암묵지 -> 암묵지)
● 표출화 : 개인의 지식을 공유하기 위해 문서나 매체로 표현하는 과정 (암묵지 -> 형식지)
● 연결화 : 개인 혹은 집단이 형식지를 상호 결합하면서 새로운 지식을 창조하는 과정(형식지 -> 형식지)
● 내면화 : 교육, 훈련 등으로 형식지를 개인이 체득하여 암묵지로 체득하는 과정 (형식지 -> 암묵지)
ex) 암묵지는 개인에게만 존재하는 지식이기 떄문에 지양해야 하는 지식 구조이다 (O/X)
-> 정답 : X (조직의 지식이 내면화를 통해 개인의 암죽지로 전달되어야 지식의 공유가 가능)
빅데이터의 3V
- Volume : 규모 -> 수집, 저장, 처리하는 데이터의 규모가 매우 크다
- Variety : 다양성 -> 정형화된 데이터뿐만 아니라 다양한 유형의 데이터를 처리
- Velocity : 속도 -> 데이터의 수집, 분석, 활용의 속도가 매우 빠름
빅데이터의 5V
- Veracity : 신뢰성 -> 데이터 처리를 통한 노이즈 제거로 수집된 데이터의 신뢰 확보
- Value : 가치 -> 수집된 데이터를 처리함으로써 다양한 가치 창출
변화 | 내용 |
사전처리 -> 사후처리 | 과거에 필요한 정보만 수집하고 필요하지 않은 정보는 제거했다. 현재는 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. |
표본조사 -> 전수조사 | 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 감소하게 됨. 이로 인해 표본을 조사하는 기존의 지식 발견 방식에서, 전수조사를 통해 샘플링에서 얻지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용 방법이 변환됨. |
질 -> 양 | 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 인식의 변화가 나타나고 있음. |
인과 관계 -> 상관관계 | 데이터의 기반의 상관관계 분석이 주는 인사이트가 인과 관계에 의한 미래 예측을 압도하는 시대가 도래하고 있음. |
빅데이터 위기 요인과 통제 방안
- 사생활 침해 : 동의제에서 책임제로 변경, 데이터를 사용하는 사용주체가 책임을 지게 하여 사생활 침해에 대한 자국책을 마련하도록 주문
- 책임 원칙 훼손 : 기존 책임 원칙을 강화, 보강하고 예측에 의한 불이익 가능성을 최소화하는 장치 마련
- 데이터 오용 : 분석 알고리즘에 대한 접근을 허용하여 분석 결과에 대한 부당함을 반증할 방법에 대해 공개하도록 주문
데이터 사이언티스트 스킬
- Hard Skil : 빅데이터 지식, 분석 기술 등
- Soft Skil : 통찰력 있는 분석, 의사 전달 능력, 다분야 간 협력
빅데이터 조직 구조
- 집중구조 : 각 부서별로 분석을 진행하여 전사 분석 업무를 별도의 분석 전담 조직에서 담당, 분석업무가 이중화, 이원화 될 수 있다.
- 기능구조 : 각 부서별로 분석을 진행, 별도의 분석 조직이 없어 전사적 핵심분석이 어렵고, 과거 실적 분석에 국한될 가능성이 큼
- 분산구조 : 분석 조직 인력들을 현업부서로 직접 배치하여 분석업무를 수행, 분석 결과에 따른 신속한 활동이 가능하며 Best Practice의 공유가 가능하여 분석 수준을 상향 평준화 시킬 수 있음. 각 부서의 분석업무와 역할 분담을 명확히 해야함.