1과목
1. 데이터의 이해
데이터와 정보
데이터의 정의
- 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)
- 정보 : 데이터로부터 가공된 자료 (베스트셀러)
데이터의 유형
- 정성적, 정량적
- 정성적 데이터 : 자료의 특징을 풀어 설명
- → 언어, 문자 (기상특보, 주관식 설문 응답)
- 정량적 데이터 : 자료를 수치화
- → 수치, 기호 (온도, 풍속)
- 정형, 반정형, 비정형
- 정형 데이터 : 정보 형태가 정해짐 (관계형 DB, 엑셀-스프레드시트, CSV)
- 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함 (HTML, XML, JSON, RDF)
- 비정형 데이터 : 형태가 정해지지 않음 (SNS, 유튜브, 음원)
암묵지, 형식지간 상호작용
- 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음
- 형식지 : 문서, 메뉴얼 등의 형상화된 지식 - 공표연내
- 공통화: 암묵지 지식을 다른 사람에게 알려줌
- 표출화: 암묵지 지식을 메뉴얼이나 문서로 전환
- 연결화: 교재, 매뉴얼에 새로운 지식 추가
- 내면화: 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득
DIKW 피라미드
- 데이터(Data): 있는 그대로의 사실
- (A대리점 핸드폰 100만원, B 대리점 핸드폰 200만원)
- 정보(Information): 데이터를 통해 패턴 인식
- (A대리점이 핸드폰이 싸다)
- 지식(Knowledge): 패턴을 통해 예측
- (A에서 핸드폰을 사면 이득을 보겠다)
- 지혜(Wisdom) : 창의적인 산물
- (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)
데이터 단위 - 패지요
KB(2^10) < MB(2^20) < TB(2^30) < PB(2^40) < EB(2^50) < ZB(2^60) < YB(2^70) (Peta < Exa < Zetta < Yotta)
데이터베이스의 정의와 특징
데이터베이스의 개념
- DB : 일정 구조에 맞게 조직화된 데이터의 집합
- 스키마 : DB의 구조와 제약조건에 관한 전반적 명세 (외부 스키마, 개념스키마, 내부스키마)
- 인스턴스 : 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
- 메타데이터 : 데이터를 설명하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
- 인덱스 : 정렬, 탐색을 위한 데이터의 이름
- DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어
- 관계형 DBMS : 테이블(표)로 정리 (MySQL, MariaDB, Oracle)
- NoSQL DBMS : 비정형 데이터를 저장하고 처리 (HBase, MongoDB, CouchDB, Redis, Cassandra)
- SQL : 데이터 베이스에 접근할 수 있는 하부언어
- 정의언어 (DDL) : CREATE, ALTER, DROP
- 조작언어 (DML) : SELECT, INSERT, DELETE, UPDATE
- 제어언어 (DCL) : COMMIT, ROLLBACK, GRANT, REVOKE
데이터베이스의 특징 - 공통저변
- 공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
- 통합된 데이터 : 동일한 데이터 중복되어 있지 않음
- 저장된 데이터 : 저장매체 에 저장
- 변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지
데이터베이스 설계 절차 - 개논물
- 요구조건 분석
- 개념적 설계 : 개념적 스키마 생성
- 논리적 설계 : 개념적 ERD를 활용한 논리적 모델링
- 물리적 설계 : 저장 구조 설계
데이터베이스의 활용
기업 활용 데이터베이스
- OLTP(Online Transaction Processing) : 데이터를 수시로 갱신 (거래단위)
- OLAP(Online Analytical Processing) : 다차원 데이터를 대화식으로 분석
- CRM(Customer Relationship Management) : 고객과 관련 자료 분석, 마케팅 활용
- SCM(Supply Chain Management) : 공급망 연결 최적화
- ERP(Enterprise Resource Planning) : 기업 경영 자원을 효율화
- RTE(Real-Time Enterprise) : 최신 정보로 빠른 의사결정 지원
- BI(Business Intelligence) : 기업 보유 데이터 정리, 분석하는 리포트 중심 도구
- BA(Business Analytics) : 통계 기반 비즈니스 통찰력
- Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
- KMS(Knowledge Management System) : 기업의 모든 지식을 포함
데이터웨어하우스(Data Ware House, DW)
- 특징
- 주제지향성 : 분석목적 설정이 중요
- 데이터 통합: 일관화된 형식으로 저장
- 시계열성: 히스토리를 가진 데이터
- 비휘발성: 읽기전용 - 수시로 변하지 않음
- 구성요소
- ETL (Extraction, Transform, Load)
- ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장
데이터레이크 (DataLake)
→ 비정형 데이터를 저장하며 하둡과 연계하며 처리
*하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션
- HDFS : 분산형 파일 저장 시스템
- MapReduce : 분산된 데이터를 병렬로 처리
2. 데이터의 가치와 미래
빅데이터의 이해
빅데이터 출현 배경
- 인터넷 확산
- 스마트폰 보급
- 클라우딩 컴퓨팅으로 인한 경제성 확보
- 저장매체 가격하락
- 하둡을 활용한 분산 컴퓨팅
- 비정형 데이터 확산
빅데이터의 3V (가트너 정의)
- Volume (규모) : 데이터 양 증가 (구글 번역 서비스)
- Variety (다양성) : 데이터 유형 증가
- Velocity (속도) : 데이터 생성, 처리 속도 증가
- 그 외 5V / 7V에 포함되는 요소
- Value(가치) : 숨겨진 가치 발견이 중요
- Veracity(신뢰성) : 고품질 데이터
- Validity(정확성) : 데이터의 유효성 보장
- Volatility(휘발성) : 데이터의 의미 있는 기간
빅데이터에 대한 비유
- 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
- 원유 : 정보제공으로 생산성 향상
- 렌즈 : 현미경이 생물학 발전 영향, 산업 전반에 영향 (구글 Ngram Viewer)
- 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 (페이스북)
- *써드파티 : 원천기술을 활용한 파생상품 만드는 회사
빅데이터가 만들어내는 변화 - 전후양상
- 표본조사 → 전수조사
- 사전처리 → 사후관리
- 질 → 양
- 인과관계 → 상관관계
빅데이터의 가치와 영향
빅데이터 가치 산정이 어려운 이유
- 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
- 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출
비즈니스 모델
빅데이터 활용을 위한 3대 요소 - 인자기
- 인력
- 자원(데이터)
- 기술
빅데이터의 주요 분석기법
- 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
- (수도권에 거리가 가까울수록 부동산 가격이 비싼가?)
- 분류분석 : A와 B는 어디에 속하는 범주
- (고양이와 강아지의 이미지를 구분)
- 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재
- (마트에서 치킨과 맥주를 같이 사는 관계)
- 유전자 알고리즘 : 최적화 필요한 문제의 해결책
- (택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램 어떤 시간대에 방송?)
- 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측
- (넷플릭스 영화 추천 시스템)
- 감정분석 : 텍스트 데이터에서 감정(긍정/부정)을 분석
- 소셜 네트워크 분석 : 사람간의 관계
- (SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
- 텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견
- (문서요약, 키워드 추출)
위기 요인과 통제 방안
위기 요인과 통제 방안
- 사생활 침해 : SNS 올린 데이터가 사생활 침해
- → 제공자에서 사용자 책임으로 전환
- 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
- → 결과에 대해서만 책임
- 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님*알고리즈미스트 : 부당하게 피해가 발생한 사람들을 구제하는 전문인력
- → 알고리즘을 해석가능한 알고리즈미스트 필요
데이터 3법 - 개정신
: 가명정보의 개념 도입 (통계 작성, 연구, 공익적 기록보존 목적 하에 동의 없이 활용 가능)
- 개인정보보호법
- 정보통신망 이용 촉진 및 정보보호 등에 관한 법률 (정보통신망법)
- 신용정보의 이용 및 보호에 관한 법률 (신용정보법)
개인정보, 가명정보, 익명정보
- 개인정보 : 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능 (홍길동, 33세)
- 가명정보 : 가명처리를 통해 추가정보 없이 특정 불가 (홍00, 30대 초반)
- 익명정보 : 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용 (000, 30대)
개인정보 비식별화
- 가명처리 (홍길동, 35세 → 임꺽정, 30세)
- 총계처리 (홍길동 170cm, 임꺽정 180cm → 평균 키 175cm)
- 데이터 삭제 (주민등록번호 9011111-1234567 → 90년대생, 남자)
- 데이터 범주화 (홍길동, 35세 → 홍길동, 30~40세)
- 데이터 마스킹 (홍길동, 35세 → 홍00, 35세)
프라이버시 보호 모델
- k-익명성: 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
- l-다양성 : 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
- t-근접성 : 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤
미래의 빅데이터
데이터 산업의 발전
: 처리 → 통합 → 분석 → 연결 → 권리
- 처리: 프로그래밍 언어를 활용한 데이터의 처리
- 통합: DBMS의 등장
- 분석: 빅데이터 분석 기술의 발전
- 연결: API를 활용한 모듈들의 연결
- 권리: 마이데이터(MyData)를 활용한 데이터의 주권 행사
- *마이데이터: 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도
3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
빅데이터 분석과 전략 인사이트
전략 인사이트
- 집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
- 경영진의 전략적 인사이트에 기여
→ 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택
→ 사업 상황들을 확인할 때는 넓은 시야
데이터 사이언스
- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
- 정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)
데이터 사이언스 핵심 구성요소 - AI비
- Analytics: 이론적 지식
- IT: 프로그래밍적 지식
- 비즈니스 분석: 비즈니스적 능력
전략 인사이트 도출을 위한 필요 역량
데이터 사이언티스트의 필요역량
- 하드 스킬(Hard Skill): 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
- 소프트 스킬 (Soft Skill): 스토리텔링, 리더십, 창의력, 분석 등
→ 하드스킬은 이과적, 소프트스킬은 문과적인 느낌
빅데이터 그리고 데이터 사이언스의 미래
Digitalization → Connection → Agency
빅데이터 가치 패러다임 변화 - DigitalCA메라
- Digitalization : 아날로그 세상을 디지털화
- Connection : 디지털화된 정보들의 연결
- Agency : 연결을 효과적으로 관리
'Certification' 카테고리의 다른 글
[AWS SAA] Part 2. 스토리지 정리 (S3, EBS, EFS 비교) (0) | 2025.05.20 |
---|---|
[AWS SAA] Part 1. 컴퓨트 서비스 (EC2, Lambda, ECS, EKS 등) (1) | 2025.05.20 |
[ADsP] 2과목 - 데이터분석 기획 (1) | 2025.05.16 |
[ADsP] 3과목 - 데이터 분석 (0) | 2025.05.13 |