[ADsP] 1과목 - 데이터 이해

2025. 5. 16. 21:20·Certification

1과목

1. 데이터의 이해

데이터와 정보

데이터의 정의

  • 데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)
  • 정보 : 데이터로부터 가공된 자료 (베스트셀러)

데이터의 유형

  1. 정성적, 정량적
    1. 정성적 데이터 : 자료의 특징을 풀어 설명
    2. → 언어, 문자 (기상특보, 주관식 설문 응답)
    3. 정량적 데이터 : 자료를 수치화
    4. → 수치, 기호 (온도, 풍속)
  2. 정형, 반정형, 비정형
    1. 정형 데이터 : 정보 형태가 정해짐 (관계형 DB, 엑셀-스프레드시트, CSV)
    2. 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함 (HTML, XML, JSON, RDF)
    3. 비정형 데이터 : 형태가 정해지지 않음 (SNS, 유튜브, 음원)

암묵지, 형식지간 상호작용

  1. 암묵지 : 개인에게 습득되고 겉으로 드러나지 않음
  2. 형식지 : 문서, 메뉴얼 등의 형상화된 지식 - 공표연내
    1. 공통화: 암묵지 지식을 다른 사람에게 알려줌
    2. 표출화: 암묵지 지식을 메뉴얼이나 문서로 전환
    3. 연결화: 교재, 매뉴얼에 새로운 지식 추가
    4. 내면화: 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

DIKW 피라미드

  1. 데이터(Data): 있는 그대로의 사실
  2. (A대리점 핸드폰 100만원, B 대리점 핸드폰 200만원)
  3. 정보(Information): 데이터를 통해 패턴 인식
  4. (A대리점이 핸드폰이 싸다)
  5. 지식(Knowledge): 패턴을 통해 예측
  6. (A에서 핸드폰을 사면 이득을 보겠다)
  7. 지혜(Wisdom) : 창의적인 산물
  8. (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)

데이터 단위 - 패지요

KB(2^10) < MB(2^20) < TB(2^30) < PB(2^40) < EB(2^50) < ZB(2^60) < YB(2^70) (Peta < Exa < Zetta < Yotta)

데이터베이스의 정의와 특징

데이터베이스의 개념

  1. DB : 일정 구조에 맞게 조직화된 데이터의 집합
    1. 스키마 : DB의 구조와 제약조건에 관한 전반적 명세 (외부 스키마, 개념스키마, 내부스키마)
    2. 인스턴스 : 데이터 개체를 구성하는 속성에 대한 데이터 타입과 값
    3. 메타데이터 : 데이터를 설명하는 데이터, 데이터 구조를 설명하고 검색하는데 활용
    4. 인덱스 : 정렬, 탐색을 위한 데이터의 이름
  2. DBMS : DB를 관리, 접근 환경 제공하는 소프트웨어
    1. 관계형 DBMS : 테이블(표)로 정리 (MySQL, MariaDB, Oracle)
    2. NoSQL DBMS : 비정형 데이터를 저장하고 처리 (HBase, MongoDB, CouchDB, Redis, Cassandra)
  3. SQL : 데이터 베이스에 접근할 수 있는 하부언어
    1. 정의언어 (DDL) : CREATE, ALTER, DROP
    2. 조작언어 (DML) : SELECT, INSERT, DELETE, UPDATE
    3. 제어언어 (DCL) : COMMIT, ROLLBACK, GRANT, REVOKE

데이터베이스의 특징 - 공통저변

  1. 공용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용
  2. 통합된 데이터 : 동일한 데이터 중복되어 있지 않음
  3. 저장된 데이터 : 저장매체 에 저장
  4. 변화되는 데이터 : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지

데이터베이스 설계 절차 - 개논물

  1. 요구조건 분석
  2. 개념적 설계 : 개념적 스키마 생성
  3. 논리적 설계 : 개념적 ERD를 활용한 논리적 모델링
  4. 물리적 설계 : 저장 구조 설계

데이터베이스의 활용

기업 활용 데이터베이스

  • OLTP(Online Transaction Processing) : 데이터를 수시로 갱신 (거래단위)
  • OLAP(Online Analytical Processing) : 다차원 데이터를 대화식으로 분석
  • CRM(Customer Relationship Management) : 고객과 관련 자료 분석, 마케팅 활용
  • SCM(Supply Chain Management) : 공급망 연결 최적화
  • ERP(Enterprise Resource Planning) : 기업 경영 자원을 효율화
  • RTE(Real-Time Enterprise) : 최신 정보로 빠른 의사결정 지원
  • BI(Business Intelligence) : 기업 보유 데이터 정리, 분석하는 리포트 중심 도구
  • BA(Business Analytics) : 통계 기반 비즈니스 통찰력
  • Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
  • KMS(Knowledge Management System) : 기업의 모든 지식을 포함

데이터웨어하우스(Data Ware House, DW)

  1. 특징
    1. 주제지향성 : 분석목적 설정이 중요
    2. 데이터 통합: 일관화된 형식으로 저장
    3. 시계열성: 히스토리를 가진 데이터
    4. 비휘발성: 읽기전용 - 수시로 변하지 않음
  2. 구성요소
    1. ETL (Extraction, Transform, Load)
    2. ODS(Operational Data Store) : 다양한 DBMS에서 추출한 데이터를 임시 저장

데이터레이크 (DataLake)

→ 비정형 데이터를 저장하며 하둡과 연계하며 처리

*하둡 : 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션

  1. HDFS : 분산형 파일 저장 시스템
  2. MapReduce : 분산된 데이터를 병렬로 처리

2. 데이터의 가치와 미래

빅데이터의 이해

빅데이터 출현 배경

  1. 인터넷 확산
  2. 스마트폰 보급
  3. 클라우딩 컴퓨팅으로 인한 경제성 확보
  4. 저장매체 가격하락
  5. 하둡을 활용한 분산 컴퓨팅
  6. 비정형 데이터 확산

빅데이터의 3V (가트너 정의)

  1. Volume (규모) : 데이터 양 증가 (구글 번역 서비스)
  2. Variety (다양성) : 데이터 유형 증가
  3. Velocity (속도) : 데이터 생성, 처리 속도 증가
  4. 그 외 5V / 7V에 포함되는 요소
    1. Value(가치) : 숨겨진 가치 발견이 중요
    2. Veracity(신뢰성) : 고품질 데이터
    3. Validity(정확성) : 데이터의 유효성 보장
    4. Volatility(휘발성) : 데이터의 의미 있는 기간

빅데이터에 대한 비유

  1. 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할
  2. 원유 : 정보제공으로 생산성 향상
  3. 렌즈 : 현미경이 생물학 발전 영향, 산업 전반에 영향 (구글 Ngram Viewer)
  4. 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용 (페이스북)
  5. *써드파티 : 원천기술을 활용한 파생상품 만드는 회사

빅데이터가 만들어내는 변화 - 전후양상

  1. 표본조사 → 전수조사
  2. 사전처리 → 사후관리
  3. 질 → 양
  4. 인과관계 → 상관관계

빅데이터의 가치와 영향

빅데이터 가치 산정이 어려운 이유

  1. 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음
  2. 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

비즈니스 모델

빅데이터 활용을 위한 3대 요소 - 인자기

  1. 인력
  2. 자원(데이터)
  3. 기술

빅데이터의 주요 분석기법

  1. 회귀분석 : 독립변수와 종속변수 관계, X가 Y에 어떤 영향을 미치는가?
  2. (수도권에 거리가 가까울수록 부동산 가격이 비싼가?)
  3. 분류분석 : A와 B는 어디에 속하는 범주
  4. (고양이와 강아지의 이미지를 구분)
  5. 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재
  6. (마트에서 치킨과 맥주를 같이 사는 관계)
  7. 유전자 알고리즘 : 최적화 필요한 문제의 해결책
  8. (택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램 어떤 시간대에 방송?)
  9. 기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측
  10. (넷플릭스 영화 추천 시스템)
  11. 감정분석 : 텍스트 데이터에서 감정(긍정/부정)을 분석
  12. 소셜 네트워크 분석 : 사람간의 관계
  13. (SNS상 사용자들 관계 속 영향력 높은 사람 찾기)
  14. 텍스트 마이닝 : 텍스트로부터 자연어처리(NLP)를 통한 숨겨진 의미 발견
  15. (문서요약, 키워드 추출)

위기 요인과 통제 방안

위기 요인과 통제 방안

  1. 사생활 침해 : SNS 올린 데이터가 사생활 침해
  2. → 제공자에서 사용자 책임으로 전환
  3. 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제
  4. → 결과에 대해서만 책임
  5. 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님*알고리즈미스트 : 부당하게 피해가 발생한 사람들을 구제하는 전문인력
  6. → 알고리즘을 해석가능한 알고리즈미스트 필요

데이터 3법 - 개정신

: 가명정보의 개념 도입 (통계 작성, 연구, 공익적 기록보존 목적 하에 동의 없이 활용 가능)

  1. 개인정보보호법
  2. 정보통신망 이용 촉진 및 정보보호 등에 관한 법률 (정보통신망법)
  3. 신용정보의 이용 및 보호에 관한 법률 (신용정보법)

개인정보, 가명정보, 익명정보

  1. 개인정보 : 개인을 알아볼 수 있는 정보, 동의를 받아 활용 가능 (홍길동, 33세)
  2. 가명정보 : 가명처리를 통해 추가정보 없이 특정 불가 (홍00, 30대 초반)
  3. 익명정보 : 더 이상 개인을 알아볼 수 없는 정보, 제한 없이 자유롭게 활용 (000, 30대)

개인정보 비식별화

  1. 가명처리 (홍길동, 35세 → 임꺽정, 30세)
  2. 총계처리 (홍길동 170cm, 임꺽정 180cm → 평균 키 175cm)
  3. 데이터 삭제 (주민등록번호 9011111-1234567 → 90년대생, 남자)
  4. 데이터 범주화 (홍길동, 35세 → 홍길동, 30~40세)
  5. 데이터 마스킹 (홍길동, 35세 → 홍00, 35세)

프라이버시 보호 모델

  1. k-익명성: 같은 값이 존재하도록 하여 다른 정보로 결합할 수 없도록 함
  2. l-다양성 : 민감한 정보의 다양성을 높여 추론 가능성을 낮춤
  3. t-근접성 : 민감 정보의 분포를 낮추어 추론 가능성을 더욱 낮춤

미래의 빅데이터

데이터 산업의 발전

: 처리 → 통합 → 분석 → 연결 → 권리

  1. 처리: 프로그래밍 언어를 활용한 데이터의 처리
  2. 통합: DBMS의 등장
  3. 분석: 빅데이터 분석 기술의 발전
  4. 연결: API를 활용한 모듈들의 연결
  5. 권리: 마이데이터(MyData)를 활용한 데이터의 주권 행사
  6. *마이데이터: 자신의 신용 정보를 다른 제3자에게 제공하여 서비스를 제공받는 제도

3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

빅데이터 분석과 전략 인사이트

전략 인사이트

  • 집중과 선택 (많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)
  • 업계 상황만 보지 말고 더 넓은 시야에서 봐야함
  • 경영진의 전략적 인사이트에 기여

→ 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

→ 사업 상황들을 확인할 때는 넓은 시야

데이터 사이언스

  • 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
  • 정형/비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

데이터 사이언스 핵심 구성요소 - AI비

  1. Analytics: 이론적 지식
  2. IT: 프로그래밍적 지식
  3. 비즈니스 분석: 비즈니스적 능력

전략 인사이트 도출을 위한 필요 역량

데이터 사이언티스트의 필요역량

  1. 하드 스킬(Hard Skill): 이론적 지식(수학, 통계학, 가설검정 등), 가트너 제시 역량에 미포함
  2. 소프트 스킬 (Soft Skill): 스토리텔링, 리더십, 창의력, 분석 등

→ 하드스킬은 이과적, 소프트스킬은 문과적인 느낌

빅데이터 그리고 데이터 사이언스의 미래

Digitalization → Connection → Agency

빅데이터 가치 패러다임 변화 - DigitalCA메라

  1. Digitalization : 아날로그 세상을 디지털화
  2. Connection : 디지털화된 정보들의 연결
  3. Agency : 연결을 효과적으로 관리

'Certification' 카테고리의 다른 글

[AWS SAA] Part 2. 스토리지 정리 (S3, EBS, EFS 비교)  (0) 2025.05.20
[AWS SAA] Part 1. 컴퓨트 서비스 (EC2, Lambda, ECS, EKS 등)  (1) 2025.05.20
[ADsP] 2과목 - 데이터분석 기획  (1) 2025.05.16
[ADsP] 3과목 - 데이터 분석  (0) 2025.05.13
'Certification' 카테고리의 다른 글
  • [AWS SAA] Part 2. 스토리지 정리 (S3, EBS, EFS 비교)
  • [AWS SAA] Part 1. 컴퓨트 서비스 (EC2, Lambda, ECS, EKS 등)
  • [ADsP] 2과목 - 데이터분석 기획
  • [ADsP] 3과목 - 데이터 분석
whatdoyumin
whatdoyumin
안녕하세요, 꾸준히 성장하는 개발자..... 입니다
  • whatdoyumin
    whatdoyumin 님의 블로그
    whatdoyumin
  • 전체
    오늘
    어제
    • 분류 전체보기
      • Frontend
      • Backend
      • Study & Course
      • CS & Algorithm
      • DevOps & Infra
      • Certification
      • Database
      • Project
      • atc.
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    ResponseEntity
    99클럽 #코딩테스트준비 #개발자취업 #항해99 #til #알고리즘 #브루트포스 #백준 #오목 #완전탐색 #코딩테스트
    자바스크립트 코테
    Saa
    ai코드리뷰
    브루트포스
    AWS자격증
    타입스크립트
    결제로직
    코드리뷰자동화
    백준 #백준2805번 #나무자르기 #이분탐색 #알고리즘
    코드래빗
    99클럽 #코딩테스트준비 #개발자취업 #항해99 #til#dp#동적계획법#코테#백준
    백엔드
    githubworkflow
    완전탐색
    frontend
    zustand
    클라우드
    Pruning
    99클럽 #코딩테스트준비 #개발자취업 #항해99 #til
    탐색알고리즘
    Spring
    devops
    개발자팁
    github자동리뷰
    TypeScript
    coderabbit
    전역상태관리
    백트래킹
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
whatdoyumin
[ADsP] 1과목 - 데이터 이해
상단으로

티스토리툴바