반응형
    • 데이터 사이언티스트의 역량, 분석기획을 위해 필요한 3가지 역량
      • 수학/통계학적 지식
      • 정보 기술
      • 해당 비즈니스에 대한 이해와 전문성
  • 분석 대상과 방법
    대상 ➡️
    방법⬇️
    Known Un Known
    Known 최적화
    Optimization
    통찰
    Insight
    Un Known 솔루션
    Solution
    발견
    Discovery
  • 분석 기획 방안 
    과제중심적 접근 방식   장기적 마스터플랜 방식
    빠르게&테스트 1차 목표 정확성&개발
    단기&성과 과제 유형 장기
    문제 해결 접근 방식 문제 정의
  • 분석 기획 시 고려사항
    • 가용 데이터인가?
    • 적절한 활용방안과 유스 케이스 탐색
    • 장애요소에 대한 사전계획 수립
        >> 장애요소 : 비용대비 효과의 적절한 비용, 분석 모형의 안정적 확보, 조직 역량으로 내재화를 위한 변화 관리
  • 합리적인 의사 결정을 방해하는 요소 : 고정관념, 편향된 생각, 프레이밍 효과(동일 상황에도 주변에 따라 개인의 판단, 결정이 달라짐)
  • 방법론의 적용 업무 특성에 따른 모델
    • 폭포수 모델 : 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 진행
    • 프로토타입 모델 : 폭포수 모델 단점 보완, 일부분 우선 개발하여 시험 사용 후 개선 작업
    • 나선형 모델 : 반복을 통한 점증적 개발, 처음 시도 프로젝트에 용이하나 복잡도 상승
  • KDD 분석 방법론과 절차 전처리 과정에서 이상값 잡음을 식별하고, 데이터 변환 과정에서 분석 목적에 맞는 변수 선택 및 차원축소 과정을 거친다.
    • 데이터 선택 : 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정, 목표 데이터 구성
    • 데이터 전처리 : 잡음, 이상치, 결측치 정제하는 단계
    • 데이터 변환 : 변수 생성, 데이터를 학습용/검증용 데이터로 분리
    • 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법 선택, 실행
    • 데이터 마이닝 평가 : 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
  • CRISP-DM 분석 방법론과 절차 CRISP-DM에서의 데이터 준비 과정은 KDD 분석에서 데이터 변환 과정과 유사 모델링 단계에서 모델 평가는 수행하지만, 모델 적용성 평가는 그 다음 단계에서 진행
    • 업무이해 : 업무 목적과 데이터 마이닝 목적 수립, 프로세스 초기 계획
    • 데이터 이해 = 데이터 선택, 데이터 전처리 : 데이터 수집, 데이터 품질, 인사이트 발견
    • 데이터 준비 = 데이터 변환 : 수집된 데이터 중 분석기법에 적합한 데이터 편성
    • 모델링 = 데이터 마이닝 : 모델링 기법, 알고리즘 선택, 파라미터 최적화
    • 평가 = 데이터 마이닝 평가 : 분석결과, 모델링 과정과 모델 적용성 평가
    • 전개 : 실무적용, 유지와 보수, 종료 보고서 작성
  • 빅데이터 분석 방법론과 절차
    • 빅데이터 분석의 계층적 프로세스 : 단계_Phase, 태스크_Task, 스텝_Step
    • 데이터 분석에서 데이터 준비 단계로 돌아갈 수 있음

  • 지도학습과 비지도학습
    • (지도 학습)
      • 명확한 목적 하에 데이터 분석 실시
      • 자료가 입력 변수와 출력 변수로 주어짐, 예측 모형을 얻을 때 사용
    • (비지도 학습)
      • 데이터 자체의 결합, 연관성을 중심으로 데이터의 상태를 표현
      • 데이터 마이닝에서 자료가 출력변수 없이 입력변수만 주어지는 경우
  • 하향식 접근법
    • 문제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식(지도학습, WHY 관점)
    • 과정 : 문제탐색→ 문제정의→ 해결방안 탐색→ 타당성 검토
    • 문제 탐색 : 비즈니스 모델 기반 문제 탐색 → 비즈니스 모델 캔버스 활용한 과제 발굴 방법 5가지 = 규제&감사, 업무, 제품, 고객, 지원 인프라
    • 타당성 검토
      • 경제적 타당성 : 비용대비 편익 분석 관점의 접근 필요
      • 데이터 타당성 : 데이터 존재 여부
      • 기술적 타당성 : 역량 확보 방안을 사전에 수립, 분석역량
  • 상향식 접근법
    • 문제의 정의 자체가 어려운 경우, 데이터를 기반으로 문제 탐색(비지도학습, WHAT 관점)
    • 디자인 사고 : 상향식 접근 방식의 발산과 하향식 접근 방식의 수렴 단계를 반복적으로 수행
  • 프로토타이핑 접근법
    • 데이터를 정확히 규정하기 어렵고, 데이터 소스를 명확히 파악하기 어려운 상황에서, 일단 분석을 시도해보고 그 결과를 확인해 반복적으로 개선해나가는 방법
    • 필요성 : 문제 정의가 불명확할 때 이해하고 구체화하는데 도움
  • 분석과제 관리를 위한 5가지 주요 영역
    • 데이터 크기 : 분석하고자 하는 데이터의 양(크기)
    • 데이터 복잡성 : 잘 적용될 수 있는 분석 모델의 선정. ex)BI/비정형데이터
    • 분석속도 : 시나리오 측면에서의 속도성
    • 분석정확도와 복잡도 : 해석이 가능하면서도 정확도를 올릴 수 있는 최적의 모델
    • 신뢰도와 타당성 : 모델과 실제값 차이가 적은 정확도, 지속 반복했을 때 편차수준으로 일관성
      >> 분석 복잡도에서 정확도와 복잡도는 trade off 관계가 존재한다.
  • 분석 프로젝트 관리방안 10가지 ⇒ 범위, 통합, 이해관계자, 조달, 리스크, 품질, 시간, 원가, 의사소통, 지원
  • 분석 마스터 플랜 수립
    • 우선순위 고려요소 : 전략적 중요도, 비즈니스 성과/ROI(투자자본수익률), 실행 용이성
    • 적용범위/방식 고려요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준
    • ISP : 정보기술 또는 정보 시스템을 전략적으로 활용하기 위해 중장기 마스터 플랜 수립하는 절차
  • [일반적인 IT 프로젝트 우선순위 평가 예시]
    - 전략적 중요도 = 전략적 필요성 + 시급성
      > 전략적 필요성 : 전략 목표 및 본원 업무에 직접적인 연관관계가 밀접한 정도. 이슈 미해결시 발생할 위험 및 손실에 대한 정도
      > 시급성 : 사용자 요구사항, 업무 능률향상을 위해 시급히 수행되어야 하는 정도. 향후 경쟁우위 확보를 위한 중요도.
    - 실행 용이성 = 투자 용이성 + 기술 용이성
      > 투자 용이성 : 기간 및 인력 투입 용이성. 비용 및 투자예산 확보 가능성
      > 기술 용이성 : 적용 기술 안전성 검증 정도. 응용시스템, 하드웨어 유지보수 용이성. 개발 스킬 성숙도 및 신기술 적용성.
  • [빅데이터 특징을 고려한 분석 ROI 요소]
    - 투자비용 요소(Investment) = Volume + Variety + Velocity (3V)
    - 비즈니스 효과(Return) = Value
  • [ROI를 활용한 우선순위 평가 기준]
    1) 시급성 : 전략적 중요도, 목표가치(KPI) << Value : 비즈니스 효과
    2) 난이도 : 데이터 획득/저장/가공 비용, 분석 적용 비용, 분석 수준 << Volume + Variety + Velocity : 투자비용 요소
  • 데이터 분석과제 추진시 고려해야 하는 우선순위 평가기준
    • 시급성 : 전략적 중요도가 핵심. 현재관점 or 미래관점 어디에 둘 것인지. 분석 과제의 목표가치(KPI) 고려.
    • 난이도 : 현 시점에서 바로 적용하기 쉬운지, 어려운지 판단 기준으로써 데이터 분석의 적합성 여부를 봄
  • 포트폴리오 사분면 분석을 통한 과제 우선순위 산정

출처 : 2023 이지패스 adsp 도서

  • 분석 마스터 플랜 세부 이행 계획 수립 : 폭포수 방식도 있으나 반복적인 정련 과정을 통하여 프로젝트의 완성도를 높이는 방식 주로 사용. 모델링 단계를 중점적, 반복적으로 수행하는 혼합형을 많이 적용한다
  • 분석 거버넌스 구성요소
    • 조직
    • 프로세스
    • 시스템
    • 데이터
    • 분석 관련 교육 및 마인드 육성 체계
  • 데이터 분석수준 진단
    • 분석준비도 : 6가지로 파악
      • 분석업무파악(예측, 최적화 분석 업무)
      • 이력 및 조직
      • 분석기법
      • 분석 데이터(기준 데이터 관리 MDM)
      • 분석문화
      • IT인프라
    • 분석성숙도 : 조직의 성숙도 평가 CMMI, 성숙도 수준 분류
      • 도입 : 분석 시작하여 환경과 시스템 구축
      • 활용 : 분석 결과 실제 업무에 적용
      • 확산 : 분석을 관리하고 공유
      • 최적화 : 분석 진화시켜 혁신 및 성과 향상에 기여
    • 분석 수준 진단 결과 4분면

출처 네이버 블로그 jdhpuppy님

  • 데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.
    • 데이터 표준화 : 데이터 표준용어 설정, 메타데이터 구축, 데이터 사전 정의 등의 업무로 구성
    • 데이터 관리체계 : 표준 데이터를 포함한 메타데이터와 데이터 사전의 관리 원칙 수립, 데이터 생명주기 관리방안을 수립해야 함
    • 데이터 저장소 관리 : 메타데이터 및 표준데이터를 관리하기 위한 전사 차원 저장소 관리 체계 지원을 위한 워크플로우 지원, 통제
    • 표준화 활동 : 표준 준수 여부를 주기적으로 모니터링
  • 분석을 위한 3가지 조직구조
    • 집중구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당(이원화)
    • 기능구조 : 별도의 분석 조직이 없고 해당 업무 부서에서 진행
    • 분산구조 : 분석 조직 인력들을 현업 부서에 직접 배치하여 분석업무 수행
  • 분석과제 관리 프로세스 수립
    • 과제 발굴 : 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석과제 풀로 관리, 분석과제 후보 제안
    • 과제 수행 : 분석을 구성할 팀 구성, 분석과제를 실행하고 진행관리, 결과공유/개선
    • 분석과제 후보 제안, 결과 공유 단계에서만 풀 관리함

오래간만에 이것저것 공부하다가 adsp 공부자료를 다시 열어볼 일이 생겼다.
문득 블로그에 정리요약본을 1과목 말고는 올리지 않았던 기억이 생각나...
급하게 2과목도 간단하게만 정리해서 공유합니다.

공부 방법이나 문제집 추천 등이 궁금하다면
아래 게시글을 참고해 주세요.
[ADSP] 데이터분석 준전문가 독학 합격 후기! (공부 방법, 교재 추천)

  •  
반응형
반응형
  • 데이터의 특성
    • (존재적 특성) 데이터는 있는 그대로의 객관적 사실 ⇒ 수학 80점, 영어 100점
    • (당위적 특성) 데이터는 추론·예측·전망·추정을 위한 근거 ⇒ 평균 90점
  • 데이터는 정보가 아니라 자료. 정보는 데이터로부터 얻은 가공된 자료를 의미
  • 데이터의 유형
    • (정성적 데이터) 언어, 문자로 표현(ex. 회사 매출이 증가함) ⇒ 저장, 검색 분석에 많은 비용 소모
    • (정량적 데이터) 수치, 도형, 기호로 표현(ex. 나이, 몸무게 …) ⇒ 정형(량)화 되어 있기에 비용 소모 적음
  • 정형/비정형/반정형 데이터
    • (정형 데이터) 정형화된 틀이 있고 연산이 가능 ⇒ CSV, 엑셀 스프레드 시트 등, 관계형 DB에 저장 수집 관리 용이함
    • (비정형 데이터) 정형화된 틀이 없고 연산이 불가능 ⇒ 소셜 데이터, 댓글, 영상, 음성 등, NoSQL(Not only SQL), DB에 저장하거나 수집 관리 어려움
    • (반정형 데이터) 형태는 있지만 연산이 불가능 ⇒ XML, JSON, HTML, 센서 데이터 등, 파일 형태로 저장 가공을 거쳐 정형으로 변환
  • 지식 경영의 핵심 이슈
    • (암묵지) 매뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 X. 개인에게 내면화 ⇒ 조직에게 공통화
    • (형식지) 문서나 매뉴얼화된 지식 언어/숫자/기호로 표출화 ⇒ 개인의 지식으로 연결화
  • 방법론 생성 과정 : 암묵지 > (형식화) > 형식지 > (체계화) > 방법론 > (내재화) > 암묵지
  • DIKW 피라미드
    • (데이터 D) 가공하기 전의 순수한 수치나 기호. 있는 그대로의 사실. ex) A마트는 100원, B마트는 200원에 연필을 판매한다.
    • (정보 I) 패턴을 인식하고 의미를 부여한 데이터 ex) A마트의 연필이 더 싸다.
    • (지식 K) 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.
    • (지혜 W) 창의적 아이디어. 타인과 공유 어려움 ex) A마트의 다른 상품들도 B마트보다 저렴할 것이라고 판단한다.
  • 트랜잭션 ⇒ 데이터베이스에서 명령을 수행하는 하나의 논리적인 기능 단위
    • 원자성(Atomicity) : 트랜잭션이 데이터베이스에 모두 적용되거나, 모두 적용되지 않아야 한다.
    • 일관성(Consistency) : 트랜잭션의 결과는 항상 일관성을 가져야 한다.
    • 고립성(Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 한다.
    • 지속성(Durability) : 트랜잭션이 성공 적으로 수행된 경우 그 결과는 영구적이어야 한다.
  • 데이터베이스의 특징
    • 통합된 데이터 : 동일한 내용이 중복되어 있지 않음
    • 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장 매체에 저장
    • 공용 데이터 : 여러 사용자가 데이터를 공동으로 이용
    • 변화되는 데이터 : 새로운 데이터의 삽입, 기존 데이터 삭제, 갱신으로 항상 변화해도 현재의 정확한 데이터를 유지해야 함.
  • RDB와 NoSQL
    • RDB
      • 데이터를 행과 열로 이뤄진 테이블에 저장하며, 하나의 열은 하나의 속성을 나타내고 같은 속성 값만 가질 수 있다. 정형 데이터 특화.
      • Oracle, MySQL(Oracle), MS-SQL(Microsoft), DB2·Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스)
    • NoSQL
      • 기존 RDB의 SQL을 보완/개선한 비관계형 DB. 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이.
      • Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant
      • Key-Value DB : 아마존의 Dynamo, Redis, Riak, Coherence, SimpleDB
      • Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable
  • 기업 내부 데이터베이스
    • (OLTP) 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 갱신 위주 온라인 거래 처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템. 영역별로 구축되던 단순 자동화 중심의 시스템.
    • (OLAP) 다차원의 데이터를 대화식으로 분석
    • (BI : Business Inteligence) 기업이 보유하고 있는 데이터를 정리하고 분석해 의사 결정에 활용 리포트 중심의 도구 ⇒ 가트너 “여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경”
    • (BA : Business Analysis) 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법 통계, 수학에 초점
    • (CRM_고객관계관리) 고객과 관련된 내/외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효율적 마케팅에 활용 (고객 관리 있으면 CRM)
    • (SCM_공급망관리) 공급망 단계를 최적화해 고객을 만족시킴
    • (ERP_경영지원통합시스템) 기업 전체를 경영자원의 효율적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
  • 데이터베이스의 설계 절차 요구사항 분석 ⇒ 개념적 설계 ⇒ 논리적 설계 ⇒ 물리적 설계
  • 데이터 웨어하우스
    • 사용자의 의사결정에 도움을 주기 위해 정보 기반으로 제공하는 하나의 통합적이고 시간성을 가지는 비휘발성 데이터의 집합
    • 전사적 차원에서 일관적인 형식 유지
    • 분산된 환경에 흩어져 있는 데이터들을 개인이나 조직이 총체적인 관점에서 의사결정을 위해 공통의 형식으로 변환해 관리하는 역할
    • 데이터 마트는 특정 목적을 달성하기 위해 조직/개인에게 전달되기 위한 최종 데이터 형태
  • 빅데이터
    • 빅데이터를 나타내는 4V = Volume(양), Variety(다양성), Velocity(속도), Value(가치)
    • 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공해 주었다.
    • 빅데이터 수집, 구축, 분석의 최종 목적 ⇒ 새로운 통찰과 가치 추출
  • 빅데이터에 거는 기대 비유
    • 산업혁명의 석탄/철 : 혁명적 변화를 가져올 것
    • 21세기 원유 : 산업 전반에 생산성 향상, 기존에 없던 새로운 범주의 산업 형성
    • 렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 데이터가 산업 발전에 영향을 미칠 것으로 기대 (ex. Ngram Viewer)
    • 플랫폼 : 공동 활용 목적으로 구축된 유무형의 구조물로써 역할
  • 빅데이터가 만들어내는 본질적인 변화
    • 사전처리 ⇒ 사후처리 : 기술이 발전해서 마음껏 모아도 된다.
    • 표본조사 ⇒ 전수조사 : 마음껏 데이터 모으면 된다.
    • 질 ⇒ 양
    • 인과관계 ⇒ 상관관계 : 엄청나게 모은 데이터들을 분석해 서로 상관이 있는지 본다.
  • 빅데이터의 가치 산정이 어려운 이유
    • 데이터를 재사용하거나 재조합해 활용하면서 특정 데이터를 언제, 어디서, 누가 활용하는지 알 수 없게 되어
    • 기술이 발전하면서 기존에 없던 가치를 창출하면서
    • 현재는 가치가 없어도 후에 기술이 발전되면 가치가 있는 데이터가 될 수도 있기 때문에
  • 빅데이터 활용 기본 테크닉
    연관규칙(분석) 변인 간에 상관관계가 있는가? 커피를 구매하는 사람이 탄산음료를 더 많이 구매하는가?
    카탈로그 배열, 교차 판매, 판촉 행사
    유형분석
    (분류분석)
    문서 분류, 조직 내 그룹 나누기
    규칙을 찾고 새로운 데이터의 집단을 파악
    이 사용자는 어떤 특성을 가진 집단에 속하는가?
    유전자 알고리즘 최적화를 구하는 알고리즘 최대 시청률을 얻으려면 어떤 프로를 어떤 시간대에 방송해야 하는가?
    기계학습 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측 기존의 시청기록 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까?
    회귀분석 독립변수의 변화에 따라 종속변수가 어떻게 변하는가? 구매자 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
    감정분석 특정 주제에 대한 사람의 감정 분석 새로운 환불 정책에 대한 고객 평가는 어떠한가?
    소셜네트워크분석   고객들 간 관계망은 어떻게 구성되어 있는가?
    • 정형 데이터 활용 ⇒ 연관규칙, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석
    • 비정형 데이터 활용 ⇒ 감정분석, 소셜네트워크분석
  • 빅데이터 활용 3요소  데이터, 기술, 인력
    • 데이터 : 모든 것의 데이터화
    • 기술 : 진화하는 알고리즘, 인공지능
    • 인력 : 데이터 사이언티스트, 알고리즈미스트 등…
  • 빅데이터 시대의 위기 요인
    • (사생활 침해) 개인정보 사용을 제공자 동의에서 사용자 책임으로 익명화 기술 발전이 필요할 것
    • (책임 원칙 훼손) 범죄예측 프로그램으로 예비범죄자 체포하면 문제가 될 것 명확히 나타난 결과에 대해서만 책임을 물어야 함(결과기반 책임원칙)
    • (데이터 오용) 데이터 분석 결과가 항상 옳은 것은 아님 불이익을 당한 사람들을 대변할 전문가 알고리즈미스트가 필요해짐
  • 데이터 사이언스
    • 데이터와 관련된 모든 분야의 전문 지식을 종합한 학문
    • 정형/비정형을 막론하고 데이터 분석 (총체적 접근)
    • 데이터로부터 의미 있는 정보를 추출해 내는 학문
    • 분석적 영역 ⇒ 수학, 확률모델, 분석학 등과 같은 이론적인 지식
    • IT 영역 ⇒ 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅과 같은 프로그래밍적 지식
    • 비즈니스 분석 ⇒ 커뮤니케이션, 시각화, 프레젠테이션과 같은 비즈니스적 능력
  • 데이터 사이언티스트의 요구 역량
    • (하드 스킬) 빅데이터에 대한 이론적 지식, 분석 기술 ⇒ 가트너가 제시한 역량에는 포함되어 있지 않음
    • (소프트 스킬) (정확성보다는) 통찰력 있는 분석 능력, 설득력 있는 전달(스토리텔링과 시각화), 협력 능력 같은 인문학적 능력 ⇒ 단순(컨버전스) 세계에서 복잡(디버전스) 세계로의 변화, 비즈니스 중심이 생산에서 서비스&시장 창조로 이동해서
  • 가트너가 제시한 데이터 사이언티스트 요구 역량
    • 데이터 관리 : 데이터에 대한 이해
    • 분석 모델링 : 분석론에 대한 지식
    • 비즈니스 분석 : 비즈니스 요소에 초점
    • 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
  • DBMS(DataBase Management System) : 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어
    • 관계형 DBMS ⇒ 테이블(표)로 데이터 정리
    • 객체지향 DBMS ⇒ 정보를 객체(이미지나 영상)로 정리
  • 개인정보 비식별 기술
    데이터 마스킹 홍길동 ⇒홍**
    가명처리 데이터를 읽을 수 있는/식별할 수는 없는 다른 값으로 대체.
    홍길동 ⇒ 임꺽정
    총계처리 기존 값을 해당 변수의 전체 데이터 값의 합계나 평균으로 대체.
    갑 165cm, 을 170cm ⇒ 학생들 키 합 335cm, 평균키 167.5cm
    범주화 데이터 값을 범주화해 최대/최소 제공. 해당 그룹의 대표값 제공.
    홍길동 35세 ⇒ 31~40세
    난수화 개인정보 무작위처리(사생활 침해 방지)
    데이터 삭제 해당 변수를 삭제하여 존재하지 않는 것처럼
  • 데이터의 유형
    정형 데이터 관계형 DBMS, CSV, ERP 등 형식이 정해져 있는 데이터
    반정형 데이터 눈으로 봤을 때 무슨 정보인지 모르는 데이터(ex. 센서데이터)
    한 번 변환이 필요함. 형태(스키마, 메타데이터)가 있음.
    비정형 데이터 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터
반응형

+ Recent posts