반응형
- 데이터 사이언티스트의 역량, 분석기획을 위해 필요한 3가지 역량
- 수학/통계학적 지식
- 정보 기술
- 해당 비즈니스에 대한 이해와 전문성
- 분석 대상과 방법
대상 ➡️
방법⬇️Known Un Known Known 최적화
Optimization통찰
InsightUn Known 솔루션
Solution발견
Discovery
- 분석 기획 방안
과제중심적 접근 방식 장기적 마스터플랜 방식 빠르게&테스트 1차 목표 정확성&개발 단기&성과 과제 유형 장기 문제 해결 접근 방식 문제 정의 - 분석 기획 시 고려사항
- 가용 데이터인가?
- 적절한 활용방안과 유스 케이스 탐색
- 장애요소에 대한 사전계획 수립
>> 장애요소 : 비용대비 효과의 적절한 비용, 분석 모형의 안정적 확보, 조직 역량으로 내재화를 위한 변화 관리
- 합리적인 의사 결정을 방해하는 요소 : 고정관념, 편향된 생각, 프레이밍 효과(동일 상황에도 주변에 따라 개인의 판단, 결정이 달라짐)
- 방법론의 적용 업무 특성에 따른 모델
- 폭포수 모델 : 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 진행
- 프로토타입 모델 : 폭포수 모델 단점 보완, 일부분 우선 개발하여 시험 사용 후 개선 작업
- 나선형 모델 : 반복을 통한 점증적 개발, 처음 시도 프로젝트에 용이하나 복잡도 상승
- KDD 분석 방법론과 절차 전처리 과정에서 이상값 잡음을 식별하고, 데이터 변환 과정에서 분석 목적에 맞는 변수 선택 및 차원축소 과정을 거친다.
- 데이터 선택 : 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정, 목표 데이터 구성
- 데이터 전처리 : 잡음, 이상치, 결측치 정제하는 단계
- 데이터 변환 : 변수 생성, 데이터를 학습용/검증용 데이터로 분리
- 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법 선택, 실행
- 데이터 마이닝 평가 : 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
- CRISP-DM 분석 방법론과 절차 CRISP-DM에서의 데이터 준비 과정은 KDD 분석에서 데이터 변환 과정과 유사 모델링 단계에서 모델 평가는 수행하지만, 모델 적용성 평가는 그 다음 단계에서 진행
- 업무이해 : 업무 목적과 데이터 마이닝 목적 수립, 프로세스 초기 계획
- 데이터 이해 = 데이터 선택, 데이터 전처리 : 데이터 수집, 데이터 품질, 인사이트 발견
- 데이터 준비 = 데이터 변환 : 수집된 데이터 중 분석기법에 적합한 데이터 편성
- 모델링 = 데이터 마이닝 : 모델링 기법, 알고리즘 선택, 파라미터 최적화
- 평가 = 데이터 마이닝 평가 : 분석결과, 모델링 과정과 모델 적용성 평가
- 전개 : 실무적용, 유지와 보수, 종료 보고서 작성
- 빅데이터 분석 방법론과 절차
- 빅데이터 분석의 계층적 프로세스 : 단계_Phase, 태스크_Task, 스텝_Step
- 데이터 분석에서 데이터 준비 단계로 돌아갈 수 있음
- 지도학습과 비지도학습
- (지도 학습)
- 명확한 목적 하에 데이터 분석 실시
- 자료가 입력 변수와 출력 변수로 주어짐, 예측 모형을 얻을 때 사용
- (비지도 학습)
- 데이터 자체의 결합, 연관성을 중심으로 데이터의 상태를 표현
- 데이터 마이닝에서 자료가 출력변수 없이 입력변수만 주어지는 경우
- (지도 학습)
- 하향식 접근법
- 문제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식(지도학습, WHY 관점)
- 과정 : 문제탐색→ 문제정의→ 해결방안 탐색→ 타당성 검토
- 문제 탐색 : 비즈니스 모델 기반 문제 탐색 → 비즈니스 모델 캔버스 활용한 과제 발굴 방법 5가지 = 규제&감사, 업무, 제품, 고객, 지원 인프라
- 타당성 검토
- 경제적 타당성 : 비용대비 편익 분석 관점의 접근 필요
- 데이터 타당성 : 데이터 존재 여부
- 기술적 타당성 : 역량 확보 방안을 사전에 수립, 분석역량
- 상향식 접근법
- 문제의 정의 자체가 어려운 경우, 데이터를 기반으로 문제 탐색(비지도학습, WHAT 관점)
- 디자인 사고 : 상향식 접근 방식의 발산과 하향식 접근 방식의 수렴 단계를 반복적으로 수행
- 프로토타이핑 접근법
- 데이터를 정확히 규정하기 어렵고, 데이터 소스를 명확히 파악하기 어려운 상황에서, 일단 분석을 시도해보고 그 결과를 확인해 반복적으로 개선해나가는 방법
- 필요성 : 문제 정의가 불명확할 때 이해하고 구체화하는데 도움
- 분석과제 관리를 위한 5가지 주요 영역
- 데이터 크기 : 분석하고자 하는 데이터의 양(크기)
- 데이터 복잡성 : 잘 적용될 수 있는 분석 모델의 선정. ex)BI/비정형데이터
- 분석속도 : 시나리오 측면에서의 속도성
- 분석정확도와 복잡도 : 해석이 가능하면서도 정확도를 올릴 수 있는 최적의 모델
- 신뢰도와 타당성 : 모델과 실제값 차이가 적은 정확도, 지속 반복했을 때 편차수준으로 일관성
>> 분석 복잡도에서 정확도와 복잡도는 trade off 관계가 존재한다.
- 분석 프로젝트 관리방안 10가지 ⇒ 범위, 통합, 이해관계자, 조달, 리스크, 품질, 시간, 원가, 의사소통, 지원
- 분석 마스터 플랜 수립
- 우선순위 고려요소 : 전략적 중요도, 비즈니스 성과/ROI(투자자본수익률), 실행 용이성
- 적용범위/방식 고려요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준
- ISP : 정보기술 또는 정보 시스템을 전략적으로 활용하기 위해 중장기 마스터 플랜 수립하는 절차
- [일반적인 IT 프로젝트 우선순위 평가 예시]
- 전략적 중요도 = 전략적 필요성 + 시급성
> 전략적 필요성 : 전략 목표 및 본원 업무에 직접적인 연관관계가 밀접한 정도. 이슈 미해결시 발생할 위험 및 손실에 대한 정도
> 시급성 : 사용자 요구사항, 업무 능률향상을 위해 시급히 수행되어야 하는 정도. 향후 경쟁우위 확보를 위한 중요도.
- 실행 용이성 = 투자 용이성 + 기술 용이성
> 투자 용이성 : 기간 및 인력 투입 용이성. 비용 및 투자예산 확보 가능성
> 기술 용이성 : 적용 기술 안전성 검증 정도. 응용시스템, 하드웨어 유지보수 용이성. 개발 스킬 성숙도 및 신기술 적용성. - [빅데이터 특징을 고려한 분석 ROI 요소]
- 투자비용 요소(Investment) = Volume + Variety + Velocity (3V)
- 비즈니스 효과(Return) = Value - [ROI를 활용한 우선순위 평가 기준]
1) 시급성 : 전략적 중요도, 목표가치(KPI) << Value : 비즈니스 효과
2) 난이도 : 데이터 획득/저장/가공 비용, 분석 적용 비용, 분석 수준 << Volume + Variety + Velocity : 투자비용 요소 - 데이터 분석과제 추진시 고려해야 하는 우선순위 평가기준
- 시급성 : 전략적 중요도가 핵심. 현재관점 or 미래관점 어디에 둘 것인지. 분석 과제의 목표가치(KPI) 고려.
- 난이도 : 현 시점에서 바로 적용하기 쉬운지, 어려운지 판단 기준으로써 데이터 분석의 적합성 여부를 봄
- 포트폴리오 사분면 분석을 통한 과제 우선순위 산정
- 분석 마스터 플랜 세부 이행 계획 수립 : 폭포수 방식도 있으나 반복적인 정련 과정을 통하여 프로젝트의 완성도를 높이는 방식 주로 사용. 모델링 단계를 중점적, 반복적으로 수행하는 혼합형을 많이 적용한다
- 분석 거버넌스 구성요소
- 조직
- 프로세스
- 시스템
- 데이터
- 분석 관련 교육 및 마인드 육성 체계
- 데이터 분석수준 진단
- 분석준비도 : 6가지로 파악
- 분석업무파악(예측, 최적화 분석 업무)
- 이력 및 조직
- 분석기법
- 분석 데이터(기준 데이터 관리 MDM)
- 분석문화
- IT인프라
- 분석성숙도 : 조직의 성숙도 평가 CMMI, 성숙도 수준 분류
- 도입 : 분석 시작하여 환경과 시스템 구축
- 활용 : 분석 결과 실제 업무에 적용
- 확산 : 분석을 관리하고 공유
- 최적화 : 분석 진화시켜 혁신 및 성과 향상에 기여
- 분석 수준 진단 결과 4분면
- 분석준비도 : 6가지로 파악
- 데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.
- 데이터 표준화 : 데이터 표준용어 설정, 메타데이터 구축, 데이터 사전 정의 등의 업무로 구성
- 데이터 관리체계 : 표준 데이터를 포함한 메타데이터와 데이터 사전의 관리 원칙 수립, 데이터 생명주기 관리방안을 수립해야 함
- 데이터 저장소 관리 : 메타데이터 및 표준데이터를 관리하기 위한 전사 차원 저장소 관리 체계 지원을 위한 워크플로우 지원, 통제
- 표준화 활동 : 표준 준수 여부를 주기적으로 모니터링
- 분석을 위한 3가지 조직구조
- 집중구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당(이원화)
- 기능구조 : 별도의 분석 조직이 없고 해당 업무 부서에서 진행
- 분산구조 : 분석 조직 인력들을 현업 부서에 직접 배치하여 분석업무 수행
- 분석과제 관리 프로세스 수립
- 과제 발굴 : 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석과제 풀로 관리, 분석과제 후보 제안
- 과제 수행 : 분석을 구성할 팀 구성, 분석과제를 실행하고 진행관리, 결과공유/개선
- 분석과제 후보 제안, 결과 공유 단계에서만 풀 관리함
오래간만에 이것저것 공부하다가 adsp 공부자료를 다시 열어볼 일이 생겼다.
문득 블로그에 정리요약본을 1과목 말고는 올리지 않았던 기억이 생각나...
급하게 2과목도 간단하게만 정리해서 공유합니다.
공부 방법이나 문제집 추천 등이 궁금하다면
아래 게시글을 참고해 주세요.
[ADSP] 데이터분석 준전문가 독학 합격 후기! (공부 방법, 교재 추천)
반응형
'공부 > IT' 카테고리의 다른 글
한빛미디어와 함께 하는 혼공학습단 소개 및 13기 참여 예고 (1) | 2024.12.20 |
---|---|
[SQLD] SQL 개발자 자격 시험 독학 합격 후기(공부 방법, 교재 추천 등) (0) | 2024.03.29 |
[ADSP] 데이터분석 준전문가 독학 합격 후기! (공부 방법, 교재 추천) (1) | 2023.09.16 |
[ADSP] 데이터분석 준전문가 1과목 데이터의 이해 개념 정리/요약본 (2) | 2023.08.29 |
정보보안기사 필기 합격! (0) | 2021.10.07 |