반응형

대학 때 인공지능의 이해 같은 수업도 들었지만
요즘 세상 바뀌는 속도를 전혀 따라가지 못하는...
거의 좀비에 가까운 전공자인데

최근 어디 시험 보러 갈 일이 있었는데
내가 인공지능 관련 문제를 하나도 모르더라?
용어 자체도 낯설기까지 했음

상당히 충격을 먹고 반성하는 의미로
급하게 인공지능 지식을 하나둘 쌓아보고자 책을 읽었습니다.

무려 책 제목은 <비전공자도 이해할 수 있는 AI 지식>이다.

출처 : 네이버 검색


인공지능이 발전하는 과정과 기술이 어떻게 작동하는지를
이해하기 편하게 쉽고 간단하게 설명해 주는 책이었다.
(알고 보니 지은이가 현차 인공지능 기술 리더셨음)

아무튼, 한두 번은 더 읽고 필요한 부분은 따로 더 공부를 해야겠지만
이 책에서 다루는 수많은 내용들 중 서너 가지만 뽑아서 정리해보려 한다.

우선 목차는 다음과 같다

<목차>
제1장. 인공지능 | 위대한 인공지능, 깨어나다
제2장. 알파고 | 인간을 능가하는 기계의 등장
제3장. 자율주행 | 테슬라가 꿈꾸는 기계
제4장. 검색엔진 | 구글이 세상을 검색하는 법
제5장. 스마트 스피커 | 시리는 쓸모 있는 비서가 될 수 있을까
제6장. 기계번역 | 외국어를 몰라도 파파고만 있다면
제7장. 챗봇 | 챗GPT, 1분 안에 보고서 작성해 줘
제8장. 내비게이션 | 티맵은 어떻게 가장 빠른 길을 알까
제9장. 추천 알고리즘 | 알 수 없는 유튜브 알고리즘이 여기로 이끌다

그중에서도 내가 리뷰하고 싶은 부분은
1장 인공지능, 2장 알파고, 3장 자율주행, 그리고 6장 기계번역이다.
아래에 이어지는 내용은 책을 보면서 정리한 것임을 미리 밝혀둡니다
(아주 간혹 내 생각이나 추가 공부한 내용 포함될지도)

1장 인공지능

  • 모라벡의 역설(Moravec’s Paradox)이라는 말이 있다. "어려운 것은 쉽고, 쉬운 것은 어렵다"
    우리에게는 간단한 것일지라도 인공지능에게는 어려울 수도 있다는 의미기도 하다고 한다.
  • 1956년 다트머스대학교에서 지능을 가진 기계를 주제로 한 학술대회가 열렸다. 이곳에서 처음으로 인공지능이라는 용어 고안하고 사용했다.
  • 뒤이어 1958년 인간의 두뇌 구조를 본뜬 인공 신경망 모델도 등장한다. 인공 신경망의 초기 모델을 퍼셉트론Perceptron이라고 하는데, 인간 두뇌가 뉴런이 서로 연결된 상태로 전기신호를 내보내며 정보를 전달한다는데서 착안했다. 비슷한 형태로 인공 뉴런이 연결된 구조의 인공 신경망 구현하게 된 것이다. 기대감이 상당했으나 쓰임새를 찾지 못해 잊힌 기술이 되어버린다.
  • 대신 인공지능 초창기에는 if-then 규칙을 기반으로 하는 인공지능이 우세했다. 겉보기에 결과물이 인공 신경망에 비해 훨씬 괜찮았기 때문이다. 하지만 규칙을 기반으로 해 한계가 분명했기 때문에 이것마저 시들해졌다.
    (이때부터 한동안을 우리 교수님도 말씀하셨던 인공지능의 암흑기라고 하는 듯)
  • 1980년대 머신러닝(기계학습) 알고리즘 등장한다. 컴퓨터가 스스로 규칙을 찾아낼 수 있게 된 것이다.
    하지만 일부 연구자들만 취급하는 주제였는데, 2010년대 들어 이미지 인식 분야에 도입되면서 다시 빛을 발하게 된다.
  • 2012년 이미지넷 대회에서 토론토대학교의 제프리 힌튼 교수팀이 사용한, 컨볼루션 기법을 사용한 딥러닝으로 인공지능의 시대가 부활한다. 딥러닝은 머신러닝의 일종으로, 데이터와 정답을 입력하면 스스로 규칙을 찾아낸다는 점에서 비슷하게 작동한다.
    그러나 딥러닝은 훨씬 더 많은 데이터를 학습하고, 훨씬 더 많은 규칙을 찾아낼 수 있다. 특히나 딥러닝이 돋보이는 분야가 바로 기계번역이다.
  • 인공지능의 폭발적인 성장을 견인한 데는 GPU의 사용이 한몫함 GPU는 상대적으로 성능이 떨어지는 코어를 엄청나게 많이 꽂아둔 형태다. 그래서 각각의 성능은 좀 떨어지더라도 전체 작업을 빠르게 처리할 수 있다 = 병렬연산에 강하다. 하나하나는 빠르지 않더라도 많은 작업을 동시에 진행해 결과적으로는 더 빨리 처리할 수 있는 것.
  • 특히나 엔비디아는 CUDA(Compute Unified Device Architectures) 플랫폼을 통해 GPU를 활용할 수 있는 방법을 계속해서 모색하고, GPU 사용을 적극 지원하고 있었기에, 엔비디아의 지금과 같은 독점 체제가 형성될 수 있었다.
    오늘 뉴스레터 보니까 엔비디아가 "AI 시장에서 독보적인 존재감"을 드러내고 있다고 하는데, 그 시작점이 쿠다인 거네.
    특히나 현재 엔비디아의 GPU는 시장점유율 90% 정도로, 대규모 언어 모델(LLM)과 생성형 AI 기술 개발에 있어 대체 불가능한 핵심 요소라고 한다.

2장 알파고

  • 모든 경로를 탐색하는 것을 완전 탐색이라고 한다. 하지만 효율적인 탐색을 위해, 성과가 없으면 더 이상 탐색하지 않고 넘어갈 수 있다. 이를 컴퓨터 과학에서는 가지치기(Pruning) 한다고 표현하는데, 나뭇가지 자르듯 쳐내버리고 다시는 탐색하지 않는 것이다.
  • 도박처럼 확률적인 방법으로 결과를 유추해 내는 방식을 몬테카를로 방법이라고 한다. 계속 도전하면 결국은 원래 확률만큼의 결과를 얻을 수 있는데 이런 식으로 값을 계산하는 알고리즘이다. 여러 번의 무작위 실험으로 결과를 관찰하는 편이 더 실용적이다란 생각에서 출발했다고.
    2006년부터는 게임 트리 탐색에 몬테카를로 방법을 접목한 몬테카를로 트리 탐색 알고리즘을 고안했다. 이를 바둑 인공지능에 적용, 실력 급상승하는 결과를 가져왔다.
  • 알파고에 적용된 두 종류의 인공 신경망 = 정책망과 가치망.
    정책망은 다시 3가지로 나뉘어, 알파고에는 총 4가지 신경망이 사용되었다.
    (정책망) 사람이 만든 기보 중 6단 이상을 모아 학습한 기보학습 정책망 + 전자보다 훨씬 작고 가벼운 롤아웃 정책망 + 알파고가 스스로 대국하며 강화학습을 수행한 강화학습 정책망
    (가치망) 현재 국면에서 승패 여부를 예측하는 망. 정책망끼리의 대국에서 장면을 추출해 내, 현재 대국에서 승패 확률을 계산해 내는 망

3장 자율주행

  • 베이즈 정리 >> 확률은 믿음에 불과(?)할 뿐이며 세상에 절대 원칙이란 존재하지 않으므로, 무엇이든 조심스럽게 관찰하며 의심해야 한다. 믿음을 업데이트해나가는 원리다.
    자율주행차 역시 새로운 신호가 들어올 때마다 기존의 믿음을 새로운 믿음으로 끊임없이 업데이트한다. 레이더/라이더/카메라와 같은 장치와 여러 센서들을 통해 주행 환경과 외부 정보를 계속해서 업데이트해나가면서 안전하게 주행가능한 길을 찾아내는 원리라는 의미.
  • 컨볼루션 신경망은 동물이 이미지를 판별할 때 사물 전체를 한 번에 보는 대신 부분으로 조각내어 살펴보는 것과 비슷함. 복잡한 이미지를 단순한 선과 모서리로 해체하고, 조각난 부분을 살피면서 필터링해 결과를 내보냄. 결국 여러 번 필터링한 결과를 인공 신경망의 뉴런을 거쳐 최종 결과로 추출한다.
  • 자율주행은 기술 수준에 따라 5단계로 나뉜다. 미국 자동차 공학회(SAE)가 정의함
    0단계 자율주행 기능 없음
    1단계 운전자 지원 >> 발 떼기 : 크루즈 컨트롤, 충돌 경고, 비상 제동 가능
    2단계 부분 자율주행 >> 손 떼기 : 조향&속도 자동화 제어 가능
    3단계 조건부 자율주행 >> 눈 감기 : 부분 자율주행 가능. 시스템 요청 시에 일정시간 이내 운전자가 즉각 개입할 수 있어야 함
    4단계 고도 자율주행 >> 뇌 끄기 : 고급 자율주행 가능. 지정된 영역을 벗어나거나 특수한 상황에서는 운전자의 개입 필요
    5단계  완전 자율주행 >> 인간 개입 전혀 필요 없음.

출처 : 현대 트랜시스 블로그 (https://blog.hyundai-transys.com/249)

  • 완전자율주행이래도 인간이 필요한 순간이 올 텐데 그때 능숙하지 않은 운전자가 있다면? 의 문제와
    유명한 윤리학 실험인 광차문제가 아직 남아 있음. 광차문제는 철도 선로에 각각 1명과 5명이 있을 때 어느 쪽을 희생시키는 것이 옳냐는 의문

6장 기계번역

  • 규칙 기반 > 예시 기반 > 통계 기반 > 신경망 기반 순으로 발전함
  • 신경망 기반은 문장을 통째로 압축해 숫자로 표현한 벡터를 만든다. 그리고 이 값으로 다시 번역문을 찾아낸다.
    문장을 압축하는 과정에서는 문장을 띄어쓰기 단위로 구분한다. 그리고 차례대로 인공 신경망을 통과하여 핵심적인 특징을 추출한다. 여러 번 계산을 통해 최종적으로 문장 전체의 의미를 압축한 벡터가 나오게 되는데, 이 과정을 수행하는 부분을 인코더라고 한다.
  • 반대로 문장을 푸는 부분은 디코더라고 한다. 압축된 벡터를 받아서 순서대로 풀어내는 역할이다.
    한 단어씩 차례대로 푸는데, 이때 앞선 단어의 번역 + 인코더가 압축한 벡터를 받는다.
    문장 번역이 끝날 때까지, 디코더는 계속해서 인코더가 압축한 벡터를 참조하면서 보다 자연스러운 문장을 만들어낸다.
  • 하지만 이 방식은 원문의 길이에 상관없이 일정한 길이의 벡터로 1번만 압축한다는 단점 + 번역문이 길어질수록 핵심 단어를 놓친다는 단점이 존재한다.
  • 이 방식을 해결하고자, 보다 중요한 단어를 강조하는 원리인 어텐션Attention이 등장한다.
    어텐션은 번역문의 단어를 생성할 때마다 출력 문장 길이에 맞춰 압축 벡터를 생성한다. 그래서 장문 번역에 용이해짐.
    그리고 중요한 단어에는 별도의 가중치를 부여한다. 이로 인해 번역문이 길더라도 번역의 정확성은 지키게 된다. 핵심 단어가 강조되니까.
  • 아예 어텐션으로만 인공 신경망을 구성한 논문이 있음. 논문 이름도 <Attention is all you need>인데, 여기서 딥러닝 모델 트랜스포머가 등장한다.
    (트랜스포머의 구조) 인코더는 입력 문장을 압축하여 핵심적인 특징을 추출하는 역할을 맡고, 디코더는 인코더가 압축한 벡터를 받아와 출력 문장을 생성함. 인코더는 한 종류의 어텐션, 디코더는 두 종류의 어텐션으로 구성됨.
  • 기계번역에서 인코더가 문장의 의미를 압축해 낼 수 있다는데서 착안해 자연어 이해 모델인 버트BERT가, 디코더가 문장을 생성하는데서 착안해 자연어 생성 모델인 GPT-3가 등장했다.

출처 : 현재 소개 중인 AI 지식 도서

내가 더 자세히 공부해야 할 부분은 기계번역과 챗봇이다.

누구든 인공지능 교양서나 입문서가 필요하다면 추천한다.

반응형
반응형

올 한 해 공부를 너무 하지 않은 죄로...
필기를 N번이나 봤는데 전부 필탈 했다죠 실화냐
물론 점수차가 동점차(^^)부터 최대 3점까지긴 했지만
어찌 되었든 처참한 결과에 충격을 금치 못했고...
반성의 의미로 여러 가지 활동을 하면서
공부하려고 스스로를 옥죄는 중입니다.

그중 하나가 바로 한빛미디어의 혼공학습단!

뭐 하는 거냐면...
한빛미디어의 전공 서적 중 하나를 골라서
한 주간 공부하고 정리한 내용을 공부하는 건데요
주 1회씩 총 6주 동안 진행합니다

요약하자면 6주 동안 책 1권 뿌시기!

책은 한빛미디어의 혼자 공부하는 시리즈 중에서
자기가 공부하고 싶은 걸 1권 선택하면 된답니다.
프로그래밍 언어부터 컴퓨터 과학이나
데이터 분석이랑 머신러닝까지 분야가 매우 다양해요

혼공학습단 활동은 이렇게 할 거래요
1) 도서별 커리큘럼에 따라 공부하고 주어진 숙제 풀기
2) 한 주간 공부한 내용과 숙제를 정리하여 블로그, 노션 등 원하는 채널에 업로드
3) 패들렛에 블로그 링크 공유하고 함께 보기

도서별 커리큘럼은 이런 식으로 제공되는데요
혼자서 책 한 권 읽기 힘든데 너무 친절하고 좋다고 생각합니더...
유튜브에 강의 목록도 따로 정의되어 있더라구요

혼공학습단 활동으로 얻는 혜택은
1) 책 1권을 스스로 공부하고 얻는 지식과
2) 내가 해냈다는 뿌듯함과 자기만족(?)

그리고 6주를 무사히 마친다면
3) 한빛 마일리지 20,000점 획득

열심히 공부한다면
4) 여러 간식까지~!~!

혼자 공부하는데 이렇게까지 해준다?!
그래서 바로 신청 갈겼다
사실 욕심이 많은 자라 두 권 하고 싶었는데
신청서 페이지에서 극구 말리시더라,,,
13기 하구 14기도 해야지~

궁금해하실 13기 활동 기간은
25년 1월 6일부터 2월 23일까지 6주간이다.

13기 신청은 12월 29일까지만 받고 있다
관심 있으면 달려가세요

그림을 누르면 혼공학습단 모집글로 이동합니다

13기 참여 예고라고 적었는데
참여 대상자 발표는 사실 12월 31일임^^7
시크릿이라고 들어보셨나요
말하면 사실될일 뽑아조요

반응형
반응형
    • 데이터 사이언티스트의 역량, 분석기획을 위해 필요한 3가지 역량
      • 수학/통계학적 지식
      • 정보 기술
      • 해당 비즈니스에 대한 이해와 전문성
  • 분석 대상과 방법
    대상 ➡️
    방법⬇️
    Known Un Known
    Known 최적화
    Optimization
    통찰
    Insight
    Un Known 솔루션
    Solution
    발견
    Discovery
  • 분석 기획 방안 
    과제중심적 접근 방식   장기적 마스터플랜 방식
    빠르게&테스트 1차 목표 정확성&개발
    단기&성과 과제 유형 장기
    문제 해결 접근 방식 문제 정의
  • 분석 기획 시 고려사항
    • 가용 데이터인가?
    • 적절한 활용방안과 유스 케이스 탐색
    • 장애요소에 대한 사전계획 수립
        >> 장애요소 : 비용대비 효과의 적절한 비용, 분석 모형의 안정적 확보, 조직 역량으로 내재화를 위한 변화 관리
  • 합리적인 의사 결정을 방해하는 요소 : 고정관념, 편향된 생각, 프레이밍 효과(동일 상황에도 주변에 따라 개인의 판단, 결정이 달라짐)
  • 방법론의 적용 업무 특성에 따른 모델
    • 폭포수 모델 : 단계를 순차적으로 진행, 이전 단계가 완료되어야 다음 단계로 진행
    • 프로토타입 모델 : 폭포수 모델 단점 보완, 일부분 우선 개발하여 시험 사용 후 개선 작업
    • 나선형 모델 : 반복을 통한 점증적 개발, 처음 시도 프로젝트에 용이하나 복잡도 상승
  • KDD 분석 방법론과 절차 전처리 과정에서 이상값 잡음을 식별하고, 데이터 변환 과정에서 분석 목적에 맞는 변수 선택 및 차원축소 과정을 거친다.
    • 데이터 선택 : 비즈니스 도메인에 대한 이해, 프로젝트 목표 설정, 목표 데이터 구성
    • 데이터 전처리 : 잡음, 이상치, 결측치 정제하는 단계
    • 데이터 변환 : 변수 생성, 데이터를 학습용/검증용 데이터로 분리
    • 데이터 마이닝 : 분석 목적에 맞는 데이터 마이닝 기법 선택, 실행
    • 데이터 마이닝 평가 : 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
  • CRISP-DM 분석 방법론과 절차 CRISP-DM에서의 데이터 준비 과정은 KDD 분석에서 데이터 변환 과정과 유사 모델링 단계에서 모델 평가는 수행하지만, 모델 적용성 평가는 그 다음 단계에서 진행
    • 업무이해 : 업무 목적과 데이터 마이닝 목적 수립, 프로세스 초기 계획
    • 데이터 이해 = 데이터 선택, 데이터 전처리 : 데이터 수집, 데이터 품질, 인사이트 발견
    • 데이터 준비 = 데이터 변환 : 수집된 데이터 중 분석기법에 적합한 데이터 편성
    • 모델링 = 데이터 마이닝 : 모델링 기법, 알고리즘 선택, 파라미터 최적화
    • 평가 = 데이터 마이닝 평가 : 분석결과, 모델링 과정과 모델 적용성 평가
    • 전개 : 실무적용, 유지와 보수, 종료 보고서 작성
  • 빅데이터 분석 방법론과 절차
    • 빅데이터 분석의 계층적 프로세스 : 단계_Phase, 태스크_Task, 스텝_Step
    • 데이터 분석에서 데이터 준비 단계로 돌아갈 수 있음

  • 지도학습과 비지도학습
    • (지도 학습)
      • 명확한 목적 하에 데이터 분석 실시
      • 자료가 입력 변수와 출력 변수로 주어짐, 예측 모형을 얻을 때 사용
    • (비지도 학습)
      • 데이터 자체의 결합, 연관성을 중심으로 데이터의 상태를 표현
      • 데이터 마이닝에서 자료가 출력변수 없이 입력변수만 주어지는 경우
  • 하향식 접근법
    • 문제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식(지도학습, WHY 관점)
    • 과정 : 문제탐색→ 문제정의→ 해결방안 탐색→ 타당성 검토
    • 문제 탐색 : 비즈니스 모델 기반 문제 탐색 → 비즈니스 모델 캔버스 활용한 과제 발굴 방법 5가지 = 규제&감사, 업무, 제품, 고객, 지원 인프라
    • 타당성 검토
      • 경제적 타당성 : 비용대비 편익 분석 관점의 접근 필요
      • 데이터 타당성 : 데이터 존재 여부
      • 기술적 타당성 : 역량 확보 방안을 사전에 수립, 분석역량
  • 상향식 접근법
    • 문제의 정의 자체가 어려운 경우, 데이터를 기반으로 문제 탐색(비지도학습, WHAT 관점)
    • 디자인 사고 : 상향식 접근 방식의 발산과 하향식 접근 방식의 수렴 단계를 반복적으로 수행
  • 프로토타이핑 접근법
    • 데이터를 정확히 규정하기 어렵고, 데이터 소스를 명확히 파악하기 어려운 상황에서, 일단 분석을 시도해보고 그 결과를 확인해 반복적으로 개선해나가는 방법
    • 필요성 : 문제 정의가 불명확할 때 이해하고 구체화하는데 도움
  • 분석과제 관리를 위한 5가지 주요 영역
    • 데이터 크기 : 분석하고자 하는 데이터의 양(크기)
    • 데이터 복잡성 : 잘 적용될 수 있는 분석 모델의 선정. ex)BI/비정형데이터
    • 분석속도 : 시나리오 측면에서의 속도성
    • 분석정확도와 복잡도 : 해석이 가능하면서도 정확도를 올릴 수 있는 최적의 모델
    • 신뢰도와 타당성 : 모델과 실제값 차이가 적은 정확도, 지속 반복했을 때 편차수준으로 일관성
      >> 분석 복잡도에서 정확도와 복잡도는 trade off 관계가 존재한다.
  • 분석 프로젝트 관리방안 10가지 ⇒ 범위, 통합, 이해관계자, 조달, 리스크, 품질, 시간, 원가, 의사소통, 지원
  • 분석 마스터 플랜 수립
    • 우선순위 고려요소 : 전략적 중요도, 비즈니스 성과/ROI(투자자본수익률), 실행 용이성
    • 적용범위/방식 고려요소 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준
    • ISP : 정보기술 또는 정보 시스템을 전략적으로 활용하기 위해 중장기 마스터 플랜 수립하는 절차
  • [일반적인 IT 프로젝트 우선순위 평가 예시]
    - 전략적 중요도 = 전략적 필요성 + 시급성
      > 전략적 필요성 : 전략 목표 및 본원 업무에 직접적인 연관관계가 밀접한 정도. 이슈 미해결시 발생할 위험 및 손실에 대한 정도
      > 시급성 : 사용자 요구사항, 업무 능률향상을 위해 시급히 수행되어야 하는 정도. 향후 경쟁우위 확보를 위한 중요도.
    - 실행 용이성 = 투자 용이성 + 기술 용이성
      > 투자 용이성 : 기간 및 인력 투입 용이성. 비용 및 투자예산 확보 가능성
      > 기술 용이성 : 적용 기술 안전성 검증 정도. 응용시스템, 하드웨어 유지보수 용이성. 개발 스킬 성숙도 및 신기술 적용성.
  • [빅데이터 특징을 고려한 분석 ROI 요소]
    - 투자비용 요소(Investment) = Volume + Variety + Velocity (3V)
    - 비즈니스 효과(Return) = Value
  • [ROI를 활용한 우선순위 평가 기준]
    1) 시급성 : 전략적 중요도, 목표가치(KPI) << Value : 비즈니스 효과
    2) 난이도 : 데이터 획득/저장/가공 비용, 분석 적용 비용, 분석 수준 << Volume + Variety + Velocity : 투자비용 요소
  • 데이터 분석과제 추진시 고려해야 하는 우선순위 평가기준
    • 시급성 : 전략적 중요도가 핵심. 현재관점 or 미래관점 어디에 둘 것인지. 분석 과제의 목표가치(KPI) 고려.
    • 난이도 : 현 시점에서 바로 적용하기 쉬운지, 어려운지 판단 기준으로써 데이터 분석의 적합성 여부를 봄
  • 포트폴리오 사분면 분석을 통한 과제 우선순위 산정

출처 : 2023 이지패스 adsp 도서

  • 분석 마스터 플랜 세부 이행 계획 수립 : 폭포수 방식도 있으나 반복적인 정련 과정을 통하여 프로젝트의 완성도를 높이는 방식 주로 사용. 모델링 단계를 중점적, 반복적으로 수행하는 혼합형을 많이 적용한다
  • 분석 거버넌스 구성요소
    • 조직
    • 프로세스
    • 시스템
    • 데이터
    • 분석 관련 교육 및 마인드 육성 체계
  • 데이터 분석수준 진단
    • 분석준비도 : 6가지로 파악
      • 분석업무파악(예측, 최적화 분석 업무)
      • 이력 및 조직
      • 분석기법
      • 분석 데이터(기준 데이터 관리 MDM)
      • 분석문화
      • IT인프라
    • 분석성숙도 : 조직의 성숙도 평가 CMMI, 성숙도 수준 분류
      • 도입 : 분석 시작하여 환경과 시스템 구축
      • 활용 : 분석 결과 실제 업무에 적용
      • 확산 : 분석을 관리하고 공유
      • 최적화 : 분석 진화시켜 혁신 및 성과 향상에 기여
    • 분석 수준 진단 결과 4분면

출처 네이버 블로그 jdhpuppy님

  • 데이터 거버넌스 : 전사 차원의 모든 데이터에 대해 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말한다.
    • 데이터 표준화 : 데이터 표준용어 설정, 메타데이터 구축, 데이터 사전 정의 등의 업무로 구성
    • 데이터 관리체계 : 표준 데이터를 포함한 메타데이터와 데이터 사전의 관리 원칙 수립, 데이터 생명주기 관리방안을 수립해야 함
    • 데이터 저장소 관리 : 메타데이터 및 표준데이터를 관리하기 위한 전사 차원 저장소 관리 체계 지원을 위한 워크플로우 지원, 통제
    • 표준화 활동 : 표준 준수 여부를 주기적으로 모니터링
  • 분석을 위한 3가지 조직구조
    • 집중구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당(이원화)
    • 기능구조 : 별도의 분석 조직이 없고 해당 업무 부서에서 진행
    • 분산구조 : 분석 조직 인력들을 현업 부서에 직접 배치하여 분석업무 수행
  • 분석과제 관리 프로세스 수립
    • 과제 발굴 : 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석과제 풀로 관리, 분석과제 후보 제안
    • 과제 수행 : 분석을 구성할 팀 구성, 분석과제를 실행하고 진행관리, 결과공유/개선
    • 분석과제 후보 제안, 결과 공유 단계에서만 풀 관리함

오래간만에 이것저것 공부하다가 adsp 공부자료를 다시 열어볼 일이 생겼다.
문득 블로그에 정리요약본을 1과목 말고는 올리지 않았던 기억이 생각나...
급하게 2과목도 간단하게만 정리해서 공유합니다.

공부 방법이나 문제집 추천 등이 궁금하다면
아래 게시글을 참고해 주세요.
[ADSP] 데이터분석 준전문가 독학 합격 후기! (공부 방법, 교재 추천)

  •  
반응형
반응형

조금 전 4시경 제52회 SQL 개발자 자격시험, 일명 SQLD의 사전 점수가 공개되었습니다.
4시 땡 하자마자 데이터자격검정 사이트(dataq) 들어갔는데 대기 인원 무슨 일?
공부를 거의 안 한 관계로 기대를 하는 게 조금 양심이 없었긴 하지만...^^
그래도 이제 ALL 객관식이잖아!! 하면서 기다렸읍니다

다행히도 결과는 예상보다 꽤나 높은 점수인 74점으로, 무난하게 합격 예정!
제가 사실 아주아주 과거인 19년도쯤에 처참한 점수로 떨어진 적이 있거든요^ㅁ^
그때가 데이터베이스 수업을 들은 지 얼마 안 되었을 때라, (례 저는 하프 전공자입니다)
개념은 아니까^^ 하면서 공부를 거의 안 하고 가서 시험지 보고 완전 당황했었거든요?!
심지어 당시에는 단답형도 있어서 더 힘들었던 기억이...
암튼 그때의 설움을 드디어 갚았다ㅠㅠㅠㅠ

각설하고 간단하게 공부 방법을 빠르게 공유하고 사라져 보겠습니다.
(사실 토익 공부하고 지원서도 작성해야 하는데 하기 넘넘 싫어서 블로그를 켰어요)

공부기간은 후하게 잡아서 약 2주입니다.
하지만 실제 공부한 기간은... 다 합쳐도 일주일도 안 나올 것 같아요.
이건 제가 하프 전공자라 어느 정도 베이스가 있었기에 가능했던 얘기고,
벼락치기 n일의 전사로 성공했다는 후기들은 그분들이 대단했던 겁니다~
제가 이 시험을 재수해서 합격한 데는 다 이유가 있어요... 단순 암기만으로는 커버하기 어려븜...

교재는 이론/개념 1개, 문제풀이 1개 해서 총 2개를 사용했어요.
이론/개념 교재는 네이버 카페 "데이터 전문가 포럼"에서 다운로드하실 수 있는 SQL 개발자(SQLD) 가이드 파일입니다.
20년 8월에 만들어진 자료지만, 업데이트된 시험 범위를 거의 다 커버합니다.
(TOP N, PIVOT&UNPIVOT, 정규표현식은 조금 부족할 수 있음 > 아래에서 커버 방법 설명 예정!)
제2장 SQL 활용 - 제7절 DCL 까지만 1 회독했습니다. 페이지 번호 397까지입니다. 
그 이후 절차형 SQL부터는 아마 시험 범위가 아니었나 그래서 과감히 버렸습니다!

그리고 문제풀이 교재는 모두가 다 아는 노랭이책, SQL 자격검정 실전문제로 선택했습니다.
저는 19년도부터 공부했던지라 구판으로 공부했는데요,
23년 12월 개정판도 구매하신 분들 후기 보니 문제 순서만 달라진 거 같다~ 신유형은 문제가 거의 없다~ 하시더라구요.
구판을 이미 가지고 있는 분들은 굳이 개정판 구매하시지 않아도 될 것 같아요^ㅁ^

이 책도 처음부터 끝까지 다 풀지는 않았고, 제2장까지만 1회 풀었어요. 페이지 번호로는 127까지입니다.

아무리 이론/개념을 봤다 하더라도 문제 풀면 진짜 이게 뭔소리고;;; 나랑 장난하나;;; 싶은데요.
혼자서는 절대 이 문제의 답이 이거인지 모르겠다! 싶을 때는 유튜브 채널 "전광철 OCP"를 적극 활용했습니다.

자격검정 책에 있는 문제들을 하나하나 풀이해주시거든요?
이해가 쏙쏙 됩니다. 여기서 들은 풀이 덕분에 원리를 깨우쳐서 문제 풀기가 더 수월했어요 bb
이 시험은 1과목은 암기로 해결이 가능하지만, 2과목은 무조건 이해를 해야 풀 수 있다고 생각하거든요.
참고로 동영상 업로드 시기 보면 아시겠지만, 문제 순서는 노랭이책 구버전 기준이에요!
(빅데이터를 위해 댓글에 문제 타임스탬프를 조금 찍어놓고 다닌 건 비밀 아닌 비밀,,,)

그리고 회차가 꽤 되는데도... 잘 정리된 기출문제 찾기가 어렵더라구요? 루트 몇 개를 공유드리자면,
네이버 카페 "데이터 전문가 포럼" 자료실
- 티스토리 블로그 "Study with yuna" (yunamom) > PC로 접속 추천. 시험처럼 볼 수 있게 프로그램(?) 되어 있음
- 티스토리 블로그 "Tudou" (tudou) > 이것저것 올리시는데, 그중에 SQL 기출문제가 있음
- 티스토리 블로그 "개발하는 땅콩" (selgii) > 기출문제 및 요약 모음집
이외에도 구글링 하면 많이 나오니까... 잘 찾아서 다운로드 받으시면 좋을 것 같아요.
실제 시험처럼 문제 형식으로 된 자료가 많이 없다 보니,,, 저는 기출은 거의 건들지 않았어요. (물론 공부도 안 함 올 객관식 만세)

마지막으로 노랭이와 기출로도 커버 안 되는 신유형 문제는 네이버 카페 "홍쌤의 데이터랩"에서 구하실 수 있어요.
예상 문제를 무료로 업로드해 주셔서 아주 유용하게 활용했습니다.

그리고 나중에 알게 돼서 매우 아쉬웠던 사실이... 유튜브 채널도 운영하고 계시더라구요?
과목별 이론 설명 영상이 잘되어 있어서, 독학으로 이론부터 찬찬히 보시려는 분들께 적극 추천합니다.

별 거 없지만 공부하면서 참고했던 내용들을 정리해 봤는데요,
앞으로 공부하실 분들께 조금이나마 도움이 되었으면 합니다^ㅁ^
다들 합격길만 걸으세요~~~ (난 이제 토익 공부 다시 하러ㅠ)

여담으로 데이터 전문가 포럼에서 주기적으로 서평 이벤트를 하더라구요~
저는 이벤트 신청해도 한 번을 당첨되지 못했지만... 이 글을 보시는 분들께는 참고가 되길 바랍니다.
(신유형은 이기적 같은 다른 수험서로 공부해보고 싶었는데ㅠㅠ 저는 왜 안뽑아조요ㅠㅠ)

반응형
반응형

8월 19일에 있었던 제38회 데이터분석 준전문가(ADSP) 시험 결과가 나왔다.
헷갈리던 부분이 있어 걱정했는데 다행히 82점이라는 꽤나 높은 점수로 합격했다.
합격 수기라기엔 거창하고, 그냥 공부했던 기록을 남기고자 포스팅하기로 했다.

공부기간은 약 1달이나, 실공부는 2주 조금 넘게 했다.
책을 구매해서 처음 열어본게 7월 16일이었지만... 직장병행 독학이라는 핑계로 못(안)한 나날들이 많더라.

교재는 위키북스에서 나온 이지패스 ADSP 데이터분석 준전문가 2023년 판 (일명 미어캣)!
민트책, 황소책 등 유명한 다른 문제집들도 많았는데, 이 책을 고른 이유는 2개다.
하나, 문제 바로 아래 답이 적혀 있는 걸 싫어하는데 찾아보니 이 책은 그렇지 않았다.
둘, 그리고 출판사에서 제공하는 어플로 모의고사를 풀어볼 수 있다. 어플 후기는 포스팅 하단에 따로~!

공부 방법은
  1) 교재 1회독
  2) 유튜브 요약강의 들으면서 교재 야매 1회독
  3) 요약집 타이핑
  4) 기출문제 풀이 및 틀린 개념은 교재 보면서 복습

교재 1회독할 때 1~2과목은 괜찮은데 3과목 통계가 진짜 무슨 말인지 하나도 모르겠더라.
그래서 유튜브로 무료 요약강의를 찾아서 들었다.
내가 들은 건 "위키북스의 ADsP 핵심요약 5시간 벼락치기 특강_live stream 녹화"였는데,
교재 펴놓고 들으면서 강사님이 언급하는 개념들만 다시 슥슥 훑어봤다.
통계 파트를 기초 위주로 설명해 주신 점이 도움이 많이 되었다. 3과목 통계는 개념 이해하고 선지 보는 법만 알면 문제 풀기가 훨씬 쉬우니까, 시간이 너무 부족하지 않다면 유튜브 강의 듣는 걸 추천한다. 
에듀아토즈나 와우패스도 강의를 제공하고 있으니 영상은 본인 교재나 취향에 맞추면 될 것 같다.

요약집은 인터넷에 검색하면 많이 나온다. 그중 괜찮아 보이는 걸 다운로드하여 노션에 다시 타이핑해서 옮겼다.
그리고 책과 어플에 있는 기출문제 풀이하고, 틀린 개념은 교재 보면서 다시 복습했다.
중요해 보이거나 자주 틀리는 건 요약본에 조금 더 자세하게 적어두고,
시험 2-3일 전에 요약본 프린트해서 그때부터는 요약본 위주로만 봤다.

되게 열심히 공부한 것처럼 보이는데 문제집 모의고사 포함 9개밖에 안 풀어보고 감...
심지어 문제집 모의고사 3회 차는 안 풀었다ㅋㅋ 이제 발견 그래도 예상 점수 이상은 받았다 다행...
원래는 16회차부터 순서대로 공부해나가려 했는데, ADSP가 최근 시험이 가장 중요하다고 하더라.
그래서 32회차부터 순서대로 풀었고 가장 최근 회차인 36-37회차는 시험 전 날에 봤다. 

이지패스에서 제공하는 어플이다. 앱스토어에서 캡처해 왔다. 미어캣 귀여움... 

어플 첫 화면은 이렇게 생겼다. 모의고사 누르면 회차 볼 수 있고, 교재 구매 시 교재 안에 들어 있는 코드 입력해서 인증하면 된다.

인증 없이도 맛보기 회차 2-3개는 풀어볼 수 있으니 참고. 책으로 풀어본 문제도 다시 풀어볼 수 있어서 좋다.
다만 맞는 답 체크했는데도 오답이라고 하는 오류가 종종 있으니 주의하자. 어플에서 아쉬웠던 점 중 하나다.

다른 아쉬웠던 점은 주관식 서브노트 110제를 제공하는데 그냥 책에 있는 이미지 형태랑 동일하더라.
모의고사처럼 화면 넘겨가면서 보면 좋을 텐데라는 생각이 들었다.
그래서 주관식은 퀴즐렛에 사람들이 올려놓은 학습 세트 찾아서 봤다. 그냥 출퇴근길이나 밥 먹을 때 조금씩 봤는데 도움 많이 된 듯?
내가 본 퀴즐렛 학습 세트는 "ADSP 1~3과목 단답 주관식 기출(23.8월 시험대비)"라는 제목이었다.

아 그리고 36, 37회차가 최신 기출이라 문제집이나 어플 등에 없는 경우가 많다.
36, 37회차 문제지는 에듀아토즈 사이트에서 "[샘플 강의] ADsP 37회 기출"과 같은 강의를 찾아보자.
로그인하고 콘텐츠 첨부파일 탭(?)에서 기출복원 PDF 파일을 찾을 수 있다.
아마 38회차도 제공해주지 않을까? 넘 친절하고 좋은 곳인듯!
빅데이터분석기사 강의도 있던데 다음에는 빅분기나 준비해볼까...?
이상 별 거 없었지만 ADSP 독학 후기 끝!

반응형
반응형
  • 데이터의 특성
    • (존재적 특성) 데이터는 있는 그대로의 객관적 사실 ⇒ 수학 80점, 영어 100점
    • (당위적 특성) 데이터는 추론·예측·전망·추정을 위한 근거 ⇒ 평균 90점
  • 데이터는 정보가 아니라 자료. 정보는 데이터로부터 얻은 가공된 자료를 의미
  • 데이터의 유형
    • (정성적 데이터) 언어, 문자로 표현(ex. 회사 매출이 증가함) ⇒ 저장, 검색 분석에 많은 비용 소모
    • (정량적 데이터) 수치, 도형, 기호로 표현(ex. 나이, 몸무게 …) ⇒ 정형(량)화 되어 있기에 비용 소모 적음
  • 정형/비정형/반정형 데이터
    • (정형 데이터) 정형화된 틀이 있고 연산이 가능 ⇒ CSV, 엑셀 스프레드 시트 등, 관계형 DB에 저장 수집 관리 용이함
    • (비정형 데이터) 정형화된 틀이 없고 연산이 불가능 ⇒ 소셜 데이터, 댓글, 영상, 음성 등, NoSQL(Not only SQL), DB에 저장하거나 수집 관리 어려움
    • (반정형 데이터) 형태는 있지만 연산이 불가능 ⇒ XML, JSON, HTML, 센서 데이터 등, 파일 형태로 저장 가공을 거쳐 정형으로 변환
  • 지식 경영의 핵심 이슈
    • (암묵지) 매뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 X. 개인에게 내면화 ⇒ 조직에게 공통화
    • (형식지) 문서나 매뉴얼화된 지식 언어/숫자/기호로 표출화 ⇒ 개인의 지식으로 연결화
  • 방법론 생성 과정 : 암묵지 > (형식화) > 형식지 > (체계화) > 방법론 > (내재화) > 암묵지
  • DIKW 피라미드
    • (데이터 D) 가공하기 전의 순수한 수치나 기호. 있는 그대로의 사실. ex) A마트는 100원, B마트는 200원에 연필을 판매한다.
    • (정보 I) 패턴을 인식하고 의미를 부여한 데이터 ex) A마트의 연필이 더 싸다.
    • (지식 K) 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.
    • (지혜 W) 창의적 아이디어. 타인과 공유 어려움 ex) A마트의 다른 상품들도 B마트보다 저렴할 것이라고 판단한다.
  • 트랜잭션 ⇒ 데이터베이스에서 명령을 수행하는 하나의 논리적인 기능 단위
    • 원자성(Atomicity) : 트랜잭션이 데이터베이스에 모두 적용되거나, 모두 적용되지 않아야 한다.
    • 일관성(Consistency) : 트랜잭션의 결과는 항상 일관성을 가져야 한다.
    • 고립성(Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 한다.
    • 지속성(Durability) : 트랜잭션이 성공 적으로 수행된 경우 그 결과는 영구적이어야 한다.
  • 데이터베이스의 특징
    • 통합된 데이터 : 동일한 내용이 중복되어 있지 않음
    • 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장 매체에 저장
    • 공용 데이터 : 여러 사용자가 데이터를 공동으로 이용
    • 변화되는 데이터 : 새로운 데이터의 삽입, 기존 데이터 삭제, 갱신으로 항상 변화해도 현재의 정확한 데이터를 유지해야 함.
  • RDB와 NoSQL
    • RDB
      • 데이터를 행과 열로 이뤄진 테이블에 저장하며, 하나의 열은 하나의 속성을 나타내고 같은 속성 값만 가질 수 있다. 정형 데이터 특화.
      • Oracle, MySQL(Oracle), MS-SQL(Microsoft), DB2·Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스)
    • NoSQL
      • 기존 RDB의 SQL을 보완/개선한 비관계형 DB. 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이.
      • Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant
      • Key-Value DB : 아마존의 Dynamo, Redis, Riak, Coherence, SimpleDB
      • Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable
  • 기업 내부 데이터베이스
    • (OLTP) 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 갱신 위주 온라인 거래 처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템. 영역별로 구축되던 단순 자동화 중심의 시스템.
    • (OLAP) 다차원의 데이터를 대화식으로 분석
    • (BI : Business Inteligence) 기업이 보유하고 있는 데이터를 정리하고 분석해 의사 결정에 활용 리포트 중심의 도구 ⇒ 가트너 “여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경”
    • (BA : Business Analysis) 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법 통계, 수학에 초점
    • (CRM_고객관계관리) 고객과 관련된 내/외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효율적 마케팅에 활용 (고객 관리 있으면 CRM)
    • (SCM_공급망관리) 공급망 단계를 최적화해 고객을 만족시킴
    • (ERP_경영지원통합시스템) 기업 전체를 경영자원의 효율적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
  • 데이터베이스의 설계 절차 요구사항 분석 ⇒ 개념적 설계 ⇒ 논리적 설계 ⇒ 물리적 설계
  • 데이터 웨어하우스
    • 사용자의 의사결정에 도움을 주기 위해 정보 기반으로 제공하는 하나의 통합적이고 시간성을 가지는 비휘발성 데이터의 집합
    • 전사적 차원에서 일관적인 형식 유지
    • 분산된 환경에 흩어져 있는 데이터들을 개인이나 조직이 총체적인 관점에서 의사결정을 위해 공통의 형식으로 변환해 관리하는 역할
    • 데이터 마트는 특정 목적을 달성하기 위해 조직/개인에게 전달되기 위한 최종 데이터 형태
  • 빅데이터
    • 빅데이터를 나타내는 4V = Volume(양), Variety(다양성), Velocity(속도), Value(가치)
    • 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공해 주었다.
    • 빅데이터 수집, 구축, 분석의 최종 목적 ⇒ 새로운 통찰과 가치 추출
  • 빅데이터에 거는 기대 비유
    • 산업혁명의 석탄/철 : 혁명적 변화를 가져올 것
    • 21세기 원유 : 산업 전반에 생산성 향상, 기존에 없던 새로운 범주의 산업 형성
    • 렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 데이터가 산업 발전에 영향을 미칠 것으로 기대 (ex. Ngram Viewer)
    • 플랫폼 : 공동 활용 목적으로 구축된 유무형의 구조물로써 역할
  • 빅데이터가 만들어내는 본질적인 변화
    • 사전처리 ⇒ 사후처리 : 기술이 발전해서 마음껏 모아도 된다.
    • 표본조사 ⇒ 전수조사 : 마음껏 데이터 모으면 된다.
    • 질 ⇒ 양
    • 인과관계 ⇒ 상관관계 : 엄청나게 모은 데이터들을 분석해 서로 상관이 있는지 본다.
  • 빅데이터의 가치 산정이 어려운 이유
    • 데이터를 재사용하거나 재조합해 활용하면서 특정 데이터를 언제, 어디서, 누가 활용하는지 알 수 없게 되어
    • 기술이 발전하면서 기존에 없던 가치를 창출하면서
    • 현재는 가치가 없어도 후에 기술이 발전되면 가치가 있는 데이터가 될 수도 있기 때문에
  • 빅데이터 활용 기본 테크닉
    연관규칙(분석) 변인 간에 상관관계가 있는가? 커피를 구매하는 사람이 탄산음료를 더 많이 구매하는가?
    카탈로그 배열, 교차 판매, 판촉 행사
    유형분석
    (분류분석)
    문서 분류, 조직 내 그룹 나누기
    규칙을 찾고 새로운 데이터의 집단을 파악
    이 사용자는 어떤 특성을 가진 집단에 속하는가?
    유전자 알고리즘 최적화를 구하는 알고리즘 최대 시청률을 얻으려면 어떤 프로를 어떤 시간대에 방송해야 하는가?
    기계학습 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측 기존의 시청기록 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까?
    회귀분석 독립변수의 변화에 따라 종속변수가 어떻게 변하는가? 구매자 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
    감정분석 특정 주제에 대한 사람의 감정 분석 새로운 환불 정책에 대한 고객 평가는 어떠한가?
    소셜네트워크분석   고객들 간 관계망은 어떻게 구성되어 있는가?
    • 정형 데이터 활용 ⇒ 연관규칙, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석
    • 비정형 데이터 활용 ⇒ 감정분석, 소셜네트워크분석
  • 빅데이터 활용 3요소  데이터, 기술, 인력
    • 데이터 : 모든 것의 데이터화
    • 기술 : 진화하는 알고리즘, 인공지능
    • 인력 : 데이터 사이언티스트, 알고리즈미스트 등…
  • 빅데이터 시대의 위기 요인
    • (사생활 침해) 개인정보 사용을 제공자 동의에서 사용자 책임으로 익명화 기술 발전이 필요할 것
    • (책임 원칙 훼손) 범죄예측 프로그램으로 예비범죄자 체포하면 문제가 될 것 명확히 나타난 결과에 대해서만 책임을 물어야 함(결과기반 책임원칙)
    • (데이터 오용) 데이터 분석 결과가 항상 옳은 것은 아님 불이익을 당한 사람들을 대변할 전문가 알고리즈미스트가 필요해짐
  • 데이터 사이언스
    • 데이터와 관련된 모든 분야의 전문 지식을 종합한 학문
    • 정형/비정형을 막론하고 데이터 분석 (총체적 접근)
    • 데이터로부터 의미 있는 정보를 추출해 내는 학문
    • 분석적 영역 ⇒ 수학, 확률모델, 분석학 등과 같은 이론적인 지식
    • IT 영역 ⇒ 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅과 같은 프로그래밍적 지식
    • 비즈니스 분석 ⇒ 커뮤니케이션, 시각화, 프레젠테이션과 같은 비즈니스적 능력
  • 데이터 사이언티스트의 요구 역량
    • (하드 스킬) 빅데이터에 대한 이론적 지식, 분석 기술 ⇒ 가트너가 제시한 역량에는 포함되어 있지 않음
    • (소프트 스킬) (정확성보다는) 통찰력 있는 분석 능력, 설득력 있는 전달(스토리텔링과 시각화), 협력 능력 같은 인문학적 능력 ⇒ 단순(컨버전스) 세계에서 복잡(디버전스) 세계로의 변화, 비즈니스 중심이 생산에서 서비스&시장 창조로 이동해서
  • 가트너가 제시한 데이터 사이언티스트 요구 역량
    • 데이터 관리 : 데이터에 대한 이해
    • 분석 모델링 : 분석론에 대한 지식
    • 비즈니스 분석 : 비즈니스 요소에 초점
    • 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
  • DBMS(DataBase Management System) : 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어
    • 관계형 DBMS ⇒ 테이블(표)로 데이터 정리
    • 객체지향 DBMS ⇒ 정보를 객체(이미지나 영상)로 정리
  • 개인정보 비식별 기술
    데이터 마스킹 홍길동 ⇒홍**
    가명처리 데이터를 읽을 수 있는/식별할 수는 없는 다른 값으로 대체.
    홍길동 ⇒ 임꺽정
    총계처리 기존 값을 해당 변수의 전체 데이터 값의 합계나 평균으로 대체.
    갑 165cm, 을 170cm ⇒ 학생들 키 합 335cm, 평균키 167.5cm
    범주화 데이터 값을 범주화해 최대/최소 제공. 해당 그룹의 대표값 제공.
    홍길동 35세 ⇒ 31~40세
    난수화 개인정보 무작위처리(사생활 침해 방지)
    데이터 삭제 해당 변수를 삭제하여 존재하지 않는 것처럼
  • 데이터의 유형
    정형 데이터 관계형 DBMS, CSV, ERP 등 형식이 정해져 있는 데이터
    반정형 데이터 눈으로 봤을 때 무슨 정보인지 모르는 데이터(ex. 센서데이터)
    한 번 변환이 필요함. 형태(스키마, 메타데이터)가 있음.
    비정형 데이터 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터
반응형
반응형

겨우겨우 650문제 정도 풀고 다녀온 시험이라
기대를 하지 않고 있었는데 생각보다 잘 풀고 찍었나보다.
다행히도 필기에 합격했다😆
지난 번 필기 때보다 평균도 6점이나 더 높아졌다.


이제 10월 30일 실기를 준비해야 한다.
앞으로 23일
확신의 P답게 일단 대충 계획만 세우기로 했다.
사실 이 포스팅도 2주 전에 써놓고 오늘에서야 올리는거라
너무 게으른 나 자신에게 놀라고 반성중이다.

이론서가 6파트 17섹셩 89챕터 638페이지
문제집이 758문제

하루에 27페이지, 32문제 이상….
가능한걸까~ 벌써 망한 것 같으네~

반응형
반응형

- 라우터는 입력된 패킷 목적지 IP를 바탕으로 라우팅 테이블에 등록된 서브넷 정보와 일치하는 레코드 인터페이스와 게이트웨이 정보를 확인하여 패킷을 전달한다.

- 디폴트 라우트란 목적지 경로를 찾아내지 못한 네트워크가 있다면 거쳐가도록 설정된 경로이다.

- AS(Autonomous System, 자율시스템)은 하나의 관리 도메인에 속해 있는 라우터의 집합을 말한다. AS 내에 운영되는 라우팅 프로토콜은 IGP라 하며, RIP, OSFP 등이 존재한다. AS 간 라우팅 정보를 교환하기 위한 프로토콜은 EGP라고 하며, BGP가 있다.

# 정적 라우팅

- 관리자의 권한으로 특정 경로를 통해서만 패킷이 지날 수 있도록 설정. 보안이 중요한 경우 사용.

- 네트워크 변경사항 발생 시, 라우팅 테이블을 수동으로 수정해야 함. 네트워크 환경 변화에 능동적인 대처 어려움

- 라우팅 경로가 고정되어 있는 네트워크에 적용하면 라우터의 직접적인 처리 부하가 감소


- 거리 벡터 라우팅 : 일정한 시간마다 이웃 라우터와 경로정보를 교환, 최적경로를 설정하는 방식. 일정 시간마다 이웃한 라우터와 라우팅 테이블에 있는 모든 정보를 주고받는데, 이웃하고 있는 라우터 경로 값과 자신의 경로 값을 비교하여 더 적은 값으로 라우팅 테이블을 갱신

- 링크 상태 라우팅 : 라우팅 테이블을 구성하기 위해 다익스트라 알고리즘을 사용한다.

- OSPF(Open Shortest Path First), 개방 최단 경로 우선 : RIP와 동일한 인트라 도메인 라우팅 프로토콜. 링크-상태 라우팅 기반. 네트워크 변화가 있을 경우에만 전체 네트워크에 플러딩 과정 수행, 라우팅 정보를 신속하게 갱신하여 수렴 시간을 줄이고 트래픽 양도 줄임. 최적 경로 계산을 위해 다익스트라 알고리즘 사용.

- IS-IS 라우팅(Intermediate System) : 각 라우터가 네트워크 토폴로지 데이터베이스를 독립적으로 구성하는 것을 가능케 함. OSPF와 같은 링크 상태 라우팅 프로토콜. 링크상태 정보를 교환하여 전체 네트워크 토폴로지 계산. 

거리벡터 라우팅 링크상태 라우팅
인접한 이웃으로부터 망 정보 수집 모든 라우터로부터 망 정보 수집
이웃 라우터와의 거리 비용을 더해서 비용 계산 최단거리 알고리즘으로 모든 라우터에 대한 비용 직접 계산
주기적인 라우팅 정보 교환 링크 상태 변화시만 라우징 정보 교환
느린 수렴시간 빠른 수렴시간
모든 라우팅 테이블 값을 이웃에게 전달 자신에게 직접 연결된 망 정보만 전달
브로드캐스트 방식으로 이웃에게 라우팅 광고 멀티캐스트 방식으로 라우팅 광고

- CIDR(Classless Inter Domain Routing), 클래스 없는 주소 지정 : 기존 IP 주소 클래스 체계의 주소 고갈 문제를 해결하고자 나온 방식. 기존의 클래스 A/B/C 네트워크 주소 개념을 무시함. 인터넷 라우팅 테이블의 비대화를 막음. 인터넷을 여러 개의 어드레싱 도메인으로 나누어 라우팅 정보량을 줄임. EGP, IGRP, RIPv1은 오래되어 CIDR 미지원. BGP-4와 OSPF가 지원함

- 라우터 보안 설정

- SNMP Community String인 Private/Public 사용 금지. SNMP 권한은 Read-Only로 운영. 전송 암호화 기능을 제공하는 SNMP V3 이상사용. SNMP는 ACL을 적용해 서비스 제한
- 라우터에서 Directed Broadcast, ICMP Redirect 기능 제거
- Auto Loading 기능 제거
- 발신지 주소가 변조된 비정상패킷은 유입되는 해당 인터페이스에서 필터링
- Privileged EXEC 모드에서 Router#reload 명령을 통해 재부팅이 가능

- Ingress 필터링 : standard 혹은  extended access-list를 활용, 라우터 내부로 유입되는 패킷의 소스 IP나 목적지 포트 등을 체크하여 필터링. 공통적으로 필터링할 소스 IP는 인터넷 상에서 사용하지 않는 대역, 출발지 주소에 내부망 IP 주소를 가지고 있는 패킷(IP 스푸핑 예방 가능)

- Null Routing 활용 필터링 : 블랙홀 필터링 기법. 특정 IP/IP 대역에 널이라는 가상 쓰레기 인터페이스를 보내 패킷이 통신되지 않도록 함

- Unicast RFP 활용 필터링 : 인터페이스를 통해 들어오는 패킷 소스 IP가 들어온 인터페이스로 다시 나가는지 라우팅 테이블 체크. 1.1.1.1이라는 소스 IP를 달고 들어오는 패킷이, 목적지로 라우팅 될 때 같은 인터페이스를 통해 나가는지 확인하여 필터링 여부 결정. 하나하나 IP/IP대역을 지정하지 않아도 비정상 트래픽 필터링 가능(효율적). serial 인터페이스에 설정하면 소스 IP를 위조하는 형태 패킷 필터링 가능(ingress). 이더넷에 설정하면 내부에서 위조해 나가는 패킷 필터링 가능(egress).

- Extended Access List

access-list   ACL-No    [permit/deny]    [protocol]    source ip add    source net mask    destination ip add     dest net mask   [eq|gt ...]    port   [established]                         
ACL-No : ACL 관리 번호로 100~199 사이

 

반응형

+ Recent posts