반응형
- 데이터의 특성
- (존재적 특성) 데이터는 있는 그대로의 객관적 사실 ⇒ 수학 80점, 영어 100점
- (당위적 특성) 데이터는 추론·예측·전망·추정을 위한 근거 ⇒ 평균 90점
- 데이터는 정보가 아니라 자료. 정보는 데이터로부터 얻은 가공된 자료를 의미
- 데이터의 유형
- (정성적 데이터) 언어, 문자로 표현(ex. 회사 매출이 증가함) ⇒ 저장, 검색 분석에 많은 비용 소모
- (정량적 데이터) 수치, 도형, 기호로 표현(ex. 나이, 몸무게 …) ⇒ 정형(량)화 되어 있기에 비용 소모 적음
- 정형/비정형/반정형 데이터
- (정형 데이터) 정형화된 틀이 있고 연산이 가능 ⇒ CSV, 엑셀 스프레드 시트 등, 관계형 DB에 저장 수집 관리 용이함
- (비정형 데이터) 정형화된 틀이 없고 연산이 불가능 ⇒ 소셜 데이터, 댓글, 영상, 음성 등, NoSQL(Not only SQL), DB에 저장하거나 수집 관리 어려움
- (반정형 데이터) 형태는 있지만 연산이 불가능 ⇒ XML, JSON, HTML, 센서 데이터 등, 파일 형태로 저장 가공을 거쳐 정형으로 변환
- 지식 경영의 핵심 이슈
- (암묵지) 매뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 X. 개인에게 내면화 ⇒ 조직에게 공통화
- (형식지) 문서나 매뉴얼화된 지식 언어/숫자/기호로 표출화 ⇒ 개인의 지식으로 연결화
- 방법론 생성 과정 : 암묵지 > (형식화) > 형식지 > (체계화) > 방법론 > (내재화) > 암묵지
- DIKW 피라미드
- (데이터 D) 가공하기 전의 순수한 수치나 기호. 있는 그대로의 사실. ex) A마트는 100원, B마트는 200원에 연필을 판매한다.
- (정보 I) 패턴을 인식하고 의미를 부여한 데이터 ex) A마트의 연필이 더 싸다.
- (지식 K) 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.
- (지혜 W) 창의적 아이디어. 타인과 공유 어려움 ex) A마트의 다른 상품들도 B마트보다 저렴할 것이라고 판단한다.
- 트랜잭션 ⇒ 데이터베이스에서 명령을 수행하는 하나의 논리적인 기능 단위
- 원자성(Atomicity) : 트랜잭션이 데이터베이스에 모두 적용되거나, 모두 적용되지 않아야 한다.
- 일관성(Consistency) : 트랜잭션의 결과는 항상 일관성을 가져야 한다.
- 고립성(Isolation) : 하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 한다.
- 지속성(Durability) : 트랜잭션이 성공 적으로 수행된 경우 그 결과는 영구적이어야 한다.
- 데이터베이스의 특징
- 통합된 데이터 : 동일한 내용이 중복되어 있지 않음
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장 매체에 저장
- 공용 데이터 : 여러 사용자가 데이터를 공동으로 이용
- 변화되는 데이터 : 새로운 데이터의 삽입, 기존 데이터 삭제, 갱신으로 항상 변화해도 현재의 정확한 데이터를 유지해야 함.
- RDB와 NoSQL
- RDB
- 데이터를 행과 열로 이뤄진 테이블에 저장하며, 하나의 열은 하나의 속성을 나타내고 같은 속성 값만 가질 수 있다. 정형 데이터 특화.
- Oracle, MySQL(Oracle), MS-SQL(Microsoft), DB2·Infomix(IBM), MariaDB(Sun Microsystems), Derby(Apache), SQLite(오픈소스)
- NoSQL
- 기존 RDB의 SQL을 보완/개선한 비관계형 DB. 비정형 데이터와 대용량의 데이터 분석 및 분산처리에 용이.
- Document-Oriented DB : CouchDB, MongoDB, Elasticsearch, Cloudant
- Key-Value DB : 아마존의 Dynamo, Redis, Riak, Coherence, SimpleDB
- Column-Oriented DB : 구글의 Bigtable, Cassandra, HBase, HyperTable
- RDB
- 기업 내부 데이터베이스
- (OLTP) 데이터베이스의 데이터를 수시로 갱신하는 프로세싱, 갱신 위주 온라인 거래 처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템. 영역별로 구축되던 단순 자동화 중심의 시스템.
- (OLAP) 다차원의 데이터를 대화식으로 분석
- (BI : Business Inteligence) 기업이 보유하고 있는 데이터를 정리하고 분석해 의사 결정에 활용 리포트 중심의 도구 ⇒ 가트너 “여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경”
- (BA : Business Analysis) 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법 통계, 수학에 초점
- (CRM_고객관계관리) 고객과 관련된 내/외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효율적 마케팅에 활용 (고객 관리 있으면 CRM)
- (SCM_공급망관리) 공급망 단계를 최적화해 고객을 만족시킴
- (ERP_경영지원통합시스템) 기업 전체를 경영자원의 효율적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템
- 데이터베이스의 설계 절차 요구사항 분석 ⇒ 개념적 설계 ⇒ 논리적 설계 ⇒ 물리적 설계
- 데이터 웨어하우스
- 사용자의 의사결정에 도움을 주기 위해 정보 기반으로 제공하는 하나의 통합적이고 시간성을 가지는 비휘발성 데이터의 집합
- 전사적 차원에서 일관적인 형식 유지
- 분산된 환경에 흩어져 있는 데이터들을 개인이나 조직이 총체적인 관점에서 의사결정을 위해 공통의 형식으로 변환해 관리하는 역할
- 데이터 마트는 특정 목적을 달성하기 위해 조직/개인에게 전달되기 위한 최종 데이터 형태
- 빅데이터
- 빅데이터를 나타내는 4V = Volume(양), Variety(다양성), Velocity(속도), Value(가치)
- 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공해 주었다.
- 빅데이터 수집, 구축, 분석의 최종 목적 ⇒ 새로운 통찰과 가치 추출
- 빅데이터에 거는 기대 비유
- 산업혁명의 석탄/철 : 혁명적 변화를 가져올 것
- 21세기 원유 : 산업 전반에 생산성 향상, 기존에 없던 새로운 범주의 산업 형성
- 렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 데이터가 산업 발전에 영향을 미칠 것으로 기대 (ex. Ngram Viewer)
- 플랫폼 : 공동 활용 목적으로 구축된 유무형의 구조물로써 역할
- 빅데이터가 만들어내는 본질적인 변화
- 사전처리 ⇒ 사후처리 : 기술이 발전해서 마음껏 모아도 된다.
- 표본조사 ⇒ 전수조사 : 마음껏 데이터 모으면 된다.
- 질 ⇒ 양
- 인과관계 ⇒ 상관관계 : 엄청나게 모은 데이터들을 분석해 서로 상관이 있는지 본다.
- 빅데이터의 가치 산정이 어려운 이유
- 데이터를 재사용하거나 재조합해 활용하면서 특정 데이터를 언제, 어디서, 누가 활용하는지 알 수 없게 되어
- 기술이 발전하면서 기존에 없던 가치를 창출하면서
- 현재는 가치가 없어도 후에 기술이 발전되면 가치가 있는 데이터가 될 수도 있기 때문에
- 빅데이터 활용 기본 테크닉
연관규칙(분석) 변인 간에 상관관계가 있는가? 커피를 구매하는 사람이 탄산음료를 더 많이 구매하는가?
카탈로그 배열, 교차 판매, 판촉 행사유형분석
(분류분석)문서 분류, 조직 내 그룹 나누기
규칙을 찾고 새로운 데이터의 집단을 파악이 사용자는 어떤 특성을 가진 집단에 속하는가? 유전자 알고리즘 최적화를 구하는 알고리즘 최대 시청률을 얻으려면 어떤 프로를 어떤 시간대에 방송해야 하는가? 기계학습 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측 기존의 시청기록 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까? 회귀분석 독립변수의 변화에 따라 종속변수가 어떻게 변하는가? 구매자 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 감정분석 특정 주제에 대한 사람의 감정 분석 새로운 환불 정책에 대한 고객 평가는 어떠한가? 소셜네트워크분석 고객들 간 관계망은 어떻게 구성되어 있는가? - 정형 데이터 활용 ⇒ 연관규칙, 유형분석, 유전자 알고리즘, 기계학습, 회귀분석
- 비정형 데이터 활용 ⇒ 감정분석, 소셜네트워크분석
- 빅데이터 활용 3요소 ⇒ 데이터, 기술, 인력
- 데이터 : 모든 것의 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트 등…
- 빅데이터 시대의 위기 요인
- (사생활 침해) 개인정보 사용을 제공자 동의에서 사용자 책임으로 익명화 기술 발전이 필요할 것
- (책임 원칙 훼손) 범죄예측 프로그램으로 예비범죄자 체포하면 문제가 될 것 명확히 나타난 결과에 대해서만 책임을 물어야 함(결과기반 책임원칙)
- (데이터 오용) 데이터 분석 결과가 항상 옳은 것은 아님 불이익을 당한 사람들을 대변할 전문가 알고리즈미스트가 필요해짐
- 데이터 사이언스
- 데이터와 관련된 모든 분야의 전문 지식을 종합한 학문
- 정형/비정형을 막론하고 데이터 분석 (총체적 접근)
- 데이터로부터 의미 있는 정보를 추출해 내는 학문
- 분석적 영역 ⇒ 수학, 확률모델, 분석학 등과 같은 이론적인 지식
- IT 영역 ⇒ 프로그래밍, 데이터 엔지니어링, 고성능 컴퓨팅과 같은 프로그래밍적 지식
- 비즈니스 분석 ⇒ 커뮤니케이션, 시각화, 프레젠테이션과 같은 비즈니스적 능력
- 데이터 사이언티스트의 요구 역량
- (하드 스킬) 빅데이터에 대한 이론적 지식, 분석 기술 ⇒ 가트너가 제시한 역량에는 포함되어 있지 않음
- (소프트 스킬) (정확성보다는) 통찰력 있는 분석 능력, 설득력 있는 전달(스토리텔링과 시각화), 협력 능력 같은 인문학적 능력 ⇒ 단순(컨버전스) 세계에서 복잡(디버전스) 세계로의 변화, 비즈니스 중심이 생산에서 서비스&시장 창조로 이동해서
- 가트너가 제시한 데이터 사이언티스트 요구 역량
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
- DBMS(DataBase Management System) : 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어
- 관계형 DBMS ⇒ 테이블(표)로 데이터 정리
- 객체지향 DBMS ⇒ 정보를 객체(이미지나 영상)로 정리
- 개인정보 비식별 기술
데이터 마스킹 홍길동 ⇒홍** 가명처리 데이터를 읽을 수 있는/식별할 수는 없는 다른 값으로 대체.
홍길동 ⇒ 임꺽정총계처리 기존 값을 해당 변수의 전체 데이터 값의 합계나 평균으로 대체.
갑 165cm, 을 170cm ⇒ 학생들 키 합 335cm, 평균키 167.5cm범주화 데이터 값을 범주화해 최대/최소 제공. 해당 그룹의 대표값 제공.
홍길동 35세 ⇒ 31~40세난수화 개인정보 무작위처리(사생활 침해 방지) 데이터 삭제 해당 변수를 삭제하여 존재하지 않는 것처럼 - 데이터의 유형
정형 데이터 관계형 DBMS, CSV, ERP 등 형식이 정해져 있는 데이터 반정형 데이터 눈으로 봤을 때 무슨 정보인지 모르는 데이터(ex. 센서데이터)
한 번 변환이 필요함. 형태(스키마, 메타데이터)가 있음.비정형 데이터 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터
반응형
'공부 > IT' 카테고리의 다른 글
[SQLD] SQL 개발자 자격 시험 독학 합격 후기(공부 방법, 교재 추천 등) (0) | 2024.03.29 |
---|---|
[ADSP] 데이터분석 준전문가 독학 합격 후기! (공부 방법, 교재 추천) (1) | 2023.09.16 |
정보보안기사 필기 합격! (0) | 2021.10.07 |
[정보보안기사] 라우팅(Routing) (0) | 2021.08.31 |
[정보보안기사] 통신 프로토콜 (0) | 2021.08.30 |