📚 Academic

Samaung SDS AI Business Academy Day1 (2021.09.15)

olivia_park 2021. 9. 15. 17:08

❗ 완전한 기록용 포스트이기 때문에 정보 습득을 위해 들어오셨다면

다른 포스팅을 추천드립니다😅


 

Basis of Data Analytics

Data Analytics 의 3단계

Descriptive -> Predictive -> Prescriptive

 

데이터 분석의 과정 

1. 요건정의

- 문제정의

- 분석대상정의

- 데이터 수집

 

2. 정제 및 탐색

- 데이터 정제

- 데이터 탐색

 

3. 모델링

- 분석기법 적용

- 통계/예측 모델링 분석

 

4. 검증 및 테스트

- 결과해석/검증

- 모델 성능평가

- 분석보고서 작성

- 분석결과 시각화


Basis of AI

DL vs ML vs AI

Artificial Intelligence  >  Machine Learning  >  Deep Learning

 

Machine Learning

- Supervised Learning: Data is labeled with a class or value

- Unsupervised Learning: No knowledge of output / Data is unlabeled or value un-known

- Reinforcement Learning

 

How to select a machine learning algorithm?

출처 - serokell.io

 


 

데이터 전처리 방법

방식

데이터 여과

데이터 변환

데이터 정제

데이터 통합

데이터 축소

 

탐색적 데이터 분석 EDA: Exploratory Data Analysis

수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리, 분석하여 해석하기 쉬운 형태로 만드는 것

"추론 통계/ 모델링 전에 데이터를 충분히 탐색해야 한다."

 

기술통계

범주형 - 빈도분석

연속형 - 분포분석

 

이변량 및 다변량 차트

두 개 이상의 변수에 대한 분석

 

분표 분석(연속형 변수)

1. 위치통계량(Measures of Location) : 대표값, 자료의 중심점

2. 변이통계량(Measures of Dispersion) : 자료의 퍼짐, 정도

3. 모양통계량(Measures of Shape)

 

상관계수

유용하지 않은 경우

1. 이상값 있을 때

2. 비선형일 때


실습

시나리오

- 쇼핑몰 고객의 구매 이력을 활용하여 고객별 구매금액, 구매횟수, 마지막 구입 경과일수 등을 집계하였다. 집계된 정보를 바탕으로 고객의 특성을 파악하고자한다.

- "회사 매출에 가장 중요한 인자는 최근성, 행동 빈도, 구매금액이다"

RFM 방법론을 활용하여 Recency, Frequency, Monetary를 대표하는 변수를 기준으로 고객군을 구성하고 관리하는 코호트(동질집단) 분석을 진행하고자 한다.

 


Classification 분류분석

- Logistic Regression, SVM

- 범주형 또는 이산형 클래스에 대한 예측 모델링

- 정답(Label/Answer/Target)이 필요한 지도 학습(Supervised Learning)

 

Classification 활용 사례

- 고객 이탈 방지

- HR (이직 위험, 이중 첩자 가능성 등)

- 우버 : 술취한 호출자 식별 

 

방법론 

- Logistic Regression, KNN, Naive Bayes, SVM, Decision Tree, Random Forest, Gradient Boosting Tree

 

1. Logistic Regression

- 종속변수 Y가 0 or 1의 이분적인 겨로가를 가짐. (0/1, Y/N, Pass/Fail etc.)

 

원리

Odds

Logit Function : log(Odds) 

 

과정

준비단계 : 

종속변수로 Y를 사용하는 대신에 로짓함수 사용

집단 1에 속하는 확률인 p를 구한다.

p는 [0.1] 사이의 값을 갖는다.

 

1단계 : 각 집단에 속하는 확률의 추정치 예척

2단계 : 추정확률 -> 분류 기준값(Thresholds/Cut-off) 적용 -> 특정 번주로 분류

 

2. K-NN (k-Nearest Neighbor)

k-최근접 이웃 알고리즘

원리Test 데이터와 가까운 k개의 Train 데이터의 y값들을 비교하여

3. Naive-Bayes

베이즈 정리를 적용한 확률 추정 기반 분류

 

4. Support Vector Machine

기계 학습의 분야 중 하나로 패턴인식, 자료 분석을 위한 지도학습 모델로 주로 분류와 회귀분석을 위해 사용Support vector를 기준으로 margin을 최대화 하는 Separating Hyperplane을 찾자

 

5. Decision Tree

의사결정 규칙을 도식화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 회귀하는 계량적 분석 방법

 

Pros

- 시각화하여 결과를 해석하고 이해하기 쉬움- 설명 변수에 대한 정보(중요도, 교호작용) 제공- 자료를 가공할 필요가 거의 없음

Cons

- 과적합의 위험이 있음 (Pruning 및 앙상블 모델 등으로 해결)- 최적의 트리를 보장하지 못함(노드 별 부분 최적값을 찾으며 겨로가가 불안정적일 수 있음)

 

6. Random Forest

- Decision Tree의 overfitting이라는 큰 단점을 보완할 수 있음- 앙상블 방법인 배깅을 이용하여 여러 트리를 생성 후 일반화- 훈련과정에서 구성한 다수의 DT로부터 분류 또는 평균 예측치를 출력- 각 트리는 분류를 제공하고 투표에 의해 가장 많은 득표를 가진 분류 선택

 

7. Gradient Boosting Tree


실습

시나리오

- 통신 서비스의 CRM 담당자, 고객의 탈퇴를 예측하는 모형 만들기- Decision Tree 모형을 이용하여 탈퇴 예측 모형에 사용된 주요 변수를 확인하고, 확인된 주요 변수와 탈퇴 여부간의 관계를 탐색하고자 한다.

 

 

 


 

🐣 1일차 느낀점

역시 삼성인가UI, UX 정말 깔끔하고 사용하기 쉽게 만들어진 툴이라는게 느껴졌다.한방에 영업당한 기분데이터 처리부터 분석까지의 플로우가 한눈에 보여서공부하는 학생 입장에서도 좋은 툴이라고 생각했다.새로운 툴을 사용해서 그런지 재밌고 좋은 시간이라고 생각했다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형