한 번에 하나씩의 설명을 하면서, 예측 가능한 규칙들의 집합을 생성하는 알고리즘을 의사결정 나무(Decision Tree)라고 하는데요. 스무고개와 아주 비슷하지요. 의사결정 나무를 데이터를 분석하여 그 패턴을 예측 가능한 규칙으로 나타내는 모양이 나무와도 같습니다. 정확히는 나무를 뒤집어 높은 것과 같은 모양인데요.
1. 의사결정나무의 특징
- 맨 위의 마디를 뿌리 노드(root node)라 하며, 이는 모든 분류 대상이 되는 모든 자료 집단을 포함한다.
- 상위 마디를 부모 마디, 하위 마디를 자식 마디라 하며, 더이상 분기되지 않는 마디를 최종 노드(terminal node)라고 부른다.
- 가지 분할은 나무의 가지를 생성하는 과정을 말하고, 가지치기(pruning)는 생성된 가지를 잘라내어서, 모형을 단순화하는 과정을 말한다.
- 분기가 거듭될수록 그에 해당하는 데이터의 개수는 줄어든다.
- 상위 노드로부터, 하위 노드로 트리구조를 형성하는 모든 단계마다 기준값의 선택이 중요하다.
- 분류(classification)와 회귀(regression)가 모두 가능하다.
- 목표 변수가 이산형인 경우 분류나무, 목표 변수가 연속형인 경우에는 회기 나무로 구분된다.
2. 의사결정나무의 장점
- 범주와 연속형 수치를 모두 예측할 수 있다.
- 구조가 단순하여 해석이 용이하고, 유용한 입력 변수의 파악, 예측 변수 간의 상호작용, 비 선형성을 고려하여 수학적 가정이 불필요한 비모수적 모형이다.
- 시장조사, 광고조사, 의학연구, 품질관리 등 다양한 분야에서 활용되고 있다.
- 고객 타겟팅, 고객의 신용점수화, 캠페인에 대한 반응, 고객 행동 예측 등에 유용하다.
3. 의사결정나무의 단점
- 분류 기준값의 경계선 근방의 자료 값에 대해서는 오차가 클 수 있다.
- 로지스틱 회귀와 같이 각 예측 변수의 효과를 파악하기 어렵다.
- 새로운 자료에 대한 예측이 불안정할 수 있다.
- 상위 노드로부터, 하위 노드로 트리구조를 형성하는 모든 단계마다 기준값의 선택이 중요하다.
'AI교육' 카테고리의 다른 글
AI웹툰 플랫폼, 투닝(tooning)- 교육자용 PRO무료 사용 방법 (0) | 2022.06.08 |
---|---|
맛있는 바나나와 멋진 펭귄을 찾아주는 의사결정나무 활동 후기(feat. CIA인공지능교사교육연구회) (0) | 2022.05.24 |
쏠리, 신한은행 AI 인공지능 상담서비스로 보는 미래 직업 (0) | 2022.05.15 |
통그라미: 데이터 시각화를 이용하는 방법 (ft. 대한민국 통계청) (0) | 2022.03.13 |
과학교육에서 인공지능과 데이터 시각화를 적용하는 방법 (0) | 2022.03.13 |
댓글