일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- hive
- join
- pca
- 분산분석
- 다중공선성
- 딕셔너리
- cross validation
- SQL on 하둡
- 유사도
- 병렬 쿼리 시스템
- pig
- T-검정
- 분포
- Sawzall
- SPLIT
- 밀도기반
- 가설검정
- 교차검증
- DBSCAN
- dict
- 결정계수
- distribution
- Python
- 데이터프레임
- 하둡
- p-value
- k-means
- list
- DataFrame
- merge
- Today
- Total
one of a kind scene
[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석 본문
연관분석 = 장바구니 분석 = 서열분석
상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하여
IF-THEN의 구조로 분석 결과의 연관성을 파악하는 데이터마이닝 방법론
1. 연관규칙의 척도
① 지지도(support)
• 전체 거래 중 '항목 A'와 '항목 B'를 동시에 포함하는 거래의 비율
• '항목 A'와 '항목 B'를 같이 살 확률
② 신뢰도(confidence)
• 항목 A를 포함한 거래 중에서 '항목 A'와 '항목 B'가 같이 포함된 거래의 비율
• '항목 A'를 샀을때 '항목 A'와 '항목 B'를 같이 살 확률
③ 향상도(lift)
• 그냥 '항목 B'만 샀을때 대비 '항목 A'를 구매하고 '항목 B'를 구매할 확률의 증가비
④ 향상도 해석
• 연관규칙 A → B는 구매가 서로 관련이 없는 경우 향상도가 1이됨
• '항목 A'와 '항목 B'의 향상도 = 1 이라면 → 전혀 향상되지 않았다
• '항목 A'와 '항목 B'의 향상도 = 3.xxx 이라면
→ B만 살때보다 A를 샀을때 B를 살 확률이 3.xxx배 높다
⑤ 순차패턴(Sequence Analysis)
• 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것
• 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함됨
2. 연관규칙의 장점과 단점
장점 | 단점 |
• 탐색적인 기법으로 조건 반응으로 표현되는 연관성분석의 결과를 쉽게 이해할 수 있다 • 강력한 비목적성 분석기법으로 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용됨 • 사용이 편리한 분석 데이터의 형태로 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료 구조를 갖는다 • 분석을 위한 계산이 간단(품목이 많지 않다는 전제 하에) |
• 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다 - 유사한 품목을 한 범주로 일반화 - 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외 • 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수도 있다 - 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후 그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행 • 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견 시 제외하기 쉬움 - 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함시킬 수 있음 |
3. 기존 연관분석의 이슈
• 대용량 데이터에 대한 연관성분석이 불가
• 시간이 많이 걸기거나 기존 시스템에서 실행 시 시스템 다운되는 현상 발생
4. 최근 연관성분석 동향 및 알고리즘 별 장.단점
특징 | 장점 | 단점 | |
1세대 Apriori 알고리즘 |
• 부분집합의 개수를 줄이는 방식 • 최소지지도보다 큰 지지도값을 갖는 빈발항목집합(frequent item set)에 대해서만 연관규칙을 계산 |
• 알고리즘 구현과 이해가 쉬움 | • 아이템 개수가 많아지면 계산 복잡도가 증가 |
2세대 FP-Growth 알고리즘 |
• Aprioir 알고리즘의 약점을 보완 • 후보 빈발항목집합을 생성하지 않고 • FP-Tree(Frequent Pattern Tree)를 만든 후 분할 정복 방식을 통해 빈발항목집합을 추출 |
• Apriori 알고리즘 보다 빠르게 빈발항목집합을 추출 • 데이터베이스를 스캔하는 횟수가 작고 빠른 속도로 분석 가능 |
|
3세대 FPV | • 메모리를 효율적으로 사용해 SKU 레벨의 연관성분석 가능 |