[ADP 대비] 5장_6절 정형 데이터 마이닝

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

one of a kind scene

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석 본문

카테고리 없음

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석

specialscene 2020. 2. 3. 00:00

연관분석 = 장바구니 분석 = 서열분석

상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하여

IF-THEN의 구조로 분석 결과의 연관성을 파악하는 데이터마이닝 방법론

1. 연관규칙의 척도

① 지지도(support)

• 전체 거래 중 '항목 A'와 '항목 B'를 동시에 포함하는 거래의 비율

• '항목 A'와 '항목 B'를 같이 살 확률

② 신뢰도(confidence)

• 항목 A를 포함한 거래 중에서 '항목 A'와 '항목 B'가 같이 포함된 거래의 비율

• '항목 A'를 샀을때 '항목 A'와 '항목 B'를 같이 살 확률

③ 향상도(lift)

• 그냥 '항목 B'만 샀을때 대비 '항목 A'를 구매하고 '항목 B'를 구매할 확률의 증가비

④ 향상도 해석

• 연관규칙 A → B는 구매가 서로 관련이 없는 경우 향상도가 1이됨

• '항목 A'와 '항목 B'의 향상도 = 1 이라면 → 전혀 향상되지 않았다

• '항목 A'와 '항목 B'의 향상도 = 3.xxx 이라면

→ B만 살때보다 A를 샀을때 B를 살 확률이 3.xxx배 높다

⑤ 순차패턴(Sequence Analysis)

• 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것

• 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함됨

2. 연관규칙의 장점과 단점

장점

단점

• 탐색적인 기법으로 조건 반응으로 표현되는 연관성분석의
결과를 쉽게 이해할 수 있다
• 강력한 비목적성 분석기법으로 분석 방향이나 목적이
특별히 없는 경우 목적변수가 없으므로 유용하게 활용됨
• 사용이 편리한 분석 데이터의 형태로 거래 내용에 대한
데이터를 변환 없이 그 자체로 이용할 수 있는 간단한
자료 구조를 갖는다
• 분석을 위한 계산이 간단(품목이 많지 않다는 전제 하에)

• 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다
- 유사한 품목을 한 범주로 일반화
- 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게
관찰되는 의미가 적은 연관규칙은 제외
• 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수도 있다
- 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후
그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행
• 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견 시 제외하기 쉬움
- 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면
유사한 품목들과 함께 범주로 구성하는 방법 등을 통해
연관성 규칙의 과정에 포함시킬 수 있음

3. 기존 연관분석의 이슈

• 대용량 데이터에 대한 연관성분석이 불가

• 시간이 많이 걸기거나 기존 시스템에서 실행 시 시스템 다운되는 현상 발생

4. 최근 연관성분석 동향 및 알고리즘 별 장.단점

	특징	장점	단점
1세대 Apriori 알고리즘	• 부분집합의 개수를 줄이는 방식 • 최소지지도보다 큰 지지도값을 갖는 빈발항목집합(frequent item set)에 대해서만 연관규칙을 계산	• 알고리즘 구현과 이해가 쉬움	• 아이템 개수가 많아지면 계산 복잡도가 증가
2세대 FP-Growth 알고리즘	• Aprioir 알고리즘의 약점을 보완 • 후보 빈발항목집합을 생성하지 않고 • FP-Tree(Frequent Pattern Tree)를 만든 후 분할 정복 방식을 통해 빈발항목집합을 추출	• Apriori 알고리즘 보다 빠르게 빈발항목집합을 추출 • 데이터베이스를 스캔하는 횟수가 작고 빠른 속도로 분석 가능
3세대 FPV	• 메모리를 효율적으로 사용해 SKU 레벨의 연관성분석 가능

one of a kind scene

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석 본문

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석

연관분석 = 장바구니 분석 = 서열분석

티스토리툴바