one of a kind scene

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석 본문

카테고리 없음

[ADP 대비] 5장_6절 정형 데이터 마이닝_연관분석

specialscene 2020. 2. 3. 00:00

연관분석 = 장바구니 분석 = 서열분석

상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하여 

IF-THEN의 구조로 분석 결과의 연관성을 파악하는 데이터마이닝 방법론

 

1. 연관규칙의 척도

     ① 지지도(support)

          • 전체 거래 중 '항목 A'와 '항목 B'를 동시에 포함하는 거래의 비율

          • '항목 A'와 '항목 B'를 같이 살 확률

(그림1) 지지도

     ② 신뢰도(confidence)

          • 항목 A를 포함한 거래 중에서 '항목 A'와 '항목 B'가 같이 포함된 거래의 비율

          • '항목 A'를 샀을때 '항목 A'와 '항목 B'를 같이 살 확률

(그림2) 신뢰도

     ③ 향상도(lift)

          • 그냥 '항목 B'만 샀을때 대비 '항목 A'를 구매하고 '항목 B'를 구매할 확률의 증가비

(그림3) 향상도

 

(그림4) 지지도 vs 신뢰도 vs 향상도

      향상도 해석

          • 연관규칙 A → B는 구매가 서로 관련이 없는 경우 향상도가 1이됨

          • '항목 A'와 '항목 B'의 향상도 = 1 이라면 → 전혀 향상되지 않았다

          • '항목 A'와 '항목 B'의 향상도 = 3.xxx 이라면 

             → B만 살때보다 A를 샀을때 B를 살 확률이 3.xxx배 높다

 

      순차패턴(Sequence Analysis)

          • 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것

          • 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함됨

 

2. 연관규칙의 장점과 단점

장점 단점
탐색적인 기법으로 조건 반응으로 표현되는 연관성분석의
  결과를 쉽게 이해할 수 있다
강력한 비목적성 분석기법으로 분석 방향이나 목적이
  특별히 없는 경우 목적변수가 없으므로 유용하게 활용됨
사용이 편리한 분석 데이터의 형태로 거래 내용에 대한
  데이터를 변환 없이 그 자체로 이용할 수 있는 간단한
  자료 구조를 갖는다
분석을 위한 계산이 간단(품목이 많지 않다는 전제 하에)
품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다
  - 유사한 품목을 한 범주로 일반화
  - 연관 규칙의 신뢰도 하한을 새롭게 정의해 실제 드물게 
     관찰되는 의미가 적은 연관규칙은 제외
너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 의미없는 분석이 될 수도 있다
  - 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후
      그 결과 중에서 세부적으로 연관규칙을 찾는 작업을 수행
거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견 시 제외하기 쉬움
   - 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면
     유사한 품목들과 함께 범주로 구성하는 방법 등을 통해
     연관성 규칙의 과정에 포함시킬 수 있음

3. 기존 연관분석의 이슈

     • 대용량 데이터에 대한 연관성분석이 불가

     • 시간이 많이 걸기거나 기존 시스템에서 실행 시 시스템 다운되는 현상 발생

 

4. 최근 연관성분석 동향 및 알고리즘 별 장.단점

  특징 장점 단점
1세대 Apriori
알고리즘
 부분집합의 개수를 줄이는 방식
 최소지지도보다 큰 지지도값을 갖는
  빈발항목집합(frequent item set)에
  대해서만 연관규칙을 계산
 알고리즘 구현과 이해가 쉬움 아이템 개수가 많아지면
  계산 복잡도가 증가
2세대 FP-Growth
알고리즘
 Aprioir 알고리즘의 약점을 보완
 후보 빈발항목집합을 생성하지 않고
• FP-Tree(Frequent Pattern Tree)를
  만든 후 분할 정복 방식을 통해
  빈발항목집합을 추출
 Apriori 알고리즘 보다
  빠르게 빈발항목집합을 추출
데이터베이스를 스캔하는
  횟수가 작고 빠른 속도로
  분석 가능
 
3세대 FPV  메모리를 효율적으로 사용해
  SKU 레벨의
연관성분석 가능