Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- p-value
- 다중공선성
- 병렬 쿼리 시스템
- cross validation
- merge
- 결정계수
- hive
- dict
- 분포
- list
- 가설검정
- T-검정
- distribution
- 유사도
- DBSCAN
- Python
- DataFrame
- 하둡
- SQL on 하둡
- 데이터프레임
- 분산분석
- k-means
- join
- Sawzall
- 교차검증
- pca
- pig
- 밀도기반
- SPLIT
- 딕셔너리
Archives
- Today
- Total
목록요약변수 (1)
one of a kind scene
[ADP 대비] 요약변수 vs 파생변수
① 요약변수 - 수집된 정보를 분석에 맞게 종합(aggregate)한 변수 - 데이터 마트에서 가장 기본적인 변수 : 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 반들어지는 변수 - 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음 ※ 단순 종합한 함수라는 느낌이 듦 - (예) 단어 빈도, 상품별 구매 금액, 상품별 구매 순서 ② 파생변수 - 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야함 - 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용 - 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있음 ※ 주관적인 변수 느낌이 듦 - (예) 구매상품 다양성 변수,..
카테고리 없음
2020. 1. 12. 01:36