일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- T-검정
- SPLIT
- 유사도
- p-value
- merge
- pig
- join
- 병렬 쿼리 시스템
- 결정계수
- DBSCAN
- DataFrame
- cross validation
- 분포
- 데이터프레임
- 분산분석
- pca
- hive
- Python
- 밀도기반
- SQL on 하둡
- distribution
- 딕셔너리
- 다중공선성
- 하둡
- 가설검정
- k-means
- Sawzall
- list
- 교차검증
- dict
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
- 검정통계량 : 관찰된 표본으로부터 구하는 통게량, 검정 시 가설의 진위를 판단하는 기준 - 유의확률 : 검정통계량을 바탕으로 계산된 확률, 검정통계량을 유의수준과 비교할 수 있는 척도로 변환한 것 - 유의수준(p-value, ɑ) : 귀무가설을 기각하는 기준이 되는 확률 - 기각역 : 확률분포에서 극단값에서 유의수준까지의 범위, 기각역내에 들어오면 귀무가설 기각
통계분석이란? 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정 통계분석 방법론 1. 기술통계(descriptive statistic) • 주어진 자료에서 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석방법론 • Sample에 대한 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미 2. 통계적 추론(추측/추론 통계, inference statistics) • 수집된 자료를 이용해 모집단에 대한 의사결정을 하는 것으로 Sample을 통해 모집단을 추정하는 것 ① 모수추정 • 표본집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론하는..

표본 추출 방법 1. 단순랜덤 추출법(simple random sampling) • 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법(단순 랜덤) • 각 샘플은 선택될 확률이 동일 2. 계통추출법(systematic sampling) : 등차수열 떠올리자, n개마다 추출 • 데이터가 N개 있을때, K개씩 n번 뽑는 방식 • 첫구간 1~K번째에 있는 데이터 중에 임의로 한개 뽑은 후 K개씩 띄어서 표본을 추출 3. 집락추출법(cluster random sampling) • 군집을 구분하고 군집별로 단순랜덤 추출 수행 → 추출된 자료를 모두 활용하거나 샘플링하여 활용 • 집단 내 = 이질적 / 집단 간 = 동질적 • 장점 : 시간과 비용이 절감됨, 전체모집단의 목록표 작성하지 않아도됨, 각 집락뿐만 아..

1. 결측값 인식 구분 Python R 결측값 표기 NaN, None NA 2. 결측값 처리 방법 ※ imputation : 대치, 대체 / stochastic : 확률적인 방법 → 표본을 통해 모수를 추측하는거 (예) SGD, Stochastic Imputation ① 단순 대치법(Single Imputation) • completes analysis - 결측값이 존재하는 레코드를 삭제 • 평균대치법(Mean imputation) - 데이터의 평균으로 대치 - 비조건부 평균 대치법 : 관측데이터의 평균으로 대치 - 조건부 평균 대치법 : 회귀분석을 활용한 대치법 • 단순확률 대치법(Single Stochastic Imputation) - 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안..
① 요약변수 - 수집된 정보를 분석에 맞게 종합(aggregate)한 변수 - 데이터 마트에서 가장 기본적인 변수 : 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 반들어지는 변수 - 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음 ※ 단순 종합한 함수라는 느낌이 듦 - (예) 단어 빈도, 상품별 구매 금액, 상품별 구매 순서 ② 파생변수 - 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야함 - 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용 - 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있음 ※ 주관적인 변수 느낌이 듦 - (예) 구매상품 다양성 변수,..

적용 업무의 특성에 따라 분석 방법 모델을 폭포수 모델(Waterfall Model)과 애자일 모델(Agile Model)로 구분한다. 하향식 방법의 대표 모델이 폭포수 모델이고, 상향식 방법의 대표 모델은 애자일 모델이다. 애자일 모델에는 프로토타입 모델과 나선형 모델이 있다. ※ 애자일(Agile) : 민첩한, 날렵한 이라는 뜻 1. 폭포수 모델(Waterfall Model) vs 애자일 모델(Agile Model) 비교 ① 폭포수 모델 • 사전에 전체적인 플랜을 짜고 플랜에 맞게 순차적으로 진행 • 단계를 순차적으로 진행하는 방법, 이전 단계가 완료되어야 다음 단계로 진행될 수 있음 ② 애자일 모델 • 문서가 아닌 실질적인 코딩을 통한 방법론 • 전체적인 플랜을 짜고 문서를 통해 주도해 나가던 과거..