일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- list
- 다중공선성
- Sawzall
- 분포
- SQL on 하둡
- p-value
- dict
- pca
- 딕셔너리
- T-검정
- distribution
- hive
- pig
- merge
- 병렬 쿼리 시스템
- 분산분석
- join
- cross validation
- 교차검증
- DBSCAN
- DataFrame
- 밀도기반
- Python
- SPLIT
- 데이터프레임
- k-means
- 하둡
- 결정계수
- 가설검정
- 유사도
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
군집분석 군집분석은 비교사 학습(Unsupervised learning)의 대표적인 방법론 - 계층적 군집분석 : 전통적 군집분석 방법, 군집의 갯수를 제일 나중에 선정 - 비계층적 군집분석 : 군집의 개수를 제일 먼저 선정 1. 계층적 군집 vs 분할적 군집 Linkage Method (참고) *와드 연결법 : 군집내 편차들의 제곱합을 고려한 방법 2. 거리계산 방식 ① 연속형 변수의 경우 구분 특징 유클리디안 거리(=L2 거리) • 가장 많이 사용되는 일반적인 거리계산 방식 • 통계적 개념이내포되지않아 변수들의 산포 정도가 전혀 감안되지 않음 표준화 거리 • 통계적 개념이 내포된 거리계산 방식 • 변수를 표준편차(D)로 척도 변환한 후 유클리디안 거리를 계산하는 방식 • 표준편차로 척도 변환(=표준화..
인공신경망 분석 본문1 크기로 주제 내 소주제에 대한 간단한 정의를 써준다 1. 인공신경망 주요 연구 이슈 • 연결강도(weight)를 조정하는 학습규칙과 퍼셉트론(Perceptron)이라는 인공세포 개발됨 • 비선형성의 한계점 발생 : XOR(Exclusive OR)문제를 풀지 못하는 한계 발생 • 역전파알고리즘(Backpropagation)을 활용하여 비선형성을 극복 → 비선형성을 극복한다계층 퍼셉트론으로 새로운 인공신경망 모형 등장 2. 활성 함수(activation function) = 전이함수 3. 신경망 모형 구축시 고려사항 ① 입력변수 • 신경망 모형은 그 복잡성으로 인하여 입력 자료의 선택에 매우 민감 • 연속형 변수 : 평균을 중심으로 대칭이 아니면 좋지 않은 결과를 도출할 수 있음 (예..
Word2Vec의 장점 1) word2vec은 word를 다차원 벡터(vector)공간에 표현하여 벡터간의 유사도를 계산할 수 있게함 2) 앞뒤 단어를 고려하여 임베딩을 하기 때문에 단어의 문맥상의 의미까지 정량화된 벡터로 표현 가능 희소표현과 분산표현 1. 희소표현(sparse representation) : one-hot encoding은 희소표현 : 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현 이라고 함 : 원-핫 벡터는 희소 벡터(sparse vector) : 원-핫 벡터 단어간의 유사도를 계산할 수 없다는 단점이 있음 : 예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0,..
시계열모형 - 정상시계열 모형 : MA, AR - 비정상시계열 모형 : ARIMA - 보통 시계열 분석은 비정상시계열 모형 → 정상시계열 모형을 바꿔서 분석함 1. 자기회귀 모형(AR 모형, autoregressive model) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형 • p 시점 전의 자료가 현재 자료에 영향을 주는 모형 • AR(1) 모형 : 직전 시점 데이터로만 분석(t, t-1) • AR(2) 모형 : 연속된 3시점 정도의 데이터로 분석(t, t-1, t-2) • 자기상관함수(ACF)는 빠르게 감소하는 형태를 띄고 • 부분자기함수(PACF)의 어느 시점에서 '절단점'을 가진다 • (예) ACF가 빠르게 감소하고, PACF가 3시점에서 절단점을 갖는 그래프가 있다면, 2시점 전의 자..
시계열 자료 분석방법 - 분석 방법의 종류 - 자료 형태에 따른 분석방법 1. 시계열 자료 분석방법 • 회귀분석(계량경제)방법, Box-Jenkins 방법(=ARMA), 지수평활법, 시계열 분해법 등이 있다 (분석 방법의 분류) • 수학적 이론 모형 : 회귀분석(계량경제)방법, Box-Jenkins 방법 • 직관적 방법 : 지수평활법, 시계열 분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용 • 장기 예측 : 회귀분석방법 활용 • 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용 2. 자료 형태에 따른 분석방법 ① 일변량(=단변량) 시계열 분석 : 자주 들어본 모형들은 일변량 시계열 분석임 • Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법, 시간(t)을 설명..
시계열 자료 및 정상성 시게열 자료와 정상성은 무엇인지 알아보자 1. 시계열 자료 개요 • 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 함 • 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용 2. 시계열 자료의 종류 ① 비정상 시계열 자료 • 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 비정상 시계열 자료 ② 정상성 시계열 자료 • 비정상 시게열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료 (결론) • 시계열 분석은 주로 비정상 시계열 자료를 → 정상 시계열 자료로 변환하여 분석함 3. 정상성 • 모든 시점에서 일정한 평균 • 모든 시점에서 일정한 분산 • 공분산은 시점이 아니라 시차에 의존해야함 = 즉, t시점과 t+s시점의 ..