일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- DataFrame
- 분포
- join
- Python
- distribution
- SPLIT
- 하둡
- DBSCAN
- 다중공선성
- Sawzall
- 분산분석
- k-means
- SQL on 하둡
- p-value
- dict
- cross validation
- 밀도기반
- merge
- 병렬 쿼리 시스템
- 가설검정
- T-검정
- 유사도
- 결정계수
- pca
- 딕셔너리
- hive
- list
- 교차검증
- 데이터프레임
- pig
- Today
- Total
목록분류 전체보기 (90)
one of a kind scene
t-검정(t-test) - 언제 사용? : 두 집단의 평균이 동일한지 알고자 할 때 실시 : 확률변수가 연속형일 때 검정 가능 - 종류 ① 일표본 t-검정(one sample t-test) : 단일모집단에서 관심이 있는 연속형 변수의 평균(μ)값을 특정 기준값과 비교하고자 할 때 사용 ex) A과수원에서 생산되는 사과 무게가 평균 200g으로 알려져있는데, 실제로 그러한지 알아보기 위해 사과 15개를 임의로 뽑아서 무게를 측정. 이 측정치를 가지고 특정 기준값(=평균 200g)과 같다고 할 수 있는지 검정 ② 대응표본 t-검정(paired sample t-test) : 단일모집단에 대해 두 번의 처리를 가했을 때, 두 개의 처리에 따른 평균의 차이를 비교하고자 할 때 사용하는 검정 ex) 10명의 환자를..

1. 이산확률분포 - 정의 : 확률변수가 가질 수 있는 값이 명확하고 셀 수 있는 경우의 분포 - 확률값 표현 : 확률질량함수(PMF : probability mass function) - 종류 ① 베르누이 확률분포 : 결과가 2개만 나오는 경우 ex) 동전던지기, 합격/불합격 ② 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률 ※ 이항분포의 가정 ⓐ n의 값은 미리 정해져 있다 ⓑ 매 번의 시행은 상호 독립 ⓒ p는 매 시행마다 동일하다. ③ 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률 ex) A라는 야구선수가 5번 타석에 들어와서 3번째 타석에서 안타 칠 확률 → 기하분포를 따름 ※ 성공확률 p는 일정 if 성공확률 p가 일정하지 않다면, 초..

차원축소 알고리즘인 PCA알고리즘에 대해서 정리하고자 함 PCA를 왜 쓰는지 그리고 쓰면 머가 좋은지에 대해서 결론적인 얘기만 하고자함 흔히, PCA 알고리즘을 차원축소 알고리즘으로 알고있다. 그렇기 때문에 면접때 PCA를 왜 사용했냐고 물어봤을때, 단순히 차원을 축소하기 위해서 썻다고 답변하는 경우가 허다하다. (이 답변은 30점 정도 줄 수 있는 답변이다.) PCA를 사용하면 다중공선성 문제, 차원의 저주 문제를 해결할 수 있고, 차원을 축소해주기때문에 사람이 쉽게 관찰하고 이해할 수 있는 2차원으로 데이터들을 보여줄 수 있기때문에 사용했다고 답변해야 좋은 답변이라 할 수 있다. PCA는 어떤 알고리즘인가? PCA는 차원축소 알고리즘으로 생각하기보다는 기존 변수를 조합해 새로운 변수를 만드는 변수 추..
Heap의 특징 a = [3, 8, 5, 2] heapq.heapify(a) print(a) - 원소들이 항상 정렬된 상태로 추가되고 삭제됨(binary tree 기반) - 최소 힙(min heap)이라고 칭함 - 최소 힙은 root 즉 idx 0에 위치한 값이 가장 작고 자식들은 root보다 같거나 작음 - 즉, 최소 힙의 root는 최소값이니 이 성질을 잘 기억하자 - 따라서, 노드들도 자식들보다 같거나 작음 1. 내장모듈 heapq 불러오기 import heapq 2. heap 생성하기 - heapq 모듈을 사용하면 python의 일반 리스트를 heap 구조로 사용할 수 있게해줌 heap = [] 3. 힙에 element 넣어주기 : heappush( ) heapq.heappush(heap, 6)..

[ip주소] node-master : 192.168.219.113 node1 : 192.168.219.167 node2 : 192.168.56.114 [필수 설치 목록] openssh-server : ssh server 및 client설치(서버가 없으면 다른 머신으로 접속 불가) ※ server만 설치하고 싶으면 ssh만 설치하면됨 sudo apt-get install ssh scp : 머신간 파일 전송 가능하게 해줌 sudo apt-get install openssh-server scp [keygen을 활용한 키생성 및 localhost 테스트] 아래 작업은 node-master 머신에서 실행한 것 ssh-keygen -t rsa 정상적을 실행됐다면 위와같은 화면을 볼 수 있음 (Overwrit (y/..
VirtualBox로 가상머신 생성하는 단계는 생략함 [간단 요약] - master에서는 3개의 설정파일에서 세팅하면 됨 - slave1, slave2에서는 1개의 설정파일세서만 세팅하면 됨 이렇게 하면 ganglia로 모니터링 할 수 있음 ----------------------------------------------------------------------------------------------------------------------------------- [준비단계] 가상머신은 총 3대를 생성하였고 Ubuntu 16.04 LTS 버젼이 깔려있음 1) master 2) slave1 3) slave2 이하 master, slave1, slave2로 명명되는건 가상머신을 뜻함 [가상머신 네트..