일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- cross validation
- pig
- DataFrame
- 데이터프레임
- pca
- Python
- p-value
- SQL on 하둡
- 딕셔너리
- 하둡
- k-means
- merge
- 유사도
- distribution
- dict
- 밀도기반
- hive
- Sawzall
- T-검정
- 가설검정
- 분포
- 다중공선성
- 교차검증
- DBSCAN
- SPLIT
- 분산분석
- join
- 결정계수
- 병렬 쿼리 시스템
- list
- Today
- Total
목록Python (11)
one of a kind scene
(언제 사용?) 데이터 프레임을 특정 칼럼을 기준으로 정렬하게되면 index를 reset해줄 필요가 있기때문에 정렬방법과 index를 reset하는 방법을 알아야함 (예시 코드) # 1) 내림차순으로 정렬하기 ''' axis = 0 하면 세로방향으로 있는 데이터 정렬(우리가 흔히 쓰는거) 따라서 by = '칼럼이름' axis = 1 하면 가로방향으로 있는 데이터 정렬 따라서 by = 'row번호' ''' # ascending=False 하면 내림차순 df = df.sort_values(by=['칼럼1'], axis=0, ascending = False) # 2) index reset하기 df = df.reset_index(drop=True) (참고 url) https://pandas.pydata.org/..
(언제 사용?) 어떤 특정 dataframe df1을 가공하여 새로운 dataframe df2를 만들때, 빈 데이터 프레임을 만들어서 value들을 채워나갈때 빈 데이터 프레임이 필요 (빈 데이터 프레임 df2를 만드는 코드) df2 = pd.DataFrame(index=range(0,원하는 행갯수), columns=['칼럼이름1', '칼럼이름2']) df1에서 가공한 내용을 df2에 넣으면 됨
(상황) df1과 df2라는 데이터프레임이 있는데, userID라는 키를 가지고 left join하여 df3를 만들고자 한다 (코드) df3 = pd.merge(df1, df2, how ='left', on = 'userID') (merge 해석) 1) merge의 how인자에 join 방식을 적어주면 된다. - inner join은 how = 'inner'라고 하거나 how인자를 아예 안써주면 inner join - left join은 how = 'left' 라고 써준다 - right join은 how = 'right' 라고 써준다 - outer join은 how = 'outer' 라고 써준다 2) on인자에는 key값을 적어주면 된다 - on = 'userID'는 키값으로 userID로 설정한다는 의미
(상황) 데이터 프레임이 아래와 같을때 column1과 column2의 코사인 유사도를 계산하려고 한다 (데이터) df로 명명 idx column1 column2 column3 1 [1,0,1] [1,1,0] # cosin_similarity를 구하기 위한 라이브러리 import from sklearn.metrics.pairwise import cosine_similarity # cosine_similariy 계산해줄 수 있는 함수 cos_sim 정의 # 인자 a,b는 list형식으로 들어온다고 가정 # reshape은 계산 가능한 형태로 만들어주기 위해 해주는 것 def cos_sim(a,b): similarity = cosine_similarity(np.array(a).reshape(1,len(a))..
Heap의 특징 a = [3, 8, 5, 2] heapq.heapify(a) print(a) - 원소들이 항상 정렬된 상태로 추가되고 삭제됨(binary tree 기반) - 최소 힙(min heap)이라고 칭함 - 최소 힙은 root 즉 idx 0에 위치한 값이 가장 작고 자식들은 root보다 같거나 작음 - 즉, 최소 힙의 root는 최소값이니 이 성질을 잘 기억하자 - 따라서, 노드들도 자식들보다 같거나 작음 1. 내장모듈 heapq 불러오기 import heapq 2. heap 생성하기 - heapq 모듈을 사용하면 python의 일반 리스트를 heap 구조로 사용할 수 있게해줌 heap = [] 3. 힙에 element 넣어주기 : heappush( ) heapq.heappush(heap, 6)..