일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 분포
- list
- 유사도
- 딕셔너리
- join
- k-means
- T-검정
- SQL on 하둡
- DataFrame
- SPLIT
- p-value
- 데이터프레임
- 다중공선성
- pig
- dict
- 결정계수
- Sawzall
- 교차검증
- DBSCAN
- 분산분석
- 가설검정
- pca
- 병렬 쿼리 시스템
- 하둡
- hive
- cross validation
- 밀도기반
- Python
- merge
- distribution
- Today
- Total
목록DataFrame (3)
one of a kind scene
(언제 사용?) 데이터 프레임을 특정 칼럼을 기준으로 정렬하게되면 index를 reset해줄 필요가 있기때문에 정렬방법과 index를 reset하는 방법을 알아야함 (예시 코드) # 1) 내림차순으로 정렬하기 ''' axis = 0 하면 세로방향으로 있는 데이터 정렬(우리가 흔히 쓰는거) 따라서 by = '칼럼이름' axis = 1 하면 가로방향으로 있는 데이터 정렬 따라서 by = 'row번호' ''' # ascending=False 하면 내림차순 df = df.sort_values(by=['칼럼1'], axis=0, ascending = False) # 2) index reset하기 df = df.reset_index(drop=True) (참고 url) https://pandas.pydata.org/..
(언제 사용?) 어떤 특정 dataframe df1을 가공하여 새로운 dataframe df2를 만들때, 빈 데이터 프레임을 만들어서 value들을 채워나갈때 빈 데이터 프레임이 필요 (빈 데이터 프레임 df2를 만드는 코드) df2 = pd.DataFrame(index=range(0,원하는 행갯수), columns=['칼럼이름1', '칼럼이름2']) df1에서 가공한 내용을 df2에 넣으면 됨
(상황) df1과 df2라는 데이터프레임이 있는데, userID라는 키를 가지고 left join하여 df3를 만들고자 한다 (코드) df3 = pd.merge(df1, df2, how ='left', on = 'userID') (merge 해석) 1) merge의 how인자에 join 방식을 적어주면 된다. - inner join은 how = 'inner'라고 하거나 how인자를 아예 안써주면 inner join - left join은 how = 'left' 라고 써준다 - right join은 how = 'right' 라고 써준다 - outer join은 how = 'outer' 라고 써준다 2) on인자에는 key값을 적어주면 된다 - on = 'userID'는 키값으로 userID로 설정한다는 의미