3-1일차(47 ~ 54)

책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 22. 11:25

이번엔 MovieLens의 고객 정보, 영화 평점, 영화 정보로 총 세 가지의 데이터를 가지고 분석하는 예제입니다.

이번 글은 사진이 없습니다.

사진을 통해 이해 해야 할 내용이 없습니다.

------------------------------------------------------------------------------------------------------------------------

os.path 모듈은 파일 경로, 파일 정보를 쉽게 수정하는 모듈이라고 합니다.

expanduser는 ~ 를 붙이면 C:/Users를 대체해주는 모양입니다. 그래서 제 경우에는 upath = '~다빈/Desktop/users.dat.txt' 로 해주었고 rpath, mpath도 비슷하게 했습니다. 만약 이름 부분(밑줄 친 곳)이 users로 되어있다면 '~Desktop/user.dat.txt' 해도 되는 것 같습니다.

그다음 49쪽 맨 아래 코드에 merge라는 명령어가 나옵니다.

알아야 할 점은 한 개의 merge로는 두 개의 dataframe만 합칠 수 있다는 것입니다. 그래서 만약 A, B, C 총 3개의 dataframe을 합칠려면 merge(merge(A, B), C) 로 merge명령어를 두 번 써야 합니다. 이 부분은 좀 아쉽네요.

그리고 중복되는 정보는 알아서 한 개만 dataframe에 나오게 해줍니다.

50쪽에 ix라는 명령어가 나옵니다. 하지만 주피터 노트북에서 ix를 실행해보면 더 이상 사용하지 않는 명령어라고 합니다. 출력은 제대로 나오긴 하지만 나중에 업데이트 하면 경고창이 사라지고, 출력도 제대로 안나올지 모르니 loc, iloc을 사용하는 것을 권장합니다.

ix, loc, iloc에 대한 설명은 http://yeyej.blogspot.com/2016/02/pandas-dataframe-iloc-loc-ix.html 여기에 잘 설명되어 있습니다.

51쪽 pivot_table은 많은 양의 데이터에서 필요한 자료를 뽑아 새롭게 작성하는 명령어라고 합니다.

pivot_table안에 있는 aggfunc는 값을 어떻게 표현할 것인지 결정하는 것 같은데 np.mean을 넣으면 평균으로, np.sum을 넣으면 합계로 나오게 해주는 기능이라고 합니다.

52쪽에 나오는 sort_index은 정렬을 하는 명령어 입니다. 하지만 실행시 더 이상 사용하지 않는 명령어라고 합니다.

그래서 혹시 모르니 sort_values를 사용하는 것을 권장합니다.

by는 어떤 기준으로 정렬을 할 것인지 정해주는 기능입니다.

ascending은 내림차순/오름차순을 결정합니다.

신기하게도 53쪽에는 sort_values를 사용하네요

54쪽 아래 코드에 groupby()['rating'].std()라는 내용이 있습니다. std는 표준편차의 줄임말이라고 합니다.

그러면 rating_std_by_title이라는 것은 'title'에서 'active_titles'만 뽑은 dataframe을 'rating'의 표준편차를 기준으로 내림차순을 한 dataframe이라고 할 수 있겠네요.

저작자표시 (새창열림)

'책 > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

5일차(135 ~ 155) (0)	2019.03.25
4일차(115 ~ 134) (0)	2019.03.25
3-2일차(55 ~ 70) (0)	2019.03.23
2일차(44 ~ 47) (0)	2019.03.21
1일차(36 ~ 43) (0)	2019.03.21

ABOUT ME

70825 70825

'책 > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'책 > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바