ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 3-1일차(47 ~ 54)
    책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 22. 11:25
    반응형

    이번엔 MovieLens의 고객 정보, 영화 평점, 영화 정보로 총 세 가지의 데이터를 가지고 분석하는 예제입니다.


    이번 글은 사진이 없습니다. 

    사진을 통해 이해 해야 할 내용이 없습니다.




    ------------------------------------------------------------------------------------------------------------------------



    os.path 모듈은 파일 경로, 파일 정보를 쉽게 수정하는 모듈이라고 합니다.

    expanduser는 ~ 를 붙이면 C:/Users를 대체해주는 모양입니다. 그래서 제 경우에는 upath = '~다빈/Desktop/users.dat.txt' 로 해주었고 rpath, mpath도 비슷하게 했습니다. 만약 이름 부분(밑줄 친 곳)이 users로 되어있다면 '~Desktop/user.dat.txt' 해도 되는 것 같습니다.



    그다음 49쪽 맨 아래 코드에 merge라는 명령어가 나옵니다.

    알아야 할 점은 한 개의 merge로는 두 개의 dataframe만 합칠 수 있다는 것입니다. 그래서 만약 A, B, C 총 3개의 dataframe을 합칠려면 merge(merge(A, B), C) 로 merge명령어를 두 번 써야 합니다. 이 부분은 좀 아쉽네요.

    그리고 중복되는 정보는 알아서 한 개만 dataframe에 나오게 해줍니다.



    50쪽에 ix라는 명령어가 나옵니다. 하지만 주피터 노트북에서 ix를 실행해보면 더 이상 사용하지 않는 명령어라고 합니다. 출력은 제대로 나오긴 하지만 나중에 업데이트 하면 경고창이 사라지고, 출력도 제대로 안나올지 모르니 loc, iloc을 사용하는 것을 권장합니다.

    ix, loc, iloc에 대한 설명은 http://yeyej.blogspot.com/2016/02/pandas-dataframe-iloc-loc-ix.html 여기에 잘 설명되어 있습니다.



    51쪽 pivot_table은 많은 양의 데이터에서 필요한 자료를 뽑아 새롭게 작성하는 명령어라고 합니다.

    pivot_table안에 있는 aggfunc는 값을 어떻게 표현할 것인지 결정하는 것 같은데 np.mean을 넣으면 평균으로, np.sum을 넣으면 합계로 나오게 해주는 기능이라고 합니다.



    52쪽에 나오는 sort_index은 정렬을 하는 명령어 입니다. 하지만 실행시 더 이상 사용하지 않는 명령어라고 합니다. 

    그래서 혹시 모르니 sort_values를 사용하는 것을 권장합니다.

    by는 어떤 기준으로 정렬을 할 것인지 정해주는 기능입니다. 

    ascending은 내림차순/오름차순을 결정합니다.

    신기하게도 53쪽에는 sort_values를 사용하네요



    54쪽 아래 코드에 groupby()['rating'].std()라는 내용이 있습니다. std는 표준편차의 줄임말이라고 합니다.

    그러면 rating_std_by_title이라는 것은 'title'에서 'active_titles'만 뽑은 dataframe을 'rating'의 표준편차를 기준으로 내림차순을 한 dataframe이라고 할 수 있겠네요.

    반응형

    ' > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

    5일차(135 ~ 155)  (0) 2019.03.25
    4일차(115 ~ 134)  (0) 2019.03.25
    3-2일차(55 ~ 70)  (0) 2019.03.23
    2일차(44 ~ 47)  (0) 2019.03.21
    1일차(36 ~ 43)  (0) 2019.03.21

    댓글

Designed by Tistory.