ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 1일차(36 ~ 43)
    책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 21. 00:17
    반응형

    몇몇 코드는 제가 이해하기 쉽게 코드를 수정하거나 새로 만들었기 때문에 책에 나온 코드와 다를 수 있거나 책에 코드가 아예 없을 수도 있습니다.


    ---------------------------------------------------------------------------------------------------------------------


    어떤 텍스트 파일에 대하여 가장 많이 언급되는 단어 상위 n개를 출력하는 방법이 총 세 가지로 소개되어 있습니다.


    1. sort를 이용하여 직접 구현하기




    2. collections.Counter 모듈의 most_common을 이용하기 (가장 많이 언급된 상위 n개를 tuple로 되돌려줍니다.)

    ex) D=[1, 2, 2, 1, 3, 5, 1, 4, 4, 3, 2, 1, 1] (1: 5개,2: 3개, 3: 2개, 4: 2개, 5: 1개)

    Counter(D).most_common(2) ----> [(1, 5), (2, 3)]



    3.pandas 모듈의 Dataframe 이용하기

    Dataframe은 표나 스프레드시트라고 생각하면 됩니다.

    제일 예쁘게 나옵니다.

    코드에 나온 value_counts 는 Counter모듈의 most_common과 똑같은 기능을 한다고 생각하시면 됩니다.


    참고로 value_counts(nomalize=True)를 이용하면 한 단어가 나올 확률을 출력합니다.(어떤 빈도수 / 모든 빈도수의 합)

    나중에 어딘가 쓰일 일이 있을 것 같아서 적어봅니다. 상위 10개만 출력했기 때문에 합이 1.00이 안되는 것은 당연합니다.


    코드를 보니까 fillna도 무슨 역할을 하는지 궁금합니다.

    찾아보니까 결측값(없는 값 or 존재하지 않는 값)을 특정한 값으로 채워주는 역할을 한다고 합니다.

    여기 코드에서는 결측값을 Missing으로 처리했지만 Missing이 보이게 코드를 수정했는데 결측값이 없습니다.

    그래서 https://rfriend.tistory.com/262 여기에 들어가서 보시면 됩니다. 잘 설명되어 있습니다. 하지만 알아야 할 내용이 너무 많습니다.

    공부 시작부터 모르는 것을 많이 외우면 흥미가 떨어지니까 [1], [2]+[3]만 보면 될 것 같습니다.



    ---------------------------------------------------------------------------------------------------------------------------------------------------------


    그래프 만들기



    %matplotlib inline은 주피터 노트북에서 바로 시각자료를 볼 수 있게 하는 명령어입니다.

    plot은 그래프를 만든다는 명령어이고, kind = 'barh' 는 가로 막대 선, rot = 0은 지금 그래프에 나와있는 나라/지역 글자의 기울기를 설정하는 명령어 입니다.

    kind는 어떤지 알겠지만, rot에 대해 감이 잘 잡히지 않습니다. 만약 rot=10일 경우



    이렇게 나옵니다.







    ----------------------------------------------------------------------------------------------------------------------------------------------------



    블로그에 글 쓰면서 배우니까 엄청 느립니다. 두 시간 동안 단 네 장 나갔습니다. ㅠㅠ

    그래도 기억은 잘 남네요.

    다시 책을 읽기는 싫으니 여기에 꼼꼼하게 기록해야겠습니다.

    반응형

    ' > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

    5일차(135 ~ 155)  (0) 2019.03.25
    4일차(115 ~ 134)  (0) 2019.03.25
    3-2일차(55 ~ 70)  (0) 2019.03.23
    3-1일차(47 ~ 54)  (0) 2019.03.22
    2일차(44 ~ 47)  (0) 2019.03.21

    댓글

Designed by Tistory.