ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 13-2일차(445 ~ 475)
    책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 5. 00:36
    반응형

    11장은 10장에서 배운 내용으로 시계열 데이터를 어떻게 처리하는지 예제로만 구성한 챕터 같아 보입니다.

     

    ========================================================

     

     

    align는 정렬한다는 명령어입니다.

     

    BDay는 BusinessDay의 줄임말입니다.

     

    asof는 어떠한 값(들)을 출력하는 명령어라고 생각하면 됩니다. dataframe index에 나오지 않은 값이라면 그 값과 가장 비슷한 index의 값을 찾아 반환시킵니다. ffill을 한 것이라고 생각하면 편합니다. index에 나온 값들의 범위 밖에 있는 값이면 NaN을 반환합니다.

    설명하기가 어려운데 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.asof.html 여기에 나온 예제를 보시면 쉽게 이해할 수 있을 것입니다.

     

    X.combine_first(Y)는 X에 있는 결측 값을 Y에 있는 값으로 변경하고, X와 Y를 합친다는 명령어입니다. combine이랑 유사합니다.

     

    update 는 값을 갱신하는 명령어입니다.

    update명령어에 있는 overwrite인자는 기본 값은 True로 바꿀 수 있는 값은 전부 갱신시켜줍니다. False로 설정시 누락된 값만 갱신하게 됩니다.

     

    p.457에서 get_data_google은 오류가 나옵니다. get_data_yahoo를 사용하면 됩니다.

     

    p.463에서 나온 ols명령어는 삭제되었습니다. statsmodels 모듈에서 사용해야합니다.

    문제는 이걸 어떻게 바꿔야할지 모르겠습니다. 그냥 읽는 것으로 때워야겠습니다.

     

    p.465 에서 In[110]은 그대로 쓰면 오류가 나옵니다. trade_friday = signal.resample('B').ffill() 로 고치면 됩니다.

     

    p.467에 위에 있는 코드는 yahoo로 바꾸면 DELL에서 keyerrror가 나옵니다. 그 이유는 2009~2012의 데이터가 없기 때문입니다. 그래서 저는 기간 자체를 1/1/2017, 6/1/2018 로 바꿔었습니다. 

     

    p.469에 나온 heatmap은 seaborn 모듈을 불러와서 seaborn.heatmap을 해도 됩니다.

     

    p.472에 나온 linspace는 시작점과 끝점을 균일간격으로 나눈 배열을 만드는 명령어입니다. 코드에서는 0에서 1까지 범위를 roll_periods+1개로 나눠서 배열로 저장한다는 것 입니다.

     

     

    드디어 내일 마지막장을 하겠네요

    반응형

    ' > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글

    14일차(477 ~ 516)  (0) 2019.04.05
    13-1일차(425 ~ 444)  (0) 2019.04.04
    12일차(393 ~ 424)  (0) 2019.04.03
    11일차(345 ~ 392)  (0) 2019.04.02
    10일차(305 ~ 344)  (0) 2019.04.01

    댓글

Designed by Tistory.