-
7-1일차(192 ~ 217)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 16:18반응형
skipna는 결측 값을 제외할 것인지, 포함해서 할지 결정해주는 인자입니다. 기본 값은 skipna = True 입니다.
level은 계산하려는 축이 다중 색인(MultiIndex)이라면 레벨에 따라 묶어서 계산해주는 인자라고 합니다.
idxmin, idxmax는 최소/최대 값을 가지고 있는 index의 위치를 반환합니다.
describe 는 한 번에 여러가지 통계 결과를 보여주는 명령어입니다.
숫자가 들어있지 않은 데이터는 거기에 맞는 다른 통계를 만들어냅니다.
df.quantile(x)는 x에 0부터 1사이의 수를 입력하면 df에 있는 값중에 x분위에 맞는 값을 출력한다고 합니다.
비슷한 np.percentile(x,n)은 위치를 100으로 나눈 백분위 수를 사용하기도 합니다.
median은 중간 값을 출력해줍니다.
mad는 평균 값에서 절대 평균편차를 구합니다.
skew는 표본 비대칭도(3차 적률)의 값을 구합니다.
kert는표본 첨도(4차 적률)의 값을 구합니다.
-적률은 모멘트와 같은 말이라고 합니다. 여기에 들어가면 대충 첨도가 무엇인지 알 수 있습니다.
cummin, cummax는 각각 누적 최소 값과 누적 최대 값을 구합니다.
diff는 1차 산술 차를 구한다고 합니다. 시계열 데이터 처리시 유용하다고 합니다.
-시계열 데이터란? http://blog.naver.com/PostView.nhn?blogId=sw4r&logNo=221023159390
pct_change는 퍼센트 변화율을 계산한다고 합니다.
196쪽 5.3.1 상관관계와 공분산에 나온 코드를 입력시 오류가 나옵니다.
DataReader(~~) 내용중 'google'을 'yahoo'로 바꿔서 해결할 수 있습니다. 데이터는 같습니다.
하지만 시작 날짜 범위를 모르겠습니다.
분명 처음 코드는 2015년도의 데이터를 불러오고 있는데, 그 아래 코드부터는 14년도 데이터를 가지고 이야기를 하고 있습니다..
그래서 첫 코드에 나온 날짜 가지고 만들었습니다.
바로 아래 사진에서 6줄에 나온 reindex를 안해도 됩니다. 2줄의 이름 순서를 바꿔도 됩니다.
cov는 상관관계를 보여줍니다. 자세한 내용은 https://gomguard.tistory.com/173 여기를 읽어보면 됩니다.
corr은 공분산을 보여줍니다. 자세한 내용은 https://analytics17.blogspot.com/2017/08/1-1.html 링크에 들어가서 Ctrl + F로 공분산이란 을 검색하여 해당 부분을 읽으시면 됩니다.
corrwith는 cor과 비슷하게 상관관계를 보여줍니다. cov는 한 개의 값을 대상으로 한다면, corrwith의 대상은 Series와 DataFrame입니다.
dropna에 how라는 인자가 있습니다. 기본 값은 how = 'any' 입니다.(203쪽)
how = 'any'는 만약 어떤 행이나 열에 결측 값이 있으면 그 행과 열을 삭제한다는 뜻입니다.
how = 'all'은 만약 어떤 행의 모든 값이나 어떤 열의 모든 값이 결측 값으로 되어있으면 그 행과 열을 삭제한다는 뜻입니다.
dropna도 마찬가지로 axis 인자를 이용해 행과 열에서만 적용하도록 따로 설정할 수 있습니다.
thresh=x는 계측 값이 아닌 값이 x개 이상인 행만 보이게 하는 인자입니다. 기본 값은 thresh = 0입니다.
inplace=True는 기존 객체를 변경할 수 있습니다. 책에 나와있듯이 inplace를 사용하면 df만 변경시키고 아무것도 반환시키지 않습니다.
_는 아무것도 아니게 됩니다. 기본 값은 False입니다.
limit=x는 계측 값을 수정할 때 다음 x개까지만 계측 값을 수정한다는 인자입니다. 그 다음 값은 그대로 NaN이 나옵니다.
210쪽입니다.
swaplevel은 계층적 색인에서 2개의 계층을 뒤바꿔 새로운 객체를 반환합니다.
sortlevel은 더 이상 쓰지 않는 명령어입니다. sort_index로 쓰는 것을 권장합니다.
set_index는 기존 index를 삭제하고 선택한 columns를 index로 설정합니다.
reset_index는 기존 index를 삭제하고 index를 columns로 추가합니다.
reset_index안에 있는 drop인자를 True로 설정하면 index를 columns로 추가하지 않고 삭제합니다.
Panel이라는 DataFrame의 3차원 버전인 자료구조가 나옵니다. 하지만 계층적 색인을 이용하면 대부분 Panel을 사용하지 않아도 된다고 하네요.
반응형'책 > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글
8일차(249 ~ 271) (0) 2019.03.28 7-2일차(219 ~ 247) (0) 2019.03.27 6일차(157 ~ 192) (0) 2019.03.26 5일차(135 ~ 155) (0) 2019.03.25 4일차(115 ~ 134) (0) 2019.03.25