책/파이썬 라이브러리를 활용한 데이터 분석
-
14일차(477 ~ 516)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 5. 17:19
드디어 마지막 챕터입니다. stride란 하나의 원소에서 다음 원소까지의 너비를 표현한 정수를 담고 있는 값을 튜플형으로 보여주는 명령어라고 합니다. 파이썬,C언어 이런 기초책들을 보면 int형은 4바이트, float형은 8바이트등등 이런 내용이 나와있습니다. 그 내용을 가지고 다음 원소까지 가려면 몇 바이트를 건너 뛰어야 하는지 그 값을 튜플 형으로 내놓는 것이라 생각하시면 됩니다. 예시를 들어보자면 다음과 같이 np.ones((10,5),dtype=np.int32)라는 배열이 있다고 가정합시다. int32형 하나의 값은 4바이트 이므로 배열 내에서 한 칸을 건너 뛰는데는 4바이트, 다음 배열로 넘어가기 위해서는 20바이트가 필요하다는 것입니다. 위 사진도 같습니다. float64형 하나의 값은 8바이..
-
13-2일차(445 ~ 475)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 5. 00:36
11장은 10장에서 배운 내용으로 시계열 데이터를 어떻게 처리하는지 예제로만 구성한 챕터 같아 보입니다. ======================================================== align는 정렬한다는 명령어입니다. BDay는 BusinessDay의 줄임말입니다. asof는 어떠한 값(들)을 출력하는 명령어라고 생각하면 됩니다. dataframe index에 나오지 않은 값이라면 그 값과 가장 비슷한 index의 값을 찾아 반환시킵니다. ffill을 한 것이라고 생각하면 편합니다. index에 나온 값들의 범위 밖에 있는 값이면 NaN을 반환합니다. 설명하기가 어려운데 https://pandas.pydata.org/pandas-docs/stable/reference/api/p..
-
13-1일차(425 ~ 444)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 4. 16:57
resample에 있는 kind인자는 날짜 index 어떻게 보여줄지 정해주는 인자입니다. 기본값은 None으로 기존 index를 그대로 출력합니다. 값은 timestamp, period가 있습니다. timestamp는 DateTimeIndex로 변환시켜주며, period는 PeriodIndex로 변환시켜줍니다. 책에 나온 resample의 인자들은 좀 오래된 버전이라 지금과 조금 다르니 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html 이 링크과 같이 보는 것을 권장드립니다. p.436~p.438에 In[556], In[558], In[561], In[563] 코드는 오류가 나옵니다. 아래와 ..
-
12일차(393 ~ 424)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 3. 22:21
date_range에서 freq에 들어가는 값들 목록입니다. p.408에도 나와있는데 같이 보는 것을 추천드립니다. ========================================================================== strftime 명령어는 현재 시간과 날짜를 문자열로 출력하는 명령어입니다. strptime 명령어는 날짜, 시간 형식의 문자열을 datetime으로 만드는 명령어입니다. to_datetime은 시간/날짜을 나타내는 문자열을 datetime형식으로 바꾼 후, DatetimeIndex 자료형 색인을 생성하는 명령어입니다. period_range, date_range는 우리가 쓰는 range의 시간/날짜형 명령어입니다. asfreq는 astype처럼 빈도를 바꿀..
-
11일차(345 ~ 392)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 2. 23:34
351쪽에 아주 유용한 방법이 소개되어 있습니다. 그동안 저희가 데이터를 골라낼 때의 방법은 iloc, loc, ix를 사용해 index, columns만을 이용해서 데이터를 뽑아냈는데, 아래와 같이 dict(list(df.groupby('key1')))를 사용하면 key1에 있는 요소를 골라서 추출 할 수 있게 된다고 합니다. ['data1']로 하면 결과를 Series형식으로 볼 수 있고, [['data1']]로 하면 결과를 DataFrame형식으로 볼 수 있다고 하네요. ['data1']로 적고나서 DataFrame()명령어를 가지고 해당 내용을 감싸는 구조로 만들어도 상관은 없습니다. 355쪽 가운데 코드에 나온 one, two가 무엇을 기준으로 정해진 것인지 찾아보았는데 이런 기준으로 one, ..
-
10일차(305 ~ 344)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 1. 19:06
linestyle, marker, color인자에 대한 값은 책에 나온 값만 설명하고 건너 뛸 예정입니다. 혹시 나머지 값에 대해 궁금한 분들을 위해서 사진 남깁니다. https://matplotlib.org/2.0.0/api/pyplot_api.html#matplotlib.pyplot.plot 여기에 나와있습니다. ============================================================================ 8장 도식화와 시각화 입니다. figure 명령어는 figure를 하나 만드는 명령어입니다. 여기서 figure란 그림에서의 캔버스, 스케치북과 같은 존재라고 보시면 됩니다. add_subplot은 subplot을 하나 만드는 명령어 입니다. 그래프를 그리..
-
9일차(272 ~ 304)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 29. 19:08
duplicated는 각 행이 이전에 나온 적이 있는지(중복 값인지) bool형으로 보여주는 명령어입니다. 책에 나와있는 data를 보면 위 사진과 같이 2행,5행,7행이 중복값입니다. 그래서 duplicated를 이용하면 다음과 같이 나오게 됩니다. drop_duplicates는 duplicated배열이 False인 DataFrame을 보여주는 명령어입니다. unique와 비슷한 역할을 하는 명령어이네요. drop_duplicates에 있는 keep인자는 중복되는 행을 제거할 때, 어떤 것을 제거할지 정해주는 인자입니다. 기본값은 keep=first로 각 중복 값중에서 처음 값을 남겨두고 나머지 행을 삭제합니다. keep='last'는 각 중복 값중에서 마지막 값을 남겨두고 나머지 행을 삭제합니다. k..
-
8일차(249 ~ 271)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 28. 20:35
이번엔 merge명령어에 대한 자세한 설명을 하고 있습니다. key인자는 어떤 것을 기준으로 DataFrame을 합칠 것인지 결정하는 인자입니다. 왠만하면 key로 기준을 잡고 합치는게 좋다고 하네요. 하지만 key는 두 개의 DataFrame에 겹치는 columns가 있어야 만들 수 있습니다. 만약 없다면 left_on, right_on 인자로 지정해주면 됩니다. left_on은 왼쪽 DataFrame의 변수를 key로 사용합니다. right_on은 오른쪽 DataFrame의 변수를 key로 사용합니다. how인자는 어떻게 결과를 반환할 것인지 정하는 인자입니다. how='inner'는 기본 값으로 교집합을 반환합니다. how='outer'는 합집합을 반환합니다. how='left'는 왼쪽에 있는 Da..