책
-
11일차(345 ~ 392)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 2. 23:34
351쪽에 아주 유용한 방법이 소개되어 있습니다. 그동안 저희가 데이터를 골라낼 때의 방법은 iloc, loc, ix를 사용해 index, columns만을 이용해서 데이터를 뽑아냈는데, 아래와 같이 dict(list(df.groupby('key1')))를 사용하면 key1에 있는 요소를 골라서 추출 할 수 있게 된다고 합니다. ['data1']로 하면 결과를 Series형식으로 볼 수 있고, [['data1']]로 하면 결과를 DataFrame형식으로 볼 수 있다고 하네요. ['data1']로 적고나서 DataFrame()명령어를 가지고 해당 내용을 감싸는 구조로 만들어도 상관은 없습니다. 355쪽 가운데 코드에 나온 one, two가 무엇을 기준으로 정해진 것인지 찾아보았는데 이런 기준으로 one, ..
-
10일차(305 ~ 344)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 1. 19:06
linestyle, marker, color인자에 대한 값은 책에 나온 값만 설명하고 건너 뛸 예정입니다. 혹시 나머지 값에 대해 궁금한 분들을 위해서 사진 남깁니다. https://matplotlib.org/2.0.0/api/pyplot_api.html#matplotlib.pyplot.plot 여기에 나와있습니다. ============================================================================ 8장 도식화와 시각화 입니다. figure 명령어는 figure를 하나 만드는 명령어입니다. 여기서 figure란 그림에서의 캔버스, 스케치북과 같은 존재라고 보시면 됩니다. add_subplot은 subplot을 하나 만드는 명령어 입니다. 그래프를 그리..
-
9일차(272 ~ 304)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 29. 19:08
duplicated는 각 행이 이전에 나온 적이 있는지(중복 값인지) bool형으로 보여주는 명령어입니다. 책에 나와있는 data를 보면 위 사진과 같이 2행,5행,7행이 중복값입니다. 그래서 duplicated를 이용하면 다음과 같이 나오게 됩니다. drop_duplicates는 duplicated배열이 False인 DataFrame을 보여주는 명령어입니다. unique와 비슷한 역할을 하는 명령어이네요. drop_duplicates에 있는 keep인자는 중복되는 행을 제거할 때, 어떤 것을 제거할지 정해주는 인자입니다. 기본값은 keep=first로 각 중복 값중에서 처음 값을 남겨두고 나머지 행을 삭제합니다. keep='last'는 각 중복 값중에서 마지막 값을 남겨두고 나머지 행을 삭제합니다. k..
-
8일차(249 ~ 271)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 28. 20:35
이번엔 merge명령어에 대한 자세한 설명을 하고 있습니다. key인자는 어떤 것을 기준으로 DataFrame을 합칠 것인지 결정하는 인자입니다. 왠만하면 key로 기준을 잡고 합치는게 좋다고 하네요. 하지만 key는 두 개의 DataFrame에 겹치는 columns가 있어야 만들 수 있습니다. 만약 없다면 left_on, right_on 인자로 지정해주면 됩니다. left_on은 왼쪽 DataFrame의 변수를 key로 사용합니다. right_on은 오른쪽 DataFrame의 변수를 key로 사용합니다. how인자는 어떻게 결과를 반환할 것인지 정하는 인자입니다. how='inner'는 기본 값으로 교집합을 반환합니다. how='outer'는 합집합을 반환합니다. how='left'는 왼쪽에 있는 Da..
-
7-2일차(219 ~ 247)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 23:40
글을 쓰려고 하니 글쓰기 모드가 새로운 모드로 바뀌었네요. 전체적으로 깔끔해지고 직관적으로 바뀐 것 같습니다. 6장 - 데이터 로딩, 저장, 파일 형식입니다. ---------------------------------------------------------------------------------------------- read_csv는 파일, URL, 파일과 유사한 객체로부터 데이터를 읽어옵니다. 데이터 구분자는 쉼표를 기본으로 합니다. read_table은 read_csv와 같지만 데이터 구분자는 탭을 기본으로 합니다. read_fwf는 고정폭 칼럼 형식에서 데이터를 읽어옵니다. -고정폭, 가변폭이란? https://ko.wikipedia.org/wiki/고정폭_글꼴 read_clipboard..
-
7-1일차(192 ~ 217)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 16:18
skipna는 결측 값을 제외할 것인지, 포함해서 할지 결정해주는 인자입니다. 기본 값은 skipna = True 입니다.level은 계산하려는 축이 다중 색인(MultiIndex)이라면 레벨에 따라 묶어서 계산해주는 인자라고 합니다. idxmin, idxmax는 최소/최대 값을 가지고 있는 index의 위치를 반환합니다.describe 는 한 번에 여러가지 통계 결과를 보여주는 명령어입니다.숫자가 들어있지 않은 데이터는 거기에 맞는 다른 통계를 만들어냅니다. df.quantile(x)는 x에 0부터 1사이의 수를 입력하면 df에 있는 값중에 x분위에 맞는 값을 출력한다고 합니다.비슷한 np.percentile(x,n)은 위치를 100으로 나눈 백분위 수를 사용하기도 합니다. median은 중간 값을 출..
-
6일차(157 ~ 192)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 26. 22:02
Series와 Dataframe은 이미 이전에 배운 내용입니다. obj.index가 책 내용과는 다르네요.(159쪽)index를 따로 설정해두면 아래 사진들처럼 책과 똑같이 나오지만, index 설정을 따로 안해주면 rangeindex로 나옵니다. Series 객체와 Series 색인은 모두 name속성이 있다고 합니다.(162쪽)name은 이름을 정해주는 것이라 굳이 설명이 필요 없다고 생각합니다.이름을 정해주고 DataFrame으로 나타내주면 다음과 같이 나타납니다.name을 따로 설정을 해주지 않으면 다음과 같이 나타납니다. 171쪽 입니다.intersection은 색인의 교집합을 의미합니다. 4장 numpy에 나온 intersect1d와 같은 역할을 합니다.drop은 넘겨 받은 값이 삭제된 새로운..
-
5일차(135 ~ 155)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 25. 17:12
오늘 잘하면 5장 중간까지 나갈 수도 있겠네요.5장 부분을 조금 읽어보니 2장에서 나온 내용이 좀 있습니다. --------------------------------------------------------------------------------------------------------------------------------------------------------- 유니버설 함수 입니다.한 개 이상의 값을 받고 연산을 고속으로 하여 결과 값을 반환할 수 있는 함수라고 하네요. exp는 자연 상수의 n제곱을 한다는 명령어 입니다.square는 각 원소의 제곱을 계산하는 명령어 입니다.fabs는 빠르게 절댓값을 구하는 명령어로 값이 복소수 일 경우 abs를 사용하고, 복소수가 아니라면 fab..