책/파이썬 라이브러리를 활용한 데이터 분석
-
7-2일차(219 ~ 247)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 23:40
글을 쓰려고 하니 글쓰기 모드가 새로운 모드로 바뀌었네요. 전체적으로 깔끔해지고 직관적으로 바뀐 것 같습니다. 6장 - 데이터 로딩, 저장, 파일 형식입니다. ---------------------------------------------------------------------------------------------- read_csv는 파일, URL, 파일과 유사한 객체로부터 데이터를 읽어옵니다. 데이터 구분자는 쉼표를 기본으로 합니다. read_table은 read_csv와 같지만 데이터 구분자는 탭을 기본으로 합니다. read_fwf는 고정폭 칼럼 형식에서 데이터를 읽어옵니다. -고정폭, 가변폭이란? https://ko.wikipedia.org/wiki/고정폭_글꼴 read_clipboard..
-
7-1일차(192 ~ 217)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 16:18
skipna는 결측 값을 제외할 것인지, 포함해서 할지 결정해주는 인자입니다. 기본 값은 skipna = True 입니다.level은 계산하려는 축이 다중 색인(MultiIndex)이라면 레벨에 따라 묶어서 계산해주는 인자라고 합니다. idxmin, idxmax는 최소/최대 값을 가지고 있는 index의 위치를 반환합니다.describe 는 한 번에 여러가지 통계 결과를 보여주는 명령어입니다.숫자가 들어있지 않은 데이터는 거기에 맞는 다른 통계를 만들어냅니다. df.quantile(x)는 x에 0부터 1사이의 수를 입력하면 df에 있는 값중에 x분위에 맞는 값을 출력한다고 합니다.비슷한 np.percentile(x,n)은 위치를 100으로 나눈 백분위 수를 사용하기도 합니다. median은 중간 값을 출..
-
6일차(157 ~ 192)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 26. 22:02
Series와 Dataframe은 이미 이전에 배운 내용입니다. obj.index가 책 내용과는 다르네요.(159쪽)index를 따로 설정해두면 아래 사진들처럼 책과 똑같이 나오지만, index 설정을 따로 안해주면 rangeindex로 나옵니다. Series 객체와 Series 색인은 모두 name속성이 있다고 합니다.(162쪽)name은 이름을 정해주는 것이라 굳이 설명이 필요 없다고 생각합니다.이름을 정해주고 DataFrame으로 나타내주면 다음과 같이 나타납니다.name을 따로 설정을 해주지 않으면 다음과 같이 나타납니다. 171쪽 입니다.intersection은 색인의 교집합을 의미합니다. 4장 numpy에 나온 intersect1d와 같은 역할을 합니다.drop은 넘겨 받은 값이 삭제된 새로운..
-
5일차(135 ~ 155)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 25. 17:12
오늘 잘하면 5장 중간까지 나갈 수도 있겠네요.5장 부분을 조금 읽어보니 2장에서 나온 내용이 좀 있습니다. --------------------------------------------------------------------------------------------------------------------------------------------------------- 유니버설 함수 입니다.한 개 이상의 값을 받고 연산을 고속으로 하여 결과 값을 반환할 수 있는 함수라고 하네요. exp는 자연 상수의 n제곱을 한다는 명령어 입니다.square는 각 원소의 제곱을 계산하는 명령어 입니다.fabs는 빠르게 절댓값을 구하는 명령어로 값이 복소수 일 경우 abs를 사용하고, 복소수가 아니라면 fab..
-
4일차(115 ~ 134)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 25. 00:35
3장은 그냥 읽고 넘어가는 부분인 것 같아서 읽고 넘겼습니다. 4장 Numpy 기본: 배열과 벡터 계산 입니다. ------------------------------------------------------------------------------------------------------------------------------------------------------- randn 이라는 명령어가 나옵니다. 괄호안에 들어있는 것은 (차원,차원에 들어가는 값들의 개수) 순으로 값을 입력하네요.randn은 가우시안 표준 정규 분포 값을 균일하게 생성한다는 명령어인데 가우시안(가우스) 표준 정규 분포 값이란 말은 평균 0, 표준 편차 1이라는 말이네요.https://namu.wiki/w/%EC%A0..
-
3-2일차(55 ~ 70)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 23. 01:37
주피터 노트북에 데이터를 불러오는데 자꾸 OSError: Initializing from file failed 가 계속 나와서 고생을 좀 했습니다.https://stackoverflow.com/questions/50552404/oserror-initializing-from-file-failed-on-csv-in-pandas여기에 나와있는 대로 engine = 'python'을 넣어주니까 잘 돌아가네요. ----------------------------------------------------------------------------------------------------------------------------------------------------- %d, %year이 나오는데 forma..
-
3-1일차(47 ~ 54)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 22. 11:25
이번엔 MovieLens의 고객 정보, 영화 평점, 영화 정보로 총 세 가지의 데이터를 가지고 분석하는 예제입니다. 이번 글은 사진이 없습니다. 사진을 통해 이해 해야 할 내용이 없습니다. ------------------------------------------------------------------------------------------------------------------------ os.path 모듈은 파일 경로, 파일 정보를 쉽게 수정하는 모듈이라고 합니다.expanduser는 ~ 를 붙이면 C:/Users를 대체해주는 모양입니다. 그래서 제 경우에는 upath = '~다빈/Desktop/users.dat.txt' 로 해주었고 rpath, mpath도 비슷하게 했습니다. 만약 이름..
-
2일차(44 ~ 47)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 21. 22:47
책을 펼치자마자 새로운 명령어들이 보입니다. Series 는 Dataframe 같이 pandas에서 가장 중요한 자료구조라고 합니다. 1일차에서 배웠던 표, 스프레드시트와 같은 역할을 하는 Dataframe과는 다르게 Series는 1차원 배열과 같은 자료구조라고 합니다.Series에 대한 설명을 보니 파이썬의 List와 Dict를 합친 그런 자료구조인 것 같아 보입니다. https://wikidocs.net/4364 링크를 참고하였습니다. 예시를 보니 리스트와 비슷한 것 같은데, 출력을 해보면 인덱스와 그 인덱스에 해당하는 값을 출력합니다.kakao[0]을 입력하면 92600이 출력 됩니다.추가로 index에 이름을 붙일 수 있습니다. Series안에 index 값을 따로 설정해두면 위 사진과 같이 0..