책
-
4일차(115 ~ 134)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 25. 00:35
3장은 그냥 읽고 넘어가는 부분인 것 같아서 읽고 넘겼습니다. 4장 Numpy 기본: 배열과 벡터 계산 입니다. ------------------------------------------------------------------------------------------------------------------------------------------------------- randn 이라는 명령어가 나옵니다. 괄호안에 들어있는 것은 (차원,차원에 들어가는 값들의 개수) 순으로 값을 입력하네요.randn은 가우시안 표준 정규 분포 값을 균일하게 생성한다는 명령어인데 가우시안(가우스) 표준 정규 분포 값이란 말은 평균 0, 표준 편차 1이라는 말이네요.https://namu.wiki/w/%EC%A0..
-
3-2일차(55 ~ 70)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 23. 01:37
주피터 노트북에 데이터를 불러오는데 자꾸 OSError: Initializing from file failed 가 계속 나와서 고생을 좀 했습니다.https://stackoverflow.com/questions/50552404/oserror-initializing-from-file-failed-on-csv-in-pandas여기에 나와있는 대로 engine = 'python'을 넣어주니까 잘 돌아가네요. ----------------------------------------------------------------------------------------------------------------------------------------------------- %d, %year이 나오는데 forma..
-
3-1일차(47 ~ 54)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 22. 11:25
이번엔 MovieLens의 고객 정보, 영화 평점, 영화 정보로 총 세 가지의 데이터를 가지고 분석하는 예제입니다. 이번 글은 사진이 없습니다. 사진을 통해 이해 해야 할 내용이 없습니다. ------------------------------------------------------------------------------------------------------------------------ os.path 모듈은 파일 경로, 파일 정보를 쉽게 수정하는 모듈이라고 합니다.expanduser는 ~ 를 붙이면 C:/Users를 대체해주는 모양입니다. 그래서 제 경우에는 upath = '~다빈/Desktop/users.dat.txt' 로 해주었고 rpath, mpath도 비슷하게 했습니다. 만약 이름..
-
2일차(44 ~ 47)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 21. 22:47
책을 펼치자마자 새로운 명령어들이 보입니다. Series 는 Dataframe 같이 pandas에서 가장 중요한 자료구조라고 합니다. 1일차에서 배웠던 표, 스프레드시트와 같은 역할을 하는 Dataframe과는 다르게 Series는 1차원 배열과 같은 자료구조라고 합니다.Series에 대한 설명을 보니 파이썬의 List와 Dict를 합친 그런 자료구조인 것 같아 보입니다. https://wikidocs.net/4364 링크를 참고하였습니다. 예시를 보니 리스트와 비슷한 것 같은데, 출력을 해보면 인덱스와 그 인덱스에 해당하는 값을 출력합니다.kakao[0]을 입력하면 92600이 출력 됩니다.추가로 index에 이름을 붙일 수 있습니다. Series안에 index 값을 따로 설정해두면 위 사진과 같이 0..
-
1일차(36 ~ 43)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 21. 00:17
몇몇 코드는 제가 이해하기 쉽게 코드를 수정하거나 새로 만들었기 때문에 책에 나온 코드와 다를 수 있거나 책에 코드가 아예 없을 수도 있습니다. --------------------------------------------------------------------------------------------------------------------- 어떤 텍스트 파일에 대하여 가장 많이 언급되는 단어 상위 n개를 출력하는 방법이 총 세 가지로 소개되어 있습니다. 1. sort를 이용하여 직접 구현하기 2. collections.Counter 모듈의 most_common을 이용하기 (가장 많이 언급된 상위 n개를 tuple로 되돌려줍니다.)ex) D=[1, 2, 2, 1, 3, 5, 1, 4, 4, 3..