-
7-2일차(219 ~ 247)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 3. 27. 23:40반응형
글을 쓰려고 하니 글쓰기 모드가 새로운 모드로 바뀌었네요.
전체적으로 깔끔해지고 직관적으로 바뀐 것 같습니다.
6장 - 데이터 로딩, 저장, 파일 형식입니다.
----------------------------------------------------------------------------------------------
read_csv는 파일, URL, 파일과 유사한 객체로부터 데이터를 읽어옵니다. 데이터 구분자는 쉼표를 기본으로 합니다.
read_table은 read_csv와 같지만 데이터 구분자는 탭을 기본으로 합니다.
read_fwf는 고정폭 칼럼 형식에서 데이터를 읽어옵니다.
-고정폭, 가변폭이란? https://ko.wikipedia.org/wiki/고정폭_글꼴
read_clipboard는 클립보드에 있는 데이터를 읽어오는 read_table함수라고 합니다. 웹페이지에 나온 표를 가지고 올 때 유용하다고 합니다.
위 사진은 각각의 명령어를 사용시 나오는 출력물입니다.
sep은 데이터 구분자 설정 인자입니다. delimiter도 sep과 같은 역할을 합니다.
read_csv의 인자 header는 행 부분을 columns 이름으로 쓸 수 있게 만드는 기능인가 봅니다.
기본적으로 맨 위의 행을 columns으로 적용합니다.
index_col은 특정한 열을 행 인덱스로 지정하는 명령어입니다.
index_col을 사용하면 훨씬 깔끔해 보입니다.
open이라는 명령어를 사용시 물결 표시(~)를 인식하지 못합니다. C:/Users/를 추가로 적어줘야 합니다.
skiprows는 말 그대로 행을 건너 뛴다는 인자입니다.
na_values는 NaN으로 결측 값으로 처리할 값들을 정해주는 인자입니다.
comment는 주석으로 분류되어 파싱하지 않을 문자/문자열을 정해주는 인자입니다.
prase_dates는 날짜를 datetime으로 변환할 것인지 정하는 인자입니다.
keep_date_col은 여러 columns를 datetime으로 변환했을 경우 원래 칼럼을 남겨둘지 여부를 정하는 인자입니다.
converters는 변환시 columns에 적용할 함수를 지정하는 인자입니다.
dayfirst 모호한 날짜 형식일 경우 국제 형식(day/month/year)으로 간주할지 여부를 정하는 인자입니다.
data_parser는 날짜 변환시 사용할 함수를 정하는 인자입니다.
skip_footer 무시할 파일의 마지막 줄 수를 정하는 인자입니다.
verbose 파싱 결과에 대한 정보를 출력할지 여부를 정하는 인자입니다.
squeeze 행이 하나라면 Series 객체를 반환합니다.
thousands 숫자를 천 단위로 끊을 때 사용하는 인자입니다.
229쪽입니다.
na_rep은 결측 값을 원하는 값으로 지정할 수 있게하는 인자입니다.
230쪽 맨 위 코드를 그대로 작성시 오류가 나옵니다. In[888]에서 끝내고 ts를 출력하면 됩니다.
from_csv는 더이상 사용하지 않습니다. read_csv를 사용할 것을 권장합니다.
json.loads는 JSON문자열을 파이썬 형태로 변환시키는 명령어입니다.
json.dumps는 파이썬을 JSON 형태로 변환시키는 명령어입니다.
6.1.5는 전혀 다뤄보지 않은 것들이 나오니 굉장히 생소하고 어렵네요 ㅠㅠ
238~240 6.1.5 부분은 생략합니다.
235쪽 requests모듈은 파이썬에서 HTTP 요청을 보내는 모듈입니다.
get은 페이지를 가져온다는 명령어라고 합니다.
herf는 링크 이름과 연결되어 있는 리소스의 주소라고 합니다.
text_content는 텍스트 내용을 앞뒤 공백없이 가져오는 명령어라고 합니다.
findall은 정규식과 매치되는 모든 문자열을 리스트로 반환하는 명령어입니다.
236쪽에 puts=tables[2]는 현재 오류가 나옵니다.
책 만들 당시 사이트가 지금이랑 달라서 그런가 봅니다.
240쪽에 save를 사용시 오류가 나옵니다.
frame.to_pickle('파일명')으로 바꾸면 됩니다.
sqlite3은 데이터베이스를 사용하기 쉽게 만드는 모듈로 SQLite에 대한 인터페이스를 제공한다고 합니다.(245쪽)
connect는 데이터 베이스를 SQLite3 DB에 연결하고 연결된 Connection 객체를 반환한다고 합니다.
execute는 쿼리 결과를 리스트에 추가한다는 명령어입니다.
commit은 현재 변경내용을 적용한다는 명령어라고 합니다.
fetchall은 쿼리 결과 목록을 가져오는 명령어입니다.
description은 마지막 질의의 열 이름을 제공하는 명령어라고 합니다.
코드에 나온 zip(*cursor.description)은 리스트를 시계 방향으로 반바퀴 회전할 때 사용하는 방법입니다.
======================================================================
지금까지 공부하면서 체감상 6장이 제일 어려운 것 같네요;
드디어 기초는 끝났네요. 다음장부터 기대가 됩니다.
반응형'책 > 파이썬 라이브러리를 활용한 데이터 분석' 카테고리의 다른 글
9일차(272 ~ 304) (0) 2019.03.29 8일차(249 ~ 271) (0) 2019.03.28 7-1일차(192 ~ 217) (0) 2019.03.27 6일차(157 ~ 192) (0) 2019.03.26 5일차(135 ~ 155) (0) 2019.03.25