ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석
    책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:30
    반응형

    이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다.


    이 책에 나온 자료 사이트가 접속이 안되서 같은 데이터로 실습을 못한다.

     

     

     

     

    1. 데이터 처리와 스크립트 언어


    데이터 분석 분야에서 자주 사용되는 언어는 R과 파이썬이다. 이중에서 데이터 엔지니어는 파이썬의 인기가 높은 편인데, 다양한 분야의 라이브러리가 파이썬에 설치되어 있고, API를 호출하거나 복잡한 문자열을 처리하는데 파이썬이 적합하기 때문이다.

     

    특히 Pandas의 데이터 프레임을 가지고 데이터 처리의 스크립트화를 하는데 빠뜨릴 수 없는 존재라서 데이터 엔지니어라면 Pandas를 충분히 숙지할 것을 추천한다고 책에 나와있다.


     

     

     

    2. 데이터 프레임


    데이터 프레임은 표 형식의 데이터를 추상화한 객체이다.(데이터 베이스에서 하나의 테이블을 통째로 하나의 객체로 취급한다고 생각하면 편하다) 데이터 프레임을 사용하면 스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다. 그래서 그대로 분석하기 어려운 JSON 데이터나 텍스트 데이터등도 한 번 데이터 프레임으로 변환해버리면 분석하기가 굉장히 쉬워진다.

     

    데이터 웨어하우스와 BI 도구에서는 웹 서버의 액세스 로그 데이터를 그대로 읽어 들일 수가 없다. 그래서 파이썬은 정규 표현식으로 파싱하여 데이터를 전처리한 후에 데이터 프레임으로 변환한다.

     

    데이터의 전처리에 사용할 수 있는 자주 사용되는 pandas의 함수

    - ix: 조건에 일치하는 데이터만을 검색함

    - drop: 지정한 행(혹은 칼럼)을 삭제함

    - rename: 인덱스 값(혹은 칼럼명)을 변경함

    - dropna: 값이 없는 행(혹은 칼럼명)을 제외함

    - fillna: 값이 없는 셀을 지정한 값으로 치환함

    - apply: 각 칼럼(혹은 각 행)에 함수를 적용함

     

     

    - 시계열 데이터

    판다스에서는 데이터 프레임을 사용해서 데이터를 있는 그대로 집계하는 것도 가능하다. 특히 판다스에는 시계열 데이터를 취급하기 위한 다양한 기능이 있는데, 시간을 인덱스로 지정함으로써 시계열 데이터를 분석할 수 있다.


     

     

     

    3. SQL의 결과를 데이터 프레임으로 활용하기


    데이터 프레임의 단점은 익숙해질 때까지는 학습 시간이 걸린다는 점인데, 데이터 프레임은 쿼리를 실행한 결과로도 만들어질 수 있다. 그래서 복잡한 데이터의 집계는 SQL을 사용하면서 데이터 프레임에 의한 대화형 데이터 처리의 혜택을 받을 수 있다. pandas의 read_sql()을 사용하면 SQL 쿼리를 통해 데이터를 데이터 프레임으로 얻을 수 있다.


     

    반응형

    댓글

Designed by Tistory.