책
-
[빅데이터의 기초 지식] 4. BI 도구와 모니터링책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:34
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 스프레드시트에 의한 모니터링 데이터를 살펴보고 싶을 때 사용하는 것이 애드 혹 분석이면, 계획적으로 데이터의 변화를 추적하는 것은 모니터링이다. 데이터는 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있는데, 자신이 다음 행동으로 무엇을 해야할지 결정하는데 데이터를 살펴볼 수 있다. 만약 데이터의 변화를 모니터링하다가 예상과 다른 움직임이 있다면 현재 상황을 파악하고, 세부 데이터에 대해 깊게 이해를 하여 현재 무슨 상황이 벌어지고 있는지 알아내야 한다. 예시를 들어보면 내가 백준 문제를 매일 꾸준히 풀고 있는데, solved.ac의 내 아이디에 대한 티어 변화를 집계한 결과를 가져왔다고 해보자. 근데 해당 데이터를 보면 티어에 변화가..
-
[빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:30
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 이 책에 나온 자료 사이트가 접속이 안되서 같은 데이터로 실습을 못한다. 1. 데이터 처리와 스크립트 언어 데이터 분석 분야에서 자주 사용되는 언어는 R과 파이썬이다. 이중에서 데이터 엔지니어는 파이썬의 인기가 높은 편인데, 다양한 분야의 라이브러리가 파이썬에 설치되어 있고, API를 호출하거나 복잡한 문자열을 처리하는데 파이썬이 적합하기 때문이다. 특히 Pandas의 데이터 프레임을 가지고 데이터 처리의 스크립트화를 하는데 빠뜨릴 수 없는 존재라서 데이터 엔지니어라면 Pandas를 충분히 숙지할 것을 추천한다고 책에 나와있다. 2. 데이터 프레임 데이터 프레임은 표 형식의 데이터를 추상화한 객체이다.(데이터 베이스에서 하나의 테이블을 통째로 하..
-
[빅데이터의 기초 지식] 2. 빅데이터 시대의 데이터 분석 기반책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:29
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 빅데이터의 기술 빅데이터의 기술은 다수의 분산 시스템을 조합하여 기존의 데이터 웨어하우스에 비해 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다. - 데이터 파이프라인 차례대로 전달해나가는 데이터로 구성된 시스템으로 데이터를 한 시스템에서 다른 시스템으로 옮기게 파이프 역할을 해주는 기능이다. - 데이터 수집, 스트림 처리와 배치 처리 데이터 파이프라인은 데이터를 모으는 부분부터 시작하는데, 데이터들은 각각 서로 다른 기술들로 데이터를 전송한다. 이때 데이터 전송 방법은 크게 벌크형과 스트리밍형으로 두 가지로 나뉘게 된다. 벌크형은 이미 어디가에 존재하는 데이터를 정리해 추출하는 방법으로, 데이터베이스와 파일 서버등에서 정기적으로 데이터..
-
[빅데이터의 기초 지식] 1. 빅데이터의 정착책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:18
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 분산 시스템에 의한 데이터 처리의 고속화 빅데이터(big data)라는 단어는 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작하는 무렵에 나타났다. 현재에는 빅데이터 기술을 많이 사용하고 있지만, 빅데이터의 기술이 큰 어려움 없이 안심하고 사용할 수 있다고는 말하기 어렵고, 실제로 데이터를 모아서 무엇을 할 것인지에 대해서도 명확하게 해답을 내리기 어렵다. 빅데이터를 다루기 어려운 이유 1. 데이터의 분석 방법을 모른다는 점 (데이터 분석가) 2. 데이터 처리에 수고와 시간이 걸린다는 점 (데이터 엔지니어) 이 두 가지를 해결해야 비로소 가치가 있는 정보를 얻을 수 있다. 빅데이터 기술의 요구 ..
-
14일차(477 ~ 516)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 5. 17:19
드디어 마지막 챕터입니다. stride란 하나의 원소에서 다음 원소까지의 너비를 표현한 정수를 담고 있는 값을 튜플형으로 보여주는 명령어라고 합니다. 파이썬,C언어 이런 기초책들을 보면 int형은 4바이트, float형은 8바이트등등 이런 내용이 나와있습니다. 그 내용을 가지고 다음 원소까지 가려면 몇 바이트를 건너 뛰어야 하는지 그 값을 튜플 형으로 내놓는 것이라 생각하시면 됩니다. 예시를 들어보자면 다음과 같이 np.ones((10,5),dtype=np.int32)라는 배열이 있다고 가정합시다. int32형 하나의 값은 4바이트 이므로 배열 내에서 한 칸을 건너 뛰는데는 4바이트, 다음 배열로 넘어가기 위해서는 20바이트가 필요하다는 것입니다. 위 사진도 같습니다. float64형 하나의 값은 8바이..
-
13-2일차(445 ~ 475)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 5. 00:36
11장은 10장에서 배운 내용으로 시계열 데이터를 어떻게 처리하는지 예제로만 구성한 챕터 같아 보입니다. ======================================================== align는 정렬한다는 명령어입니다. BDay는 BusinessDay의 줄임말입니다. asof는 어떠한 값(들)을 출력하는 명령어라고 생각하면 됩니다. dataframe index에 나오지 않은 값이라면 그 값과 가장 비슷한 index의 값을 찾아 반환시킵니다. ffill을 한 것이라고 생각하면 편합니다. index에 나온 값들의 범위 밖에 있는 값이면 NaN을 반환합니다. 설명하기가 어려운데 https://pandas.pydata.org/pandas-docs/stable/reference/api/p..
-
13-1일차(425 ~ 444)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 4. 16:57
resample에 있는 kind인자는 날짜 index 어떻게 보여줄지 정해주는 인자입니다. 기본값은 None으로 기존 index를 그대로 출력합니다. 값은 timestamp, period가 있습니다. timestamp는 DateTimeIndex로 변환시켜주며, period는 PeriodIndex로 변환시켜줍니다. 책에 나온 resample의 인자들은 좀 오래된 버전이라 지금과 조금 다르니 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html 이 링크과 같이 보는 것을 권장드립니다. p.436~p.438에 In[556], In[558], In[561], In[563] 코드는 오류가 나옵니다. 아래와 ..
-
12일차(393 ~ 424)책/파이썬 라이브러리를 활용한 데이터 분석 2019. 4. 3. 22:21
date_range에서 freq에 들어가는 값들 목록입니다. p.408에도 나와있는데 같이 보는 것을 추천드립니다. ========================================================================== strftime 명령어는 현재 시간과 날짜를 문자열로 출력하는 명령어입니다. strptime 명령어는 날짜, 시간 형식의 문자열을 datetime으로 만드는 명령어입니다. to_datetime은 시간/날짜을 나타내는 문자열을 datetime형식으로 바꾼 후, DatetimeIndex 자료형 색인을 생성하는 명령어입니다. period_range, date_range는 우리가 쓰는 range의 시간/날짜형 명령어입니다. asfreq는 astype처럼 빈도를 바꿀..