책/빅데이터를 지탱하는 기술
-
[빅데이터의 기초 지식] 4. BI 도구와 모니터링책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:34
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 스프레드시트에 의한 모니터링 데이터를 살펴보고 싶을 때 사용하는 것이 애드 혹 분석이면, 계획적으로 데이터의 변화를 추적하는 것은 모니터링이다. 데이터는 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있는데, 자신이 다음 행동으로 무엇을 해야할지 결정하는데 데이터를 살펴볼 수 있다. 만약 데이터의 변화를 모니터링하다가 예상과 다른 움직임이 있다면 현재 상황을 파악하고, 세부 데이터에 대해 깊게 이해를 하여 현재 무슨 상황이 벌어지고 있는지 알아내야 한다. 예시를 들어보면 내가 백준 문제를 매일 꾸준히 풀고 있는데, solved.ac의 내 아이디에 대한 티어 변화를 집계한 결과를 가져왔다고 해보자. 근데 해당 데이터를 보면 티어에 변화가..
-
[빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:30
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 이 책에 나온 자료 사이트가 접속이 안되서 같은 데이터로 실습을 못한다. 1. 데이터 처리와 스크립트 언어 데이터 분석 분야에서 자주 사용되는 언어는 R과 파이썬이다. 이중에서 데이터 엔지니어는 파이썬의 인기가 높은 편인데, 다양한 분야의 라이브러리가 파이썬에 설치되어 있고, API를 호출하거나 복잡한 문자열을 처리하는데 파이썬이 적합하기 때문이다. 특히 Pandas의 데이터 프레임을 가지고 데이터 처리의 스크립트화를 하는데 빠뜨릴 수 없는 존재라서 데이터 엔지니어라면 Pandas를 충분히 숙지할 것을 추천한다고 책에 나와있다. 2. 데이터 프레임 데이터 프레임은 표 형식의 데이터를 추상화한 객체이다.(데이터 베이스에서 하나의 테이블을 통째로 하..
-
[빅데이터의 기초 지식] 2. 빅데이터 시대의 데이터 분석 기반책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:29
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 빅데이터의 기술 빅데이터의 기술은 다수의 분산 시스템을 조합하여 기존의 데이터 웨어하우스에 비해 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다. - 데이터 파이프라인 차례대로 전달해나가는 데이터로 구성된 시스템으로 데이터를 한 시스템에서 다른 시스템으로 옮기게 파이프 역할을 해주는 기능이다. - 데이터 수집, 스트림 처리와 배치 처리 데이터 파이프라인은 데이터를 모으는 부분부터 시작하는데, 데이터들은 각각 서로 다른 기술들로 데이터를 전송한다. 이때 데이터 전송 방법은 크게 벌크형과 스트리밍형으로 두 가지로 나뉘게 된다. 벌크형은 이미 어디가에 존재하는 데이터를 정리해 추출하는 방법으로, 데이터베이스와 파일 서버등에서 정기적으로 데이터..
-
[빅데이터의 기초 지식] 1. 빅데이터의 정착책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:18
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 분산 시스템에 의한 데이터 처리의 고속화 빅데이터(big data)라는 단어는 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작하는 무렵에 나타났다. 현재에는 빅데이터 기술을 많이 사용하고 있지만, 빅데이터의 기술이 큰 어려움 없이 안심하고 사용할 수 있다고는 말하기 어렵고, 실제로 데이터를 모아서 무엇을 할 것인지에 대해서도 명확하게 해답을 내리기 어렵다. 빅데이터를 다루기 어려운 이유 1. 데이터의 분석 방법을 모른다는 점 (데이터 분석가) 2. 데이터 처리에 수고와 시간이 걸린다는 점 (데이터 엔지니어) 이 두 가지를 해결해야 비로소 가치가 있는 정보를 얻을 수 있다. 빅데이터 기술의 요구 ..