-
[빅데이터의 탐색] 1. 크로스 집계의 기본책/빅데이터를 지탱하는 기술 2022. 3. 23. 15:28반응형
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다.
1. 트랜잭션 테이블, 크로스 테이블, 피벗 테이블
- 크로스 테이블
행 방향으로는 어떤 것에 대한 이름이 나열되고, 열 방향으로는 해당 이름에 대응되는 숫자 값이 나타난다. 이렇게 행과 열이 교차하는 부분에 숫자 데이터가 들어가는 것을 크로스 테이블이라고 부른다. 크로스 테이블은 사람들이 보기 편하지만 데이터베이스에서는 다루기 어렵다.
- 트랜잭션 테이블
트랜잭션 테이블은 크로스 테이블과 다르게 데이터가 무조건 행 방향으로 추가가 되고, 열 방향으로 데이터가 증가되지 않기 때문에 데이터베이스에서 다루기 쉬운 데이터이다. 이때 트랜잭션 테이블을 크로스 테이블로 변환하는 과정을 크로스 집계라고 한다.
- 룩업 테이블
트랜잭션 테이블과 다른 테이블을 결합한 테이블을 룩업 테이블이라고 한다. 데이터베이스의 JOIN과 같은 것 같다.
* Pandas에서는 룩업 테이블은 merge()를 사용하여 테이블을 결합하고, pivot_table()을 사용하여 크로스 집계한다.
2. SQL에 의한 테이블의 집계
판다스를 사용하여 피벗 테이블에 의한 크로스 집계는 간편하지만, 대용량의 데이터가 들어오면 속도가 매우 느려져서 사실상 사용할 수 없게 된다. 그래서 대용량의 데이터를 처리하려면 SQL을 사용하여 집계 함수(aggregate functions)를 사용하여 데이터 양을 감소시켜야 한다.
- 데이터 집계 → 데이터 마트 → 시각화
데이터 집계의 프로세스는 데이터를 SQL로 집계를 하는 방법이고, 시각화 프로세스는 집계된 데이터를 시각화 도구로 크로스 집계를 하는 것이다. 이때 데이터 집계의 프로세스와 시각화 프로세스 사이에 데이터 마트가 있다.
일반적으로 데이터 마트가 작을수록 시각화하는 것이 간단하지만, 데이터 마트의 크기를 줄이면 시각화 프로세스에서 정보 부족으로 할 수 있는 일이 적어진다. 반대로 가능한 많은 데이터를 집계하여 데이터 마트로 보내주게 되면 데이터 마트가 거대화되어 좋은 시각화를 하기가 어려워진다. 그래서 데이터 마트의 크기를 '잘' 구성해야 한다.
반응형'책 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
[빅데이터의 탐색] 3. 애드 혹 분석과 시각화 도구 (0) 2022.03.23 [빅데이터의 탐색] 2. 열 지향 스토리지에 의한 고속화 (0) 2022.03.23 [빅데이터의 기초 지식] 4. BI 도구와 모니터링 (0) 2022.03.22 [빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석 (0) 2022.03.22 [빅데이터의 기초 지식] 2. 빅데이터 시대의 데이터 분석 기반 (0) 2022.03.22