[빅데이터의 기초 지식] 1. 빅데이터의 정착

책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:18

이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다.

1. 분산 시스템에 의한 데이터 처리의 고속화

빅데이터(big data)라는 단어는 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작하는 무렵에 나타났다. 현재에는 빅데이터 기술을 많이 사용하고 있지만, 빅데이터의 기술이 큰 어려움 없이 안심하고 사용할 수 있다고는 말하기 어렵고, 실제로 데이터를 모아서 무엇을 할 것인지에 대해서도 명확하게 해답을 내리기 어렵다.

빅데이터를 다루기 어려운 이유

1. 데이터의 분석 방법을 모른다는 점 (데이터 분석가)

2. 데이터 처리에 수고와 시간이 걸린다는 점 (데이터 엔지니어)

이 두 가지를 해결해야 비로소 가치가 있는 정보를 얻을 수 있다.

빅데이터 기술의 요구

1. Hadoop

다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템이다. Hadoop은 구글의 MapReduce를 참고하여 제작되었고, 초반엔 자바 언어로 프로그래밍을 해야해서 누구나 간단히 사용하지 못하였다. 그러다가 SQL 같은 쿼리 언어를 Hadoop에서 실행하기 위한 소프트웨어로 Hive가 개발되어 본격적으로 사용자를 확대할 수 있었다.

2. NoSQL

전통적인 RDB의 제약을 제거하는 것을 목표로 한 데이터베이스의 총칭으로 RDB보다 읽기/쓰기를 빠르게 할 수 있고, 분산 처리에 뛰어나다는 특징을 가지고 있다. 아래는 대표적인 NoSQL 데이터베이스의 세 가지 종류이다.

- 키 밸류 스토어(key-value store/KVS): 다수의 키와 값을 관련지어 저장

- 도큐멘트 스토어(document store): JSON과 같은 복잡한 데이터 구조를 저장

- 와이드 컬럼 스토어(wide-column store): 여러 키를 사용하여 높은 확장성을 제공

3. Hadoop과 NoSQL의 조합

현실적인 비용으로 대규모 데이터 처리 실현하는 방법으로 NoSQL에 데이터를 저장하고, Hadoop을 사용하여 데이터를 처리하는 조합이 2012년부터 널리 퍼지게 되었다.

2. 분산 시스템의 비즈니스 이용 개척

일부 기업에서는 이전부터 데이터 분석을 기반으로 하는 '데이터 웨어하우스'를 도입하여 데이터를 축적하고, 분석하여 회사를 경영하는데 활용되었다.

분산 시스템의 발전에 따라 데이터 웨어하우스 제품이 사용되는 경우에도 Hadoop을 사용하는 경우가 증가하였고, 나중에는 대량의 데이터를 보존 및 집계하기 위해 Hadoop을 사용하는 것이 당연하게 되었다. 이렇게 해서 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었고, 이때부터 사용하게 된 키워드가 빅데이터라고 한다.

전통적인 데이터 웨어하우스는 Hadoop보다 우수한 면도 있지만, HW와 SW가 합쳐진 통합 장비로 제공되는 데이터 웨어하우스도 있어서 확장하기가 쉽지 않았다. 그래서 확장성이 뛰어난 Hadoop에게 데이터의 처리를 맡기고, 중요한 데이터만을 데이터 웨어하우스에 넣는 방식으로 사용을 구분하여 데이터 웨어하우스의 부하를 줄였다.

3. 직접 할 수 있는 데이터 분석 폭 확대

비슷한 시기에 클라우스 서비스의 보급에 의해 빅데이터의 활용이 증가하였다. 이전까지 빅데이터는 여러 컴퓨터에 분산 처리를 해야해서 하드웨어를 준비하고 관리하는 것이 일이였는데, 클라우드 서비스 보급에 의해 사용하는 방법만 알면 언제든지 이용할 수 있는 환경이 마련되었다.

2012년 말에 Amazon Redshift가 발표된 이후로 데이터 웨어하우스를 클라우드 상에서 작성하는 것은 흔한 일이 되었고, 작은 프로젝트에서도 데이터 웨어하우스를 구축하여 자체적으로 데이터 분석 기반을 마련하는 경우가 일반적인 상황이 되어버렸다.

데이터 웨어하우스에 저장된 데이터를 시각화하려는 방법으로 '데이터 디스커버리'라는 대화형으로 데이터를 시각화하여 가치있는 정보를 찾는 프로세스가 인기를 끌게 되었는데, 데이터 디스커버리는 셀프서비스용 BI 도구라고 부를 정도로 원래 대기업에서 사용하는 BI 도구를 개인도 도입할 수 있을 정도로 단순화 시킨 것이다. 이로 인해 많은 사람들이 데이터를 살펴볼 수 있게 되었다.

2013년 이후에도 빅데이터 기술은 더 높은 효율과 편리성을 실현하기 위해 계속해서 개발이 되었다. 그래서 'Apache Spark'와 같은 새로운 분산 시스템용 프레임워크가 보급됨으로써 MapReduce보다도 효율적으로 데이터 처리를 할 수 있게 되었다.

저작자표시

'책 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글

[빅데이터의 탐색] 2. 열 지향 스토리지에 의한 고속화 (0)	2022.03.23
[빅데이터의 탐색] 1. 크로스 집계의 기본 (0)	2022.03.23
[빅데이터의 기초 지식] 4. BI 도구와 모니터링 (0)	2022.03.22
[빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석 (0)	2022.03.22
[빅데이터의 기초 지식] 2. 빅데이터 시대의 데이터 분석 기반 (0)	2022.03.22

ABOUT ME

70825 70825

1. 분산 시스템에 의한 데이터 처리의 고속화

빅데이터 기술의 요구

2. 분산 시스템의 비즈니스 이용 개척

3. 직접 할 수 있는 데이터 분석 폭 확대

'책 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1. 분산 시스템에 의한 데이터 처리의 고속화

빅데이터 기술의 요구

2. 분산 시스템의 비즈니스 이용 개척

3. 직접 할 수 있는 데이터 분석 폭 확대

'책 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바