전체 글
-
[빅데이터의 탐색] 2. 열 지향 스토리지에 의한 고속화책/빅데이터를 지탱하는 기술 2022. 3. 23. 15:28
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 데이터베이스의 지연 줄이기 데이터 양이 많아지면 집계하는데 오랜 시간이 걸릴 수도 있기 때문에 데이터를 오래 집계하는 것을 예상해서 시스템을 구축해야 한다. 그래서 데이터 집계에서는 빠르면 빠를수록 좋지만, 크로스 집계가 항상 초 단위로 응답할 수 있게 크로스 집계를 중심으로 구축을 해야 한다. - 데이터 처리의 지연 데이터 처리의 응답이 빠르다 = 대기 시간이 적다 = 지연이 적다 데이터 마트를 만들 때는 지연이 적은 데이터베이스가 있어야 하는데, 가장 간단한 방법은 모든 데이터를 메모리에 올리는 것이다. 메모리에 모든 데이터를 올릴 수 있는 경우 데이터 마트는 RDB를 사용하는 것이 적합한데, 단점은 메모리 용량이 부족할 경우 성능이 급..
-
[빅데이터의 탐색] 1. 크로스 집계의 기본책/빅데이터를 지탱하는 기술 2022. 3. 23. 15:28
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 트랜잭션 테이블, 크로스 테이블, 피벗 테이블 - 크로스 테이블 행 방향으로는 어떤 것에 대한 이름이 나열되고, 열 방향으로는 해당 이름에 대응되는 숫자 값이 나타난다. 이렇게 행과 열이 교차하는 부분에 숫자 데이터가 들어가는 것을 크로스 테이블이라고 부른다. 크로스 테이블은 사람들이 보기 편하지만 데이터베이스에서는 다루기 어렵다. - 트랜잭션 테이블 트랜잭션 테이블은 크로스 테이블과 다르게 데이터가 무조건 행 방향으로 추가가 되고, 열 방향으로 데이터가 증가되지 않기 때문에 데이터베이스에서 다루기 쉬운 데이터이다. 이때 트랜잭션 테이블을 크로스 테이블로 변환하는 과정을 크로스 집계라고 한다. - 룩업 테이블 트랜잭션 테이블과 다른 테이블을..
-
[빅데이터의 기초 지식] 4. BI 도구와 모니터링책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:34
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 스프레드시트에 의한 모니터링 데이터를 살펴보고 싶을 때 사용하는 것이 애드 혹 분석이면, 계획적으로 데이터의 변화를 추적하는 것은 모니터링이다. 데이터는 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있는데, 자신이 다음 행동으로 무엇을 해야할지 결정하는데 데이터를 살펴볼 수 있다. 만약 데이터의 변화를 모니터링하다가 예상과 다른 움직임이 있다면 현재 상황을 파악하고, 세부 데이터에 대해 깊게 이해를 하여 현재 무슨 상황이 벌어지고 있는지 알아내야 한다. 예시를 들어보면 내가 백준 문제를 매일 꾸준히 풀고 있는데, solved.ac의 내 아이디에 대한 티어 변화를 집계한 결과를 가져왔다고 해보자. 근데 해당 데이터를 보면 티어에 변화가..
-
[빅데이터의 기초 지식] 3. 파이썬 데이터 분석과 SQL 분석책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:30
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 이 책에 나온 자료 사이트가 접속이 안되서 같은 데이터로 실습을 못한다. 1. 데이터 처리와 스크립트 언어 데이터 분석 분야에서 자주 사용되는 언어는 R과 파이썬이다. 이중에서 데이터 엔지니어는 파이썬의 인기가 높은 편인데, 다양한 분야의 라이브러리가 파이썬에 설치되어 있고, API를 호출하거나 복잡한 문자열을 처리하는데 파이썬이 적합하기 때문이다. 특히 Pandas의 데이터 프레임을 가지고 데이터 처리의 스크립트화를 하는데 빠뜨릴 수 없는 존재라서 데이터 엔지니어라면 Pandas를 충분히 숙지할 것을 추천한다고 책에 나와있다. 2. 데이터 프레임 데이터 프레임은 표 형식의 데이터를 추상화한 객체이다.(데이터 베이스에서 하나의 테이블을 통째로 하..
-
[빅데이터의 기초 지식] 2. 빅데이터 시대의 데이터 분석 기반책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:29
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 빅데이터의 기술 빅데이터의 기술은 다수의 분산 시스템을 조합하여 기존의 데이터 웨어하우스에 비해 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다. - 데이터 파이프라인 차례대로 전달해나가는 데이터로 구성된 시스템으로 데이터를 한 시스템에서 다른 시스템으로 옮기게 파이프 역할을 해주는 기능이다. - 데이터 수집, 스트림 처리와 배치 처리 데이터 파이프라인은 데이터를 모으는 부분부터 시작하는데, 데이터들은 각각 서로 다른 기술들로 데이터를 전송한다. 이때 데이터 전송 방법은 크게 벌크형과 스트리밍형으로 두 가지로 나뉘게 된다. 벌크형은 이미 어디가에 존재하는 데이터를 정리해 추출하는 방법으로, 데이터베이스와 파일 서버등에서 정기적으로 데이터..
-
[빅데이터의 기초 지식] 1. 빅데이터의 정착책/빅데이터를 지탱하는 기술 2022. 3. 22. 17:18
이 글은 빅데이터를 지탱하는 기술을 읽고 정리한 글입니다. 1. 분산 시스템에 의한 데이터 처리의 고속화 빅데이터(big data)라는 단어는 2011년 후반에서 2012년에 걸쳐 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작하는 무렵에 나타났다. 현재에는 빅데이터 기술을 많이 사용하고 있지만, 빅데이터의 기술이 큰 어려움 없이 안심하고 사용할 수 있다고는 말하기 어렵고, 실제로 데이터를 모아서 무엇을 할 것인지에 대해서도 명확하게 해답을 내리기 어렵다. 빅데이터를 다루기 어려운 이유 1. 데이터의 분석 방법을 모른다는 점 (데이터 분석가) 2. 데이터 처리에 수고와 시간이 걸린다는 점 (데이터 엔지니어) 이 두 가지를 해결해야 비로소 가치가 있는 정보를 얻을 수 있다. 빅데이터 기술의 요구 ..
-
[BOJ] Solved.ac 다이아 달성후기/활동 후기 2022. 1. 14. 18:29
원래 방학 때 목표중 일부가 백준 다이아, 2000문제 솔브를 하려고 했는데 2000문제 솔브는 힘들어서 못 하겠고, 졸업 전까지 2000문제를 찍어야겠습니다. 다이아 5까지 몇 포인트 남지 않았길래 더 이상 문제 풀기가 싫어서 기여를 처음 해봤는데, 이렇게 다이아 찍는 것은 너무 꼼수 같아서 결국 문제를 더 풀고 안정권까지 들게 했네요. 플1 한 문제 푸는데 4포인트 정도 오르는데, 클릭 몇 번으로 12포인트가 올라서 너무 적폐인 것 같아요 그래프 알고리즘은 이제 공부할 내용도 몇 개 남지 않았는데 배우는 난이도는 너무 높고, 티어를 올리려면 남은 게 플레 DP나 문자열, 기하 알고리즘을 풀어야 하는데 전부 끔찍한 알고리즘들이네요.. 여기서 더 올라갈 수 있을지는 모르겠습니다 😭😭 마지막으로 FFT를 ..
-
2021년 3차 소프티어 정기 역량 진단 후기후기/활동 후기 2022. 1. 4. 14:29
저때 기말고사 기간이었는데, 백준 문제를 안 풀은지 거의 한 달이 지나서 감이나 잡아보자고 신청을 하여서 합격할 줄은 몰랐네요. 결과는 1월 3일날 나왔으니 대략 2주 정도 걸리는 것 같습니다. Level 3을 취득할 경우에는 2년 내에 현대자동차, 기아, 현대모비스, 현대오토에버, 현대엔지비 SW 분야 지원 시 코딩테스트가 면제된다고 합니다. 다른 블로그를 보니까 Level 3 다음에는 Level 4가 있는데, 이 시험은 오프라인으로 평가를 하는 것이라 현재 코로나 때문에 하고 있는지는 모르겠네요. 문제는 총 2문제였고 3시간 동안 문제를 풀 게 되는데, 개인적으로 난이도가 티어로 치면 실버로 할만한 수준이지만, 시간이 지나면 삼성처럼 점점 어려워져서 골드까지 올라가지 않을까 생각이 듭니다. 현재 삼성..