데이터 파이프라인 개념 정리

https://playinpap.github.io/data-pipeline/

데이터 파이프라인 개념 정리

들어가며 우리는 주로 BI 툴이나 대시보드 툴을 통해 데이터를 확인하고 분석합니다. 하지만 이 데이터, …

playinpap.github.io

이 글은 PAP 커뮤니티에 게재된 홍선아님의 글을 읽고 요약한 글입니다.
자세한 내용은 원문을 참고하시면 좋습니다!

데이터 파이프라인

차례대로 전달해 나가는 데이터로 구성된 시스템. 목적에 따라 다르지만, 흔히 데이터 소스 - 추출 - 정제 - 변환 - 저장의 과정을 포함합니다. <빅데이터를 지탱하는 기술, 니시다 케이스케 지음>에서는 두가지로 분류하고 있다.

데이터 웨어하우스를 주축으로 한 데이터 파이프라인
데이터 레이크를 주축으로 한 데이터 파이프라인

데이터 수집 방식

벌크형 : 이미 존재하는 데이터를 정리해 추출하는 방법.
스트리밍형 : 차례대로 생성되는 데이터를 끊임없이 연속적으로 보내는 방법. 흔히, 모바일 앱이나 임베디드 장비 등에서 사용.

저장소

분산 스토리지 : 여러 컴퓨터와 디스크로 구성된 스토리지 시스템으로 데이터가 수집되면 분산 스토리지에 저장. 대표적인 예시는 객체 스토리지로, 폴더와 같이 한 덩어리로 모인 데이터에 이름을 부여해 파일로 저장하는 방식.

데이터 웨어하우스

기업이나 조직에서 사용하는 모든 데이터를 한 곳에 모아 관리하고 분석하는 시스템.

데이터 마트

특정 주제나 비즈니스 프로세스에 관한 정보를 중심으로 구성되어, 작고 더 특화된 데이터 저장소.

데이터 레이크

데이터가 생성되는 곳이 제각각인 만큼, 데이터를 있는 그대로 데이터웨어하우스에 넣을 수 없을 때가 생긴다. 이때 모든 데이터를 원래의 형태로 축적해두었다가 나중에 가공하는 구조가 필요하다. 그래서, 레이크 내에 저장되는 자료는 미가공된 로우 데이터이다.
데이터 레이크 내 데이터를 데이터 마트로 추출할 때 Hadoop, Spark와 같은 분산 데이터 처리 기술을 활용하고, 이 과정을 ETL(Extraction - Transfomation - Load)라고 일컫는다.

저는 올 여름에 국비교육을 통해 기초 데이터 엔지니어링을 학습하려고 계획하였습니다.
이미 현업에 계신 데이터분석가분들은 물 먹듯 자연스러운 내용이시겠지만,
저에게는 항상 자격증 문제에서만 보던 내용이어서 정리해보게 되었습니다!
실제 길러야 하는 역량의 1%도 되지 않는 내용이지만,
적어도 누군가 제게 데이터 레이크, 데이터 마트, 데이터 웨어하우스에 대해 묻는다면,
구분지어 설명 할 수 있을 것 같다는 자신감이 생겼습니다.

출처 : Freecodecamp <How to Build a Scalable Data Analytics Pipeline>

저작자표시 (새창열림)

'데이터분석가 > 데분당태 블로그챌린지' 카테고리의 다른 글

뻔하지만 강력한 무기 회귀분석 (0)	2023.05.04
신뢰할 수 있는 지표 만들기 (0)	2023.05.03
무작위 시행이 필요한 이유, 선택편의를 제거하는 방법 (0)	2023.05.01
이벤트 로그 체계 구축 여정 (0)	2023.04.30
통계학이 제품 분석의 실제 도구가 되는 과정 (0)	2023.04.29