데이터 파이프라인 소개

반응형

화려한 대시보드와 머신러닝 모델, 그리고 비즈니스를 변화시크는 통찰력 뒤에는 데이터가 있다.  =  데이터를 잘 가공해야 한다.

원본 데이터뿐만 아니라 가치를 제공하기 위해 수많은 소스에서 수집되어 정리, 처리 및 결합된 데이터다.

데이터의 진정한 가치는 그것이 정제되어 소비자게에 전달된 후의 잠재력에 있다. = 잘 정제된 데이터가 보기에도 좋다.

 

데이터 파이프라인이 무엇인지 이야기하고 현대의 데이터 생태계에 어떻게 적용되는지 보여준다. 일괄처리 vs 스트리밍 데이터 수집, 직접 구축하는 것 vs 제품을 구매하는 것 등과 같이 파이프라인을 구현할 때의 일반적인 고려 사항과 주요 결정 사항을 다룬다 = 이부분이 이책에서 배워야 할 핵심 가치일듯.

 

데이터 파이프라인이란?

데이터 파이프라인은 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정이다. 이는 분석, 리포팅, 머신러닝 능력의 기초가 된다.

데이터 파이프라인의 복잡성은 데이터의 크기와 상태, 구조 및 분석 프로젝트의 요구사항에 따라서 달라진다.

실제 데이터파이프라인은 일반적으로 데이터 추출, 데이터 가공, 데이터 유효성 검사를 포함한 여러단계가 구성되며, 때로는 데이터를 최종 목적지로 전달하기 전에 머신러닝 모델을 학습하거나 실행하는 단계가 있기도 하다.

파이프라인에는 여러 시스템과 프로그래밍 언어의 작업이 포함되는 경우가 많다. 데이터 팀은 일반적으로 종속성을 공유하고 조정해야 하는 수많은 데이터 파이프라인을 소유하고 유지한다.

 

누가 파이프라인을 구축할까?

클라우드 컴퓨팅과 SaaS(Software as a Service)가 대중화되면서 조직에서 파악해야 할 데이터 소스가 폭발적으로 증가하고 있다. 데이터엔진니어는 분석 생태계를 뒷받침하는 데이터 파이프라인을 구축하고 유지관리하는데 전문적인 역량을 갖추고 있다.? 갖춰야 한다.

 

데이터 엔진니어의 목적은 단순히 데이터를 웨어하우스에 로드하는 것이 아니다. = 데이터를 밀어넣는 주체 (전시개발?프론트단)에서도 할수 있는 작업

데이터 엔진니어는 데이터 과학자 및 분석가와 긴밀히 협력하여 데이터를 어떻게 처리해야 하는지 파악하고 요구사항을 확장 가능한 프로덕션 상태로 전환하는데 도움을 준다.

데이터 엔진니어는 제공하는 데이터의 유효성과 적시성을 보장하는데 자부심을 가지고 있어야한다? 무엇인가 잘못되었을 때를 대비하여 테스트, 경고 및 비상 계획을 수립한다. 이 부분은 조직에서 사용하는 기술 스택에 따라서 달라진다.

 

다만 우수한 데이터 엔진니어가 보유하고 있는 몇가기 공통적인 기술이 있다.

 

SQL과 데이터 웨어하우징? 기초

데이터 엔진니어는 데이터베이스 쿼리하는 방법을 알아야하고 SQL은 이를 가능하게 해주는 보편적인 언어이다. 숙련된 데이터 엔진니어는 고성능의 SQL 작성 방법을 알고 데이터 웨어하우징 및 데이터 모델링의 기본 사항을 이해하여야한다.

 

분산컴퓨팅

데이터 양이 많아지고 데이터를 신속하게 처리하고자 하는 요구사항이 늘어나면서 데이터 엔진니어들은 분산 컴퓨팅 플랫폼을 사용하고 있다. 분산 컴퓨팅은 여러 시스템의 성능을 결합하여 대량의 데이터를 효율적으로 저장, 처리 및 분석한다.

분석에서 분산컴퓨팅의 대표적인 예는 하둡분산파일시스템(HDFS)을 통한 분산 파일 스토리지, 맵리듀스를 통한 처리, 피그를 통한 데이터 분석 등을 포함하는 하둡에코시스템이다.

 

기본시스템관리

데이터 엔진니어는 리눅스 명령줄에 능숙해야 하고 응용 프로그램 로그분석, 크론 작업예약(스케쥴링), 방화벽 및 기타 보안 설정의 문제 해결과 같은 작업을 수행할 수 있어야 한다.

 

목표 지향적 사고방식

데이터 엔진니어가 파이프라인을 구축하는 이유를 알 때 더 나은 아키텍쳐 결정을 내릴 수 있다.

 

왜 데이터 파이프라인을 구축할까?

결론은 비정형데이터(더러운데이터)를 보기 편한 데이터로 가공하기 위해 데이터 파이프라인을 구축한다.

 

어떻게 데이터 파이프라인을 구축할까?

 

 

 

 

 

 

 

 

반응형

댓글

Designed by JB FACTORY