분산시스템의 비즈니스 이용
- Hadoop
- 2021. 2. 20.
일부 기업에서는 이전부터 데이터 분석을 기반으로 하는 "엔터프라이즈 데이터 웨어 하우스(enterprise data warehouse/EDW 또는 데이터 웨어하우스 /DWH)를 도입했다. 전국 가지에서 보내진 점포의 매출과 고객 정보등이 오랜기간에 걸쳐 축척되고, 그것을 분석함으로써 업무 개선과 경영 판단의 자료로 활용되었다.
우리회사도 마찬가지로 전국에 있는 오프라인 점포의 매출데이터 정보와 온라인에서 판매되는 데이터를 데이터 웨어하우스에 분석을 위한 목적으로 데이터를 계속 축적하고 있다.
분산 시스템의 발전에 따라, 기존이라면 데이터 웨어하우스 제품이 사용되는 경우에도 Hadoop을 사용하는 경우가 증가했다. 다수의 데이터 분석 도구가 Hadoop에 대한 대응을 표명하여 대량의 데이터를 보존 및 집계하기 위해 Hadoop 과 Hive를 사용하게 되었다. 그 결과 Hadoop의 도입을 기술적으로 지원하는 비즈니스가 성립하게 되었다. 그리고 그때 사용하게 된 키워드가 바로 '빅데이터'다
전통적인 데이터 웨어하우스에서도 대량의 데이터를 처리할 수 있으며, 오히려 여러방면에서 Hadoop보다도 우수하다. 하지만 단점도 있다. 일부 데이터 웨어하우스 제품은 안정적인 성능을 실현하기 위하ㅐ 하드웨어 소프트웨어가 통합된 통합 장비로 제공되었다. 데이터 용량을 늘리려면 하드웨어를 교체해야 하는 등 나중에 확장하기가 쉽지 않았다. 따라서, 가속도적으로 늘어나느 데이터의 처리는 Hadoop에 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분하게 되었다.
예를들어, 야간 배치 등 심야에 대량으로 발생하는 데이터 처리에 Hadoop을 사용하고 있는데, 야간 배치에서는 매일 거래되는 데이터 등을 심야에 집계하여 다음 날 아침까지 보고서에 정리한다. 데이터양이 증가하면 배치 처리 또한 시간이 걸려 보고소의 완성이 늦어지고 이로 인해 업무에 지장이 생긴다. 그런 이유로 확장성이 뛰어난 Hadoop에 데이터 처리를 맡기으로써 데이터 웨어하우스의 부하를 줄이고 있다.
'Hadoop' 카테고리의 다른 글
YARN #2 (0) | 2021.03.01 |
---|---|
YARN(Yet Another resource Negotiator) (0) | 2021.03.01 |
빅데이터의 취급하기 어려운 점을 극복한 두가지 기술 (0) | 2021.02.09 |