빅데이터의 취급하기 어려운 점을 극복한 두가지 기술

반응형

빅데이터의 취급이 어려운 이유는 크게 두가지다.

1. '데이터의 분석 방법을 모른다' 는 점이고,

2. '데이터 처리에 수고와 시간이 걸린다'

데이터가 있어도 그 가치를 창조하지 못한다면 의미가 없고, 지식이 있어도 시간을 많이 소비한다면 할 수 있는 것은 한정된다.

지금의 많은 오픈소스가 개발되어 위 두가지 방법을 해결을 해주었다.

내가 생각했을때는 첫번째 Hadoop의 등장이다. 그리고 Hadoop을 이용한 다양한 처리 기술들이 많이 개발되었고, 많은 사람들이 빅데이터 개발과 분석에 위와 같은 기술들을 많이 사용하고있다.

 

빅데이터의 기술의 요구

빅데이터의 기술로 가장 먼저 예로 들 수 있는 것이 'Hadoop'과 'NoSQL'이다.

인터넷 보급으로 세계 곳곳으로부터 액세스 되는 시스템이 증가함에 따라 전통적인 관계형 데이터베이스(RDB)로는 취급할 수 없을 만큼 대량의 데이터가 점자 쌓이게 되었다. 그렇게 축적된 데이터를 처리하려면 기존과는 다른 구조가 필요했다. Hadoop과 NoSQL은 각각 다른 요구를 충족하기 위해 태어났다.

 

Hadoop

Hadoop은 '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템이다. 예를들어, 전 세계의 웹페이지를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요하다. 그러기 위해서는 수백 대, 수천 대 단위의 컴퓨터가 이용되어야 하며, 그것을 관리하는 것이 Hadoop이라는 프레임워크다.

 

Hadoop은 원래 구글에서 개발된 분산처리 프레임워크인 'MapReduce'를 참고하여 제작되었다. 초기 Hadoop에서 MapReduce를 동작시키려면 데이터 처리의 내용을 기술하기 위해 자바 언어로 프로그래밍을 해야 했다. 그렇기 때문에 누구나 간단히 사용하지 못하였다.

 

그래서 SQL과 같은 쿼리 언어를 Hadoop에서 실행하기 위한 소프트웨어로 'Hive'가 개발되어 2009년에 출시 되었다. Hive의 도입에 의해 프로그래밍 없이 데이터를 집계할 수 있게 함으로써 많은 사람들이 Hadoop을 이용한 분산 시스템의 혜택을 받을 수 있게 되었고, 그로 인해 점차 사용자를 확대할 수 있었다.

 

NoSQL 데이터베이스

한편, NoSQL은 전통적인 RDB의 제약을 제거하는것을 목표로 한 데이터베이스의 총칭이다. NoSQL 데이터베이스에는 다양한 종류가 있다.

다수의 키와 값을 관려지어 저정하는 "키 밸류 스토어(key-value stor/KVS), JSO과 같은 복잡한 데이터 구조를 저장하는 '도큐먼트 스토어', 여러키를 사용하여 높은 확장성을 제공하는 '와이드컬럼 스토어'등이 대표적이다.

 

반응형

'Hadoop' 카테고리의 다른 글

YARN #2  (0) 2021.03.01
YARN(Yet Another resource Negotiator)  (0) 2021.03.01
분산시스템의 비즈니스 이용  (0) 2021.02.20

댓글

Designed by JB FACTORY