모종닷컴

데이터 레이크 본문

기술 용어

데이터 레이크

모종 2022. 8. 14. 10:50
반응형

데이터 레이크

데이터 레이크란 조직에서 수집한 정형화, 반정형화, 비 정형화된 데이터를 저장하는 장소입니다. 다양한 원천으로부터 가져온 다양한 데이터를 원시 데이터로서 저장하고 있습니다. 원시 데이터로서 저장한다는 말은 즉 특정한 목적을 위해 변형되지 않은 상태의 데이터를 저장한다는 것입니다. 

데이터 레이크를 검색하니 데이터 웨어하우스와 비교를 하는 글이 많이 보이는데 이 둘의 차이점을 알아보도록 하겠습니다.

데이터 레이크 vs 데이터 웨어하우스

데이터 레이크와 데이터 웨어하우스는 유사하지만 동일하지 않으며 목적 또한 다릅니다. 빅데이터를 위한 데이터 스토리지 저장소라는 것만이 유일한 유사점이라고 볼 수 있습니다. 

적재 과정

데이터 레이크는 데이터를 빠르게 수집하여 사람들이 더 빠르게 데이터에 액세스 해줄 수 있습니다. 왜냐하면 데이터를 저장하기 전에 이를 변형하지 않고 저장하기 때문입니다. 반면 데이터 웨어하우스는 정형화된 데이터를 저장하는 데에 목적을 두고 있기 때문에 데이터를 저장하기 위해서는 변형하거나 정제를 하는 등의 작업이 필요합니다. 

사용 목적

데이터 레이크는 특정 목적을 가지고 저장을 하고 있지 않습니다. 이렇게 저장한 데이터를 후에 필요할 때 정제하여 사용하도록 목적을 두고 있기 때문이죠. 데이터 웨어하우스는 데이터를 미리 정의된 목적(분석, 비즈니스 인텔리전스, 리포팅 등)으로 저장하기 때문에 데이터 레이크와 다르다고 할 수 있습니다. 

데이터 종류

데이터 웨어하우스는 트랜잭 션 시스템, 운영 데이터베이스 및 사업 부서(LOB) 애플리케이션의 관계형 데이터를 저장하고 있고, 데이터 레이크는 정형, 반정형, 비정형 등 모든 데이터를 저장하고 있습니다.

스키마

데이터 레이크는 Schema on read, 데이터 웨어하우스는 Schema on write입니다. 문자 그대로 데이터를 읽을 때 스키마가 정의되어 있는 것과 데이터를 처음 저장할 때 스키마를 정의하고 데이터를 저장하는 것이다. 예를 들면 MySQL을 들 수 있는데, 미리 스키마가 정의되어 있어야 쓰기가 가능하다. Schema on read로는 Hadoop을 예로 들 수 있다. 

 

반응형

'기술 용어' 카테고리의 다른 글

Swap memory  (0) 2022.11.27
서버 이중화 동작 방식  (0) 2022.09.11
유한 상태 기계 (Finite-State Machine, FSM)  (0) 2022.08.16
온프레미스(On-premise)  (0) 2022.08.12
C.A.P 이론  (0) 2022.07.16