Data Engineering study

빅지기 메모

데이터 구조화? 여러 데이터 소스들을 활용해서 구조화된 데이터(팩트 테이블, 디멘전 테이블)을 구성하는 것.(hadoop 기준 orc, parquet 등의 열지향 저장소 사용)

hive - 데이터 구조화 할 때 사용하는 배치 처리에 능한 쿼리 엔진, 배치 처리에 능하기 때문에 데이터 마트를 구축하는 것처럼 여러번의 쿼리가 필요한 경우 보다는 한번에 많은 소스를 처리할 때 유용함. ← 구조화된 데이터를 만들 때 주로 사옹

presto - 구조화된 데이터로 data mart를 구축할 때 사용하는 대화형 쿼리엔진으로 매우 빠름!

spark - map reduced를 대체할 수 있는 인 메모리 중심의 데이터 처리 엔진 / ETL 프로세스에서 sql에 이르기 까지 일련의 흐름을 하나의 데이터 파이프라인으로 기술할 수 있음.