하둡은 하나의 프레임워크

하둡의 hdfs는 대용량 log 데이터를 저장하는데 사용될 수 있음. 전통적인 RDB의 경우 대용량의 데이터셋을 저장하는 것엔 적합하지 않음.
하둡의 hdfs에서 spark를 통해 etl을 구성할 수 있고,,,,
redshift / bigquery 등은 데이터 웨어하우스로,
OLTP와 하둡도 다른 거임!!! OLTP는 운영용 DB에 가까운 거고,,, 하둡은 아예 log기록저장소고,,, 여기서 spark를 통한 etl로 bigquery 데이터 웨어하우스에 저장할 수 있고,,, 등등..
데이터 마트에서는 뭘 파나요?(feat. OLTP, OLAP)
hadoop의 hdfs는 분산형 파일 시스템. 대용량 log data의 경우 한 server의 rdb에 저장하게 되면 속도가 느림(rdb는 데이터 무결성 등에 초점을 맞추고 있기 때문에) 따라서 대용량 log data의 경우에는 hdfs를 통해 여러개의 server에 분산 저장하게 됨.
회사의 크기가 작고 저장해야 할 데이터 양이 많지 않다면 프로덕션 데이터 베이스를 data warehouse로 사용해도 되지만, 회사의 규모가 커짐에 따라 oltp로 데이터 웨어하우스를 사용할 수 없어짐...
쇼핑몰을 예로 들면, 서비스 운영에 필요한 DB(OLTP)는 mysql 등의 관계형 DB로 구성하고, 데이터 분석을 위한 대용량 log data는 hdfs로 저장하는 것 같음. hdfs로 저장된 분산 데이터를 mapreduce를 통해 웨어하우징(ETL) spark도 이러한 tool인 듯...(ETL) ETL로 저장되는 목적지가 데이터 마트,,, 인 것으로 이해함.. 데이터 마트는 주로 관계형 DB로 구성하는듯...
snowflake나 redshift, bigquery는 데이터 웨어하우스 임!!!(중요한 포인트는 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다.) sql을 모두 지원!!
[데이터 엔지니어링] 데이터 웨어하우스(Data Warehouse)


데이터 웨어하우스를 주축으로 한 data pipeline

데이터 레이크를 주축으로 한 data pipeline
데이터 레이크는 소스로 부터 가공 없이 데이터를 가져와서 저장한다.