-
Ingestion
- Airbyte
-
Analytics
- Metabase
- Redash
- JupyterHub
-
Workflow
- Airflow
-
Monitoring
- Grafana
-
Airbyte는 데이터를 추출(Extract)하고 로드(Load)하는 EL Tool로 고객이 보유하고 있는 데이터를 Lake Prime의 시스템으로 가져오기위해 이용됩니다. Airbyte 자체적으로 DB, 서버, 파일, SNS 등 다양한 Connector를 지원하기 때문에 고객 맞춤형 Connector 생성이 가능합니다. Airbyte를 통한 Ingestion 과정은 아래의 3단계로 나뉘어서 진행됩니다.
Learn more
1. Source 생성 : 추출하고자하는 고객의 Data Source 정보 입력합니다.
2. Destination 생성 : Lake Prime에서 제공하는 Storage의 정보를 입력합니다. ( Storage 접속정보와 함께 저장될 경로도 지정해주기때문에 같은 Storage라고 하더라도 최종적으로 이동되어야하는 Storage 경로가 다를 경우에는 각각 따로 생성해야합니다.)
3. Connector 생성 : 생성한 Source와 Destination을 각각 선택하여 Connector를 생성할 수 있으며, 이때 Data Sync 빈도 설정 등의 추가 옵션 선택이 가능합니다.
-
Metabase는 BI Dashboard Tool로 편리하고 직관적인 인터페이스를 통해 데이터를 탐색할 수 있으며 비주얼 쿼리 빌더 기능을 통해 분석가 아니더라도 데이터를 쉽게 탐색 및 시각화 할 수 있습니다. Matabase를 통해 제공되는 대표적인 기능은 아래와 같습니다.
Learn more
· Database Query : 비주얼 쿼리 빌더 기능을 통해 시각적 쿼리 작성이 가능하며 고급 사용자의 경우 SQL 편집기를 사용하여 작업할 수 있습니다.
· Dashboard 생성 : Metabase 자체에 내장된 약15개의 시각화 기능을 통해 간편하게 차트 및 대시보드를 생성할 수 있습니다. -
Redash는 Metabase와 마찬가지로 DB관리, 대시보드 생성 등의 기능을 제공하는 클라우드 기반 BI Tool입니다. 주요 특징은 아래와 같습니다.
Learn more
· 브라우저 기반으로 언제 어디서든 접속이 가능하며 URL로 공유하기가 편합니다.
· 쿼리 작성에 도움을 주는 단축키 및 자동완성 기능으로 사용이 간편합니다.
· 시각화 및 대시보드 기능을 제공하며 드래그 앤 드랍을 통한 생성이 가능합니다. -
JupyterHub는 데이터에 대한 탐색적 분석(EDA) 과정을 수행하기 위한 웹플랫폼으로 Jupyter Notebook을 통한 데이터 분석 및 머신러닝/딥러닝이 가능합니다.
Learn more
Jupyter Notebook은 다양한 프로그래밍 언어를 지원하며 셸 단위로 실행할 수 있기 때문에 실행의 결과를 즉각적으로 확인이 가능하며 Markdown 문서를 삽입하여 추가 설명을 포함할 수 있다는 특징이 있습니다.
-
Airflow는 Transformaion를 수행하는 Task(DAG)에 대한 Workflow를 관리하기위해 이용되며 제공하는 기능은 아래와 같습니다.
Learn more
· DAG 형태의 Data Pipeline Job의 성공/실패 여부 제공
· 개별 Task Job에 대한 상세 Log 기록 확인 및 저장 ( 저장될 Storage에 대한 Connection 연결 필요 )
· DAG Workflow의 History 제공
· DAG의 개별 Task Job에 대한 성능 통계 제공
-
Lake Prime의 Monitoring은 Lake Prime 플랫폼이 동작되는 모든 Compute Resource에 대한 실시간 사용량 지표를 수집하여 제공합니다.
Learn more
Lake Prime의 동작 기반인 쿠버네티스의 Cluster, Node, Pod 등의 Resource를 선택할 수 있으며 선택한 Resource에 대한 CPU 사용량, Memory 사용량, Bandwidth 등의 지표정보를 확인할 수 있습니다.