Bigdata Ingestion, Transformation, Analytics, Management Platform
Lake Prime
쿠버네티스 기반 빅데이터 통합ㆍ가공ㆍ분석 플랫폼

웹프라임의 데이터레이크 서비스 “Lake Prime”은 대량의 데이터를 저장 및 가동하여 분석하는 빅데이터 통합ㆍ가공ㆍ분석 플랫폼입니다.
Lake Prime은 확장 가능하고 안전한 서비스를 제공하며
고객은 이를 통해 다양한 source의 데이터를 데이터의 형태에 관계없이 수집할 수 있고
Python, SQL, JAVA 등의 다양한 언어와 BI Tool을 활용하여 효율적으로 데이터를 가공 및 분석할 수 있습니다.

1

LakePrime.co.kr에 접속하여 로그인(회원가입) 후 서비스를 신청합니다.

2

Airbyte의 Data Connector 생성 기능을 이용하여 고객이 가지고 있던 데이터를 Lake Prime의 Object Storage로 raw 데이터 형태 그대로 이동시킵니다.

3

‘2. 데이터 이동’ 단계에서 Object Storage에 저장한 row 데이터를 가공 후 Table을 생성하여 분석이 가능한 형태로 변형시킵니다. 이때 Trino Query 엔진, spark, dbt 등의 오픈소스를 통해 가공시킬 수 있으며 생성한 Table은 Hive 또는 Trino에 저장됩니다.

4

생성한 Table을 Metabase, redash, JupyterHub와 같은 BI & EDA Tool을 이용하여 불러온 후 분석 및 AI 모델 학습 등의 단계를 진행합니다.

5

시스템 관리자(admin)는 Lake Prime에서 제공하는 모니터링 기능을 이용하여 Lake Prime이 동작되는 시스템을 실시간 모니터링 할 수 있습니다.

6

‘4. 데이터 분석’ 단계에서 생성한 AI 인공지능 모델을 AI API 서버에 추가하여 AI 서비스를 제공하는 API를 생성합니다.

7

고객사의 Portal에서 AI 서비스를 추가한 후 ‘6. AI 모델 API 추가’ 단계에서 생성한 API를 연결하여 AI 서비스를 End-User에게 제공합니다.

Lake Prime에서 제공하는 모니터링 기능으로 Lake prime 시스템이 동작하는 쿠버네티스 시스템의 Metrics 지표를 실시간으로 확인할 수 있습니다.

Ingestion 기능은 고객의 데이터 sourc로 부터 Lake Prime 플랫폼으로 데이터를 이동시켜주는 기능으로 데이터 분석을 위한 첫번째 단계입니다.

Transformation 기능은 Ingestion을 통해 가져온 고객의 row 데이터를 쿼리 및 분석이 가능한 형태로 가공하는 단계입니다.

Analytics 기능은 Transformation 과정을 통해 가공한 Data를 분석하는 단계입니다. Lake Prime에서 제공하는 여러 오픈소스 Tool을 통해 효과적인 쿼리 작성 및 데이터 시각화가 가능합니다.

AI 인공지능 모델이 있는 AI API Server로 요청을 보내고 그에대한 응답을 받아 End-User에게 예측값을 제공하는 서비스

DRF(Django REST Framework) 서버로 AI 예측 요청을 받고 그 결과를 Return해주는 서버

Lake Prime을 사용하는 고객사의 최종 End-User로 고객사의 서비스 Portal에 접근해서 분석 및 AI 서비스를 이용

고객사의 전반적인 시스템을 관리하는 Administrator(관리자)로 Lake Prime 서비스 시스템의 모니터링 및 최종적으로 생성한 AI 모델을 고객사의 서비스에 적용시켜 End-User에게 분석 및 AI 서비스를 제공

고객사가 보유하고 있는 데이터를 이동시키고 Data Analyst가 분석할 수 있도록 데이터를 가공

Data Engineer가 가공한 데이터를 분석 및 AI 인공지능 모델 생성

  • 맞춤형 connector 구축
    사용자의 data source에 맞게 connector를
    구축하여 데이터를 이동시킬 수 있습니다.
    more view
  • 안전한 데이터 이동
    시스템 가용성, 처리 무결성, 데이터 기밀성을
    중심으로 설계되어 핵심적인 3가지 데이터 보호
    원칙을 준수합니다.
    more view
  • 초대용량 데이터 저장
    데이터 저장 공간을 사업 규모에 따라
    GigaByte(GB) 단위에서 PetaByte(PB) 단위까지
    확장 가능합니다.
    more view
  • dbt
    다른 복잡한 과정없이 오직 SQL만으로 원하는
    테이블을 생성하고 관리할 수 있습니다.
    more view
  • Trino
    속도가 빠른 빅데이터용 분산 SQL
    쿼리엔진인 Trino를 이용하여 데이터를
    Query 할 수 있습니다.
    more view
  • Iceberg Table
    ORC, Avro, Parquet 등 다양한 형식을
    지원하기 때문에 확장성이 좋고
    snapshot 방식으로 버전별 롤백을 지원합니다.
    more view
  • 데이터 분석에 집중
    노트북에 저장되는 데이터의 양이나
    사용가능한 컴퓨팅의 제한없이 Lake Prime
    플랫폼을 이용하여 분석에만 집중할 수 있습니다.
    more view
  • 데이터 시각화
    BI Tool을 데이터 시각화 및
    대시보드 생성이 가능하며 생성한
    대시보드에 대한 공유가 가능합니다.
    more view
  • JupyterHub
    Lake Prime 시스템과 연동되는 Jupyter
    Notebook을 통해 빅데이터를 분석할 수 있습니다.
    more view
  • Workflow 구축
    Python 기능을 사용하여 workflow 생성이 가
    능하고 DB, Cloud service 등의 다양한 시스템
    과 통합이 가능합니다.
    more view
  • Workflow 관리
    Lake Prime에서 제공하는 Airflow
    인터페이스를 활용하여 데이터 파이프라인
    모니터링 및 관리가 간편합니다.
    more view
  • 시스템 모니터링
    Grafana를 통해 쿠버네티스 기반의 Lake Prime
    syste을 monitoring 할 수 있습니다.
    more view
Lake Prime 특징

Feature

쿠버네티스 기반의
단일화된 플랫폼 관리
플랫폼의 모든 구성요소가 쿠버네티스 기반으로 동작하기 때문에 관리가 단일화되어 표준화된 관리 및 스케쥴링이 가능합니다.
오픈 소스 기반의 시스템 구축
오픈소스로 이루어져있어 버그에 대한 빠른 대응이 가능하여 서버가 안정적이고 유연하며 또한 다른 독점적 소프트웨어에 비해 비용 효율적입니다.
단일 데이터 플랫폼
단일 플랫폼에 모든 정보를 저장하기때문에 정보를 수집 및 검색하기 위한 다른 플랫폼으로의 이동이 불필요합니다.
단순한 데이터 저장 방법
정형 및 비정형데이터에 관계없이 모든 유형의 데이터를 수집하기 때문에 데이터 저장 시에 데이터 모델링이 필요없고 필요에 따라 필터링 및 모델링을 진행합니다.
다양성
Social 데이터, Binary 데이터, Logs 등 다양한 Source의 데이터 저장이 가능하고 다양한 옵션과 언어를 지원합니다.
고급분석
딥러닝 알고리즘과 함께 대량의 일관성있는 데이터를 활용하는데 탁월하고 동일한 데이터에 대해 여러 스키마를 정의 할 수 있어서 분석에 적합합니다.
Lake Prime 솔루션

Solution

HKMNS 자동차 부품 제조업
노후 경유차 매연 감소를 위한 매연저감장치(DPF) 관련 특허 기술 및 노하우 보유하고 있으며
정부 환경사업의 일환으로 해당 장치에 대한 장착 사업을 진행중인 자동차 부품 제조업으로 당사 매연저감장치를 부착한 차량은
전국적으로 10만여대가 넘으며 사후 유지보수관리를 위하여 A/S 콜센타 및 50여명의 A/S 기사들이 현장 지원 중임

매연저감장치 부착차량들로부터 수집한 OBD(On-Board Diagnostics) 데이터를 분석하여
그동안 대응하지 못했던 부품품질 향상, 성능관리 및 AS 업무 고도화를 구현하여 제품 및 서비스 경쟁력을 높이고자 함.

궁극적으로 AI를 활용한 고장예측을 통해 사후 유지보수관리에서 사전 유지보수 서비스 시스템(예측정비시스템)으로 전환하고자 함.

  • 성능확인 검사 부적합률 2.5% 감소
    성능확인 검사 사전에 결과에 대한 예측이
    가능하기 때문에 실질적인 검사결과 부적합률이 감소
  • 장치 신뢰도/기업 호감도 상승
    정확한 장치 비정상 요인 분석 및 진단을 통해
    적절한 현장조치를 제공함으로써 장치 신뢰도를 높이고
    당사에 대한 호감도를 상승
  • 고객 만족도 증가
    1차 검사의 합격률을 높임으로써 재검사의 불편을
    최소화함으로써 고객 만족도 증가
  • 부품 성능 개선 시간 단축
    빅데이터 기반의 AI 분석을 통해 부품개선이 필요한 항목을 정확히 도출함으로써 부품개선에 필요한 시간 단축 및 높은 성능과 내구성을 구비한 장치 제공
A/S 현장 조치 시간 15분 감소

쿠버네티스 기반의 빅데이터 통합ㆍ가공ㆍ분석 플랫폼 LakePrime