티스토리 뷰

 
데이터 플랫폼이 고도화되고 분석 데이터가 축적되면서, 기업들은 새로운 어려움에 직면합니다.
데이터가 너무 많아져서 오히려 관리가 되지 않는 상황이 벌어지는 것이죠.
 


 

⚠️ 분석계 데이터 증가에 따른 문제

  1. 출처가 불분명한 테이블들
    → sales_data_v2, sales_data_final_copy, input_sales_v3 … 어느 게 진짜 최신인지 알 수 없음
  2. 불필요한 중복 가공
    → 분석가마다 같은 데이터를 가공하면서 중복 테이블이 계속 늘어남
  3. 변경의 두려움
    → 테이블 하나 수정하면 어디까지 영향을 줄지 몰라 변경을 주저하게 됨
  4. 리포트와 모델 신뢰도 저하
    → 수치가 왜 그런지 설명할 수 없으면 결과도 신뢰받지 못함

 


 

💡 데이터의 혼란을 정리하는 핵심 도구, 데이터 리니지

문제점 리니지가 제공하는 해결책
출처 불명확 데이터의 생성 → 변환 → 활용 흐름 추적
중복 테이블 활용 현황을 기반으로 중복 여부 판단
영향도 분석 불가 테이블/컬럼 변경 시 연결된 모델 및 리포트 자동 추적
신뢰도 부족 데이터 계보 기반의 결과 설명 가능

 

 

 

🧰 주요 데이터 리니지 솔루션

실무에서 바로 적용 가능한 대표적인 오픈소스 데이터 리니지 도구들을 소개합니다.
 
✅ DataHub (by LinkedIn)

  • Kafka, dbt, Airflow, ML model metadata 등과 잘 통합됨
  • 실시간 리니지 시각화 지원

✅ Amundsen (by Lyft)

  • 검색 UI 중심, Atlas와 통합해 리니지 기능 확장 가능

✅ OpenLineage + Marquez

  • 리니지 표준 스펙(OpenLineage) 기반
  • Spark, dbt, Airflow와 통합에 최적화

✅ Apache Atlas

  • 정책 및 보안 기능까지 포함된 메타데이터 관리 도구
  • Hadoop 및 대규모 엔터프라이즈 환경에 적합

 


 

✅ 결론

데이터를 ‘쌓는 것’보다 중요한 건 ‘이해하고 관리하는 것’입니다.
리니지는 복잡한 데이터 환경에서 데이터의 신뢰성과 통제력을 확보할 수 있게 해주는 필수 도구입니다.

 

[관련 포스트]

[데이터 리니지] 1. AI 시대, 데이터 리니지의 중요성
[데이터 리니지] 3. 데이터 리니지, 어떻게 구성할까?

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함