티스토리 뷰
반응형

데이터 플랫폼이 고도화되고 분석 데이터가 축적되면서, 기업들은 새로운 어려움에 직면합니다.
데이터가 너무 많아져서 오히려 관리가 되지 않는 상황이 벌어지는 것이죠.
분석계 데이터 증가에 따른 문제
- 출처가 불분명한 테이블들
→ sales_data_v2, sales_data_final_copy, input_sales_v3 … 어느 게 진짜 최신인지 알 수 없음 - 불필요한 중복 가공
→ 분석가마다 같은 데이터를 가공하면서 중복 테이블이 계속 늘어남 - 변경의 두려움
→ 테이블 하나 수정하면 어디까지 영향을 줄지 몰라 변경을 주저하게 됨 - 리포트와 모델 신뢰도 저하
→ 수치가 왜 그런지 설명할 수 없으면 결과도 신뢰받지 못함
데이터의 혼란을 정리하는 핵심 도구, 데이터 리니지
| 문제점 | 리니지가 제공하는 해결책 |
| 출처 불명확 | 데이터의 생성 → 변환 → 활용 흐름 추적 |
| 중복 테이블 | 활용 현황을 기반으로 중복 여부 판단 |
| 영향도 분석 불가 | 테이블/컬럼 변경 시 연결된 모델 및 리포트 자동 추적 |
| 신뢰도 부족 | 데이터 계보 기반의 결과 설명 가능 |
주요 데이터 리니지 솔루션
실무에서 바로 적용 가능한 대표적인 오픈소스 데이터 리니지 도구들을 소개합니다.
✅ DataHub (by LinkedIn)
- Kafka, dbt, Airflow, ML model metadata 등과 잘 통합됨
- 실시간 리니지 시각화 지원
✅ Amundsen (by Lyft)
- 검색 UI 중심, Atlas와 통합해 리니지 기능 확장 가능
✅ OpenLineage + Marquez
- 리니지 표준 스펙(OpenLineage) 기반
- Spark, dbt, Airflow와 통합에 최적화
✅ Apache Atlas
- 정책 및 보안 기능까지 포함된 메타데이터 관리 도구
- Hadoop 및 대규모 엔터프라이즈 환경에 적합
결론
데이터를 ‘쌓는 것’보다 중요한 건 ‘이해하고 관리하는 것’입니다.
리니지는 복잡한 데이터 환경에서 데이터의 신뢰성과 통제력을 확보할 수 있게 해주는 필수 도구입니다.
[관련 포스트]
[데이터 리니지] 1. AI 시대, 데이터 리니지의 중요성
[데이터 리니지] 3. 데이터 리니지, 어떻게 구성할까?
반응형
'IT Lab > Database' 카테고리의 다른 글
| [데이터 엔지니어링] 최신 데이터 도구 업데이트 (2025년 8월) | Airflow·Snowflake·PostgreSQL·Iceberg (9) | 2025.08.16 |
|---|---|
| [데이터 리니지] 3. 데이터 리니지, 어떻게 구성할까? (1) | 2025.08.02 |
| [데이터 리니지] 1. AI 시대, 데이터 리니지의 중요성 (0) | 2025.08.02 |
| [DB 실무] DBeaver로 데이터베이스 간 테이블 복사하기 (1) | 2025.07.09 |
| [PostgreSQL] 운영자를 위한 필수 쿼리 모음 (0) | 2025.06.01 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- PostgreSQL
- sql
- 챗gpt
- db운영
- DATABASE
- AnsiSQL
- mssql
- 데이터리니지
- rockylinux
- venv
- 데이터 리니지
- DB
- 앱개발
- cursorai
- DBMS
- 테이블복사
- data lineage
- sqlserver
- gpt활용
- 바이브코딩
- AI코딩
- ChatGPT
- JSONB
- IOS
- datahub
- 데이터베이스
- Xcode
- 데이터플랫폼
- java배포
- k8s
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
글 보관함