[데이터 리니지] 2. 분석계 데이터가 많아질수록 데이터 리니지가 필요한 이유

티스토리 뷰

IT Lab/Database

척척박살 2025. 8. 2. 18:32

데이터 플랫폼이 고도화되고 분석 데이터가 축적되면서, 기업들은 새로운 어려움에 직면합니다.
데이터가 너무 많아져서 오히려 관리가 되지 않는 상황이 벌어지는 것이죠.

출처가 불분명한 테이블들
→ sales_data_v2, sales_data_final_copy, input_sales_v3 … 어느 게 진짜 최신인지 알 수 없음
불필요한 중복 가공
→ 분석가마다 같은 데이터를 가공하면서 중복 테이블이 계속 늘어남
변경의 두려움
→ 테이블 하나 수정하면 어디까지 영향을 줄지 몰라 변경을 주저하게 됨
리포트와 모델 신뢰도 저하
→ 수치가 왜 그런지 설명할 수 없으면 결과도 신뢰받지 못함

실무에서 바로 적용 가능한 대표적인 오픈소스 데이터 리니지 도구들을 소개합니다.

✅ DataHub (by LinkedIn)

✅ Amundsen (by Lyft)

✅ OpenLineage + Marquez

✅ Apache Atlas

데이터를 ‘쌓는 것’보다 중요한 건 ‘이해하고 관리하는 것’입니다.
리니지는 복잡한 데이터 환경에서 데이터의 신뢰성과 통제력을 확보할 수 있게 해주는 필수 도구입니다.

[데이터 엔지니어링] 최신 데이터 도구 업데이트 (2025년 8월) \| Airflow·Snowflake·PostgreSQL·Iceberg (9)	2025.08.16
[데이터 리니지] 3. 데이터 리니지, 어떻게 구성할까? (1)	2025.08.02
[데이터 리니지] 1. AI 시대, 데이터 리니지의 중요성 (0)	2025.08.02
[DB 실무] DBeaver로 데이터베이스 간 테이블 복사하기 (1)	2025.07.09
[PostgreSQL] 운영자를 위한 필수 쿼리 모음 (0)	2025.06.01

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함