Modern Data Architecture는 무엇일까?
제가 참석한 AWS Re:invent 2023 데이터관련 세션들에서 공통적으로 언급된 단어가 Modern Data Architecture였는데요. 사실 서로 다른 개별 세션에서 해당 단어만 마주하였을때 정확히 어떤 의미인지 바로 이해하기는 어려웠습니다. 세션을 듣고 질문도 해보고 생각도 해보고 찾아보면서 제가 이해한 바를 정리해보면 이렇습니다.
일반적으로 데이터 아키텍쳐는 데이터를 다루는 전반의 과정인 수집, 변환, 배포, 소비까지를 설계하는 도식과 같습니다. 이 도식을 만들기위해 데이터 아키텍트, 데이터 과학자, 데이터 엔지니어들이 비즈니스 요구 사항을 기반으로 설계하며 데이터 모델과 기본 데이터 구조를 생성합니다. 이는 데이터 저장 시스템의 흐름 뿐만아니라 SQL, BI, ML, AI 업무의 기초로 리포트나 데이터 과학과 같은 이니셔티브를 지원하는데 기반이 됩니다.
그렇다면 Modern Data Architecture는 어떻게 그냥 Data Architecture와 다를까요?
먼저, 여기서 ‘모던’은 절대적인 상태를 설명하는 단어는 아니기 때문에 현 시점에서 ‘모던’하다는 의미는 수십년동안의 기존 아키텍쳐와 구분할 수 있는 차별점을 설명하는데 그 의미가 있습니다.
최근 거의 모든 비지니스 영역에서 사업 및 산업 환경이 너무 빠르게 변화하면서 사업에서는 변화하는 환경을 빠르게 분석하고 의사결정 또한 빠르게 내리고 수정해야하는 상황이 ‘New Normal’이 되었습니다. 이러한 변화속에서 데이터에 대한 접근 역시 빠르고 신속하게 필요한 데이터를 찾아 손쉽게 대용량 데이터를 처리하여 기존 데이터 프로덕트에 빠르게 수정 배포하고 새로운 인사이트를 발굴하는 것이 중요해졌습니다.
기존의 전통적인 데이터 아키텍쳐는 ETL 베이스로 여러 데이터 소스로부터 수집된 데이터를 웨어하우징 또는 마트화하고 리포팅하고 인사이트를 얻는 순서에 따라 설계되었습니다. 과거에는 이 프로세스에만 집중하여 각각의 단계가 잘 수행되도록 하는데 중점이 있었습니다. 꽤 오랫동안 이 아키텍쳐가 유지되면서 조금 씩 발전해왔는데, 그 과정에서 모든 종류의 데이터(정형, 반정형, 비정형)를 데이터 레이크에 대량 저장하고 하둡, 스파크같은 기술을 사용하여 처리하는 단계까지는 발전했지만 데이터 수집부터 최종 활요앆지 전체적인 데이터 유통단계에서는 과거와 크게 달라진 점은 없었습니다.
앞서 언급한 2가지 영역, 데이터 플랫폼과 비용측면을 해결할 수 있도록 데이터 거버넌스 기반으로 설계된 아키텍쳐가 바로 ‘모던 데이터 아키텍쳐’라고 생각합니다.
여전히 모호한데요. 조금 더 구체적으로 특징을 정리해보았습니다.
기본적으로 모던 데이터 아키텍쳐는 데이터 수집부터 모델 배포까지 데이터 유통단계의 모든 과정을 관리하고 통제하며 확장성, 고가용성이 보장된 클라우드 네이티브의 통합 플랫폼을 기반으로 합니다.
전체 데이터 유통단계의 고도화된 파이프라인 뿐만아니라 OLAP, 3rd party 데이터 활용 등 필요한 영역에 서버리스 아키텍처로 인프라 관리 없이 데이터 처리가 가능하고, 즉각적인 데이터 파이프라인으로 효율적인 데이터 흐름을 보장할 수 있어야합니다. 또한 기존 데이터 엔지니어링 워크플로우에 AI/ML을 통합해 모델을 개발, 운영, 배포하는 과정인 데이터 사이언스 워크플로우까지 통합해 고급 분석 및 예측을 제공하고 API형태로 외부 확장을 지원합니다.
데이터 저장 및 관리 방식은 데이터웨어하우스, 데이터레이크, 데이터메쉬 등 단일 형태로 데이터를 저장하고 관리하는 것이 아니라 환경에 따라 유리한 형태를 복수로 사용합니다. 수시간동안 변하지않는 정형화된 스키마가 아니라 새로운 컬럼이 추가되기도하고 수정되기도하며 여러 타입의 데이터들이 계속해서 추가되는 상황입니다. 최종 소비형태의 데이터는 잘 변하지 않는 주요 데이터를 뼈대로, 수시로 변하는 보조 데이터들이 결합할 수 있도록 파이프라인을 구성하는 것이 차이점입니다.
안녕하세요. 데이터분석팀 Neil(김경재)입니다.
지난해 팀원으로서 12월 AWS Re:invent 2023에 다녀왔는데요. 올해도 어김없이 AWS Re:invent가 열린다는 소식에 이제는 팀장의 시각에서 사내 데이터실에 공유했던 후기를 다시 정리해보았습니다. 그 후 1년간 KCD 데이터 환경이 어떻게 발전되었는지, 이번 2024년 이벤트에 참여하는 데이터 관계자분들이 어떤 부분을 살펴보면 더 좋은 경험이 될 수 있을지 생각하며 한발 느린 후기를 작성해보았습니다.
2023년 이벤트 회고
1. 무엇을 했었나?
먼저, AWS Re:invent는 데이터를 다루는 포지션에 있는 한 명으로서 데이터 서비스의 최전선에 참여할 수 있었다는 점에 개인적으로 큰 의미가 있던 행사였습니다.
2023년의 이벤트는 체감상 거의 절반에 가까운 세션들이 데이터&AI에 관련된 세션이었고, 특히 주요 홀(각 호텔의 메인홀)에서 진행되는 세션들은 OpenAI의 ChatGPT 출시 이후 여전히 화두가 되고있는 LLM을 필두로 더욱 데이터와 AI에 관련된 내용이 많았습니다.
나머지 분야의 세션들과 비교해 매 세션 경쟁률 또한 상당히 높았을 정도로 데이터 및 AI에 관심이 집중되어 있었지만, KCD에서는 저 혼자만 관련 포지션으로서 세션을 나눠듣고 같이 의견을 공유할 동료가 없어 아쉬웠던게 기억나네요. (특히 인도분들이 그룹지어 듣는 경우가 정말 많더라구요!)
제한된 조건에서 최대한 잘 이용하자는 압박감속에 저는 4일간 무려 10개 세션에 참여했습니다. 원래는 20개를 목표로 두었는데, 현실적으로 불가능했습니다. 미리 짜둔 계획이 왜 불가능했는지, 어떤 부분을 고려해야하는지는 아래 ‘2024년 이벤트 참가자들을 위한 팁’에 남겨두겠습니다.
10개 세션의 구성으로 1,2일차에는 정말 관심있는 주제의 세션을 선별해 최대한 많은 세션을 듣는데 집중하였고, 3,4일차에는 개별 주제에서 배운 것들을 실습해보고 좀 더 큰 아젠다에 대한 이야기를 들어볼 수 있는 세션들로 구성했습니다.
Data Scientist로서 포지션과 연관된 관심 세션들을 크게 3가지로 분류해보면
각 주제별로 개인적인 소회는 이후에 가장 기억에 남는 내용은 Case와 Practice 주제였습니다. Technic에 관련된 주제들은 대체로 AWS Product의 제품 자체를 소개하거나 강점을 광고하는데 그치는 등 기대보다 실망스러운 세션이 많았습니다.
또한, 약 4일간의 참여 기간 동안 세션 내외에서 다양한 사람들을 보고 만났는데, 크고 작은 각 회사마다 전략과 기술이 필요한 상황들이 정말 다양하다는 것을 알 수 있었습니다.
제가 경험한바로 AWS Re:invent에 참가한 회사기준 패턴이 있었고, 주로 큰 회사에서 온 사람들은 특정 분야의 비지니스를 선도하는 회사들로 Digital Transformation에 성공한 회사들의 구성원들이였습니다. 작은 회사에서 온 사람들은 주로 테크 기반의 SaaS, PaaS 비지니스를 직접 전개하는 회사들의 구성원들이 많았습니다.
2. 당시 느꼈던 바와 KCD 데이터 환경
세션별로 다양하고 흥미있는 내용들이 많았지만 모두 정리하기엔 너무 내용이 많아 이 글에서는 생략하고 가장 흥미로웠던 주제인 ‘Modern Data Architecture’에 대해서 이야기해보고자 합니다.
Modern Data Architecture는 무엇일까?
제가 참석한 AWS Re:invent 2023 데이터관련 세션들에서 공통적으로 언급된 단어가 Modern Data Architecture였는데요. 사실 서로 다른 개별 세션에서 해당 단어만 마주하였을때 정확히 어떤 의미인지 바로 이해하기는 어려웠습니다. 세션을 듣고 질문도 해보고 생각도 해보고 찾아보면서 제가 이해한 바를 정리해보면 이렇습니다.
일반적으로 데이터 아키텍쳐는 데이터를 다루는 전반의 과정인 수집, 변환, 배포, 소비까지를 설계하는 도식과 같습니다. 이 도식을 만들기위해 데이터 아키텍트, 데이터 과학자, 데이터 엔지니어들이 비즈니스 요구 사항을 기반으로 설계하며 데이터 모델과 기본 데이터 구조를 생성합니다. 이는 데이터 저장 시스템의 흐름 뿐만아니라 SQL, BI, ML, AI 업무의 기초로 리포트나 데이터 과학과 같은 이니셔티브를 지원하는데 기반이 됩니다.
그렇다면 Modern Data Architecture는 어떻게 그냥 Data Architecture와 다를까요?
먼저, 여기서 ‘모던’은 절대적인 상태를 설명하는 단어는 아니기 때문에 현 시점에서 ‘모던’하다는 의미는 수십년동안의 기존 아키텍쳐와 구분할 수 있는 차별점을 설명하는데 그 의미가 있습니다.
최근 거의 모든 비지니스 영역에서 사업 및 산업 환경이 너무 빠르게 변화하면서 사업에서는 변화하는 환경을 빠르게 분석하고 의사결정 또한 빠르게 내리고 수정해야하는 상황이 ‘New Normal’이 되었습니다. 이러한 변화속에서 데이터에 대한 접근 역시 빠르고 신속하게 필요한 데이터를 찾아 손쉽게 대용량 데이터를 처리하여 기존 데이터 프로덕트에 빠르게 수정 배포하고 새로운 인사이트를 발굴하는 것이 중요해졌습니다.
기존의 전통적인 데이터 아키텍쳐는 ETL 베이스로 여러 데이터 소스로부터 수집된 데이터를 웨어하우징 또는 마트화하고 리포팅하고 인사이트를 얻는 순서에 따라 설계되었습니다. 과거에는 이 프로세스에만 집중하여 각각의 단계가 잘 수행되도록 하는데 중점이 있었습니다. 꽤 오랫동안 이 아키텍쳐가 유지되면서 조금 씩 발전해왔는데, 그 과정에서 모든 종류의 데이터(정형, 반정형, 비정형)를 데이터 레이크에 대량 저장하고 하둡, 스파크같은 기술을 사용하여 처리하는 단계까지는 발전했지만 데이터 수집부터 최종 활요앆지 전체적인 데이터 유통단계에서는 과거와 크게 달라진 점은 없었습니다.
앞서 언급한 2가지 영역, 데이터 플랫폼과 비용측면을 해결할 수 있도록 데이터 거버넌스 기반으로 설계된 아키텍쳐가 바로 ‘모던 데이터 아키텍쳐’라고 생각합니다.
여전히 모호한데요. 조금 더 구체적으로 특징을 정리해보았습니다.
기본적으로 모던 데이터 아키텍쳐는 데이터 수집부터 모델 배포까지 데이터 유통단계의 모든 과정을 관리하고 통제하며 확장성, 고가용성이 보장된 클라우드 네이티브의 통합 플랫폼을 기반으로 합니다.
전체 데이터 유통단계의 고도화된 파이프라인 뿐만아니라 OLAP, 3rd party 데이터 활용 등 필요한 영역에 서버리스 아키텍처로 인프라 관리 없이 데이터 처리가 가능하고, 즉각적인 데이터 파이프라인으로 효율적인 데이터 흐름을 보장할 수 있어야합니다. 또한 기존 데이터 엔지니어링 워크플로우에 AI/ML을 통합해 모델을 개발, 운영, 배포하는 과정인 데이터 사이언스 워크플로우까지 통합해 고급 분석 및 예측을 제공하고 API형태로 외부 확장을 지원합니다.
데이터 저장 및 관리 방식은 데이터웨어하우스, 데이터레이크, 데이터메쉬 등 단일 형태로 데이터를 저장하고 관리하는 것이 아니라 환경에 따라 유리한 형태를 복수로 사용합니다. 수시간동안 변하지않는 정형화된 스키마가 아니라 새로운 컬럼이 추가되기도하고 수정되기도하며 여러 타입의 데이터들이 계속해서 추가되는 상황입니다. 최종 소비형태의 데이터는 잘 변하지 않는 주요 데이터를 뼈대로, 수시로 변하는 보조 데이터들이 결합할 수 있도록 파이프라인을 구성하는 것이 차이점입니다.
비용 효율화에는 두가지 측면이 있는데, 금전과 시간에 해당하는 직접 비용에 대한 관점과 데이터 전문가가 부담해야할 업무 기회 비용에 대한 관점입니다.
첫번째로 통합 데이터 플랫폼을 통해 여러층의 데이터 처리 계층을 단순화하는 것입니다. 클라우드 기반으로 유연하게 확장 및 축소가 가능하게하고 빠르게 대용량 데이터를 처리할 수 있도록 최적화하는 직접 비용의 효율화가 있습니다.
두번째로 low-code로 원하는 결과를 얻을 수 있도록 셀프서비스 분석 기반을 구성하는 것 입니다. 데이터 분석가나 데이터 과학자가 비즈니스 팀에서 요청한 데이터 보고서에 시간을 쓰는 대신 모델링 등 분석작업에 집중하여 기회 비용을 줄여 생산성을 높이는 것이 기회 비용의 효율화입니다.
이 과정에 데이터 관리 및 보안 정책을 수립해 데이터의 품질, 일관성, 규정 준수를 보장하는 관리하는 프로세스와, 조직의 누구나 데이터가 어떤 내용인지 잘 알 수 있도록 메타데이터를 저장하고 누구나 동일한 데이터에 쉽게 접근하고 사용할 수 있도록 데이터 카탈로그 형태의 환경을 구성하는 것이 포함됩니다. 이를 통해 모든 부서에서 모든 데이터에 접근 가능하고, 비즈니스팀에서도 BI툴과 AI툴을 통해 스스로 데이터를 분석할 수 있는 환경을 제공하는 것이 차이점입니다.
3. 2023년 당시 KCD의 데이터 환경은 ‘Modern Data Architecture’라고 할 수 있었을까?
앞선 모든 장점에도 모던 데이터 아키텍쳐가 모든 회사에서 만능은 아닐 것입니다. 그러나 데이터 자산의 잠재력을 최대한 활용하여 변화하는 비즈니스 요구에 신속하게 대응하여 경쟁 우위를 확보하는데 있어서 key project라는 것에 의심할 바가 없었습니다.
우리가 사용하고있던 AWS Product들과 데이터브릭스는 이미 ‘모던 데이터 아키텍쳐’에 필요한 거의 모든 기능을 제공하고 있었습니다. 지속적으로 데이터플랫폼팀과 데이터분석팀에서 이를 활용해 데이터 아키텍쳐를 개선하려는 노력이 있어왔지만 개별 요건을 처리하는데 대부분의 리소스가 사용되고 있기 떄문에 여전히 데이터 거버넌스는 부족하고 데이터를 활용하는 단계에서 어려움이 많았습니다. 즉, 2023년 KCD 데이터 환경은 모던 데이터 아키텍쳐라고 할 수 없었습니다.
이때의 경험으로 글로벌 스탠다드와 우리 환경의 차이를 느끼고 현실적으로 변화해야할 방향에 대해 감을 잡을 수 있었습니다. 그렇다면 1년이 지난 지금 우리는 어떻게 변했을까요? 2024 Re:invent 참가자들을 위한 팁과 함께 다음 글에서 확인해보세요!