유명 회사들이 그 정도 규모에서 그렇게 빠르게 다양한 방법론들을 적용하고 최적화한 것들이 대단하면서도 한편으로는 유명 회사들이 전개하고있는 것 분석방법론들이 우리가 하려는 것들보다 월등히 뛰어난 전략들은 아니었다는 점이 위로가 되기도 했습니다. 가장 다행이라고 생각했던 부분은 KCD 회사 내 소수 포지션으로서 의견을 구하고 공유하기가 쉽지 않아 내가 생각하는 방향이 옳은 방향인지 항상 의문을 갖고있었던 것이 사실이었는데, 가서 보고 배운 것들이 제가 개인적으로 추구하던 방향성과 글로벌 스탠다드가 크게 다르지 않았다는 점이었습니다.
우리도 만들어진 도구들을 좀 더 잘 활용할 수 있으면 생산성이 크게 개선될 것 같다고 생각하면서, 왜 지금은 잘 활용 못하고 있을까에 대해 고민이 들었습니다. 모범답안이 있었으면 좋겠지만, 당시 상황에서 팀 자체적으로 연구개발에 대한 리소스를 일부 할당해야 기술부채를 해결하면서 미래의 생산성을 개선할 수 있을텐데, 할당된 업무와 어떻게 리소스를 잘 조절해 여유시간을 만들어 내는 것이 핵심이라고 생각했습니다.
2. 그 후 1년 우리는 무엇이 바뀌었나?
2024년 11월, 현재 KCD의 데이터 환경은 많은 변화가 있었습니다. 2023년 AWS Re:invent에서 느낀바를 바탕으로 데이터분석팀과 데이터플랫폼팀 및 사내 많은 팀들의 도움으로 발전적인 개선을 이루어내었고, 수많은 변화 중에서 주요한 변화를 몇가지 꼽아보면 다음과 같습니다.
- 정책화된 데이터 카탈로그 : 주요 데이터의 컬럼 속성 및 사용처 조사가 이루어졌고, 신규 테이블 개발 컨벤션이 생기고, 데이터 리니지 파악을 통한 소스 데이터 추적관리, 서비스 DB의 데이터 스키마 정책 마련 등 많은 부분에 체계가 생겼습니다.
- 통합된 데이터 플랫폼 정책 : 데이터브릭스의 Compute 리소스 정책, 워크플로우 태깅, Git Enterprise 연동, 이벤트 데이터 플랫폼 출시 등 데이터플랫폼팀의 헌신으로 수많은 정책이 통합되었습니다.
- 보안 및 정책 : 데이터 삭제 정책, 데이터 사용 보안 정책, 데이터 관련 권한 관리 등 논의가 이제 막 시작된 것만으로도 큰 발전이 있었습니다.
- 데이터 파이프라인 효율화 : 소스 데이터 CDC, 레거시 파이프라인 정리, s3/delta 이중 저장구조 개편, 통합모듈 개발, 데이터 서빙 API 개발 등 업무적으로도 또 비용적으로도 많은 효율화가 이루어졌습니다.
- 데이터 기반 의사결정 문화 : 지난 1년간 전사 데이터 지원이라는 명목하에 데이터조직 팀원들의 파이프라인 개발, 추출, 대시보드 개발, 서비스 분석 지원, 모델 개발 등의 노력 덕분에 사내에서 데이터 도움이 필요할 때, 데이터 조직을 찾는 문화가 널리 형성되었습니다. 이제는 사내에 소통되는 많은 데이터 아젠다들을 데이터 조직의 자원을 통해 의사결정하는 사례가 적지 않습니다.
- AI/ML 프로덕트 개발 : ML 파일럿들로 단발성으로 소비되던 기술들이 수많은 PoC를 거쳐 서비스로 배포되었습니다. 입금일 예측 모델 파이프라인, 메시지 타겟 스코어링 모델, AI 비용분류, AI 매출부스터, 데이터 추출 쿼리봇(Text2SQL)까지 생각보다 더 빠르게 많은 모델을 개발하고 배포할 수 있었습니다. 다른 성과들로 업무 효율화를 통해 최소한의 리소스를 확보한 것도 주요했습니다.
- 데이터 민주화 : 누구나 원하는 데이터에 손쉽게(GUI, low-code)로 접근할 수 있게하자라는 모토로 BI 플랫폼 최적화, Slack 리포팅, Text2SQL 등 여러 PoC를 진행하며 데이터 접근의 Endpoint들을 개선하여 전사의 민주적인 데이터 접근 및 활용의 토대를 마련하였습니다. 동시에 분석팀의 추출 및 운영 대응 리소스를 줄이고 개발 리소스를 확보하였습니다.
여전히 개선해야나갈 것들이 많고 아직 완전히 ‘모던’하다고 할 수는 없지만 지난 2년을 돌이켜보면 1년 동안의 변화가 장족의 발전이 아니었나 싶습니다. 우리 구성원분들이 발전을 통해 성장할 수 있었던 부분을 스스로 격려하고 또한, 앞으로 해야할 것들이 많이 남아있다는 것에 기뻐할 수 있는 KCD 데이터 동지들이 되었으면 좋겠습니다.
또 가까운 미래에는
- SRE팀, 정보보안팀 등과 현재보다 더 체계적인 데이터 거버넌스를 발전시켜 데이터 유통 앞뒤로 데이터 관련 조직들이 업무에 있어 안전하고 효율적으로 일할 수 있도록 환경 구성을 할예정입니다.
- BI 영역에서 단순한 실적 추적관리 및 업무자동화를 위한 대시보드를 넘어서 비지니스의 이상치를 탐지하고 진짜 비지니스 인사이트를 제공해 줄 수 있는 선제적 인사이트 스토리를 개발할 예정입니다.
- 유저의 모든 서비스 행동과 아이템간 상호작용에 대한 설계를 통해 현재 서비스 통합 마트 발전시켜 최소한의 Endpoint에서 KCD의 모든 서비스 행동, 지표를 확인할 수 있는 Analytics를 만들 예정입니다.
- (굳이 나누자면) 전통적인 ML이 검증된 영역들에서 KCD에 적용할 수 있는 분야를 발굴하여 MLOps 관점에서 서비스 최적화에 기여할 수 있도록 할 예정입니다.
- AI 영역에서는 잘 만들어진 Foundation Model들을 Advanced RAG 등을 활용하고 AI Agent를 통해 최적화하여 사내 서비스에 이식할 예정입니다.
이번 2024년 AWS Re:invent에서도 동료분들이 많은 것들을 배워와 KCD에 적용해주길 바라며 몇가지 팁으로 이 글을 마무리 하고자합니다.
3. 2024년 이벤트 참가자들을 위한 팁
최대 10개 세션을 타겟으로 시간표 짜기
저는 앞서 첨부한 계획표의 20개 세션을 선택하는데 있어, AWS Re:invent 웹사이트에서 등록된 세션들을 찾고 abstract를 읽는데만 수시간을 소요했습니다. 수천개의 세션 중 들으면 좋겠다고 느껴지는 세션들이 너무 많았고, 처음 마음가짐은 하루에 4~6개 세션을 4일간 풀로 듣겠다는 욕심을 가졌는데요. 하지만 계획은 계획일 뿐.. 실제로 AWS 컨퍼런스에 참여하고 하루를 그렇게 보내면서 이 계획이 큰 욕심이었다는 것을 깨달았습니다.
AWS Re:invent 일정상 현실적으로 하루에 6개 세션을 듣기에 무리가 있습니다. 30분 내외의 라이트닝토크(짧은 세션)가 있긴하지만 보통의 세션들은 1시간 ~ 2시간 세션이 많습니다. 실습이 포함된 긴 세션은 3시간을 넘는 세션도 있죠.
오전에서 오후에 가까워질수록, 월요일에서 금요일에 가까워질수록 세션들의 구성도 많이 빈약해집니다. 경험상, 월~목 오전 2개 오후 1개 정도로 10개면 세션이면 충분히 많습니다. AWS 세션 외에 개인 일정들도 보통 고려할텐데 이를 생각하여 시간표를 짜면 좋습니다. 저처럼 너무 욕심내어 시간을 낭비하지 말고, 본인 포지션과 관련된 영역을 중심으로 최대 10개 세션으로 우선순위를 따져보세요.
안녕하세요. 데이터분석팀 Neil입니다.
지난해 팀원으로서 12월 AWS Re:invent 2023에 다녀왔는데요. 올해도 어김없이 AWS Re:invent가 열린다는 소식에 이제는 팀장의 시각에서 사내 데이터실에 공유했던 후기를 다시 정리(1편)해보았습니다. 그 후 1년간 KCD 데이터 환경이 어떻게 발전되었는지, 이번 2024년 이벤트에 참여하는 데이터 관계자분들이 어떤 부분을 살펴보면 더 좋은 경험이 될 수 있을지 생각하며 한발 느린 후기를 작성해보았습니다.
Re:invent 이후 KCD 데이터 환경의 변화
1. 유명 회사들은 어떤 데이터전략을 가지고 있었을까?
당시 많은 Case 세션들이 결국 AWS Product 광고로 귀결되었지만, 실제 케이스로부터 얻을 수 있는 인사이트들은 적지 않았습니다.
유명 회사들이 그 정도 규모에서 그렇게 빠르게 다양한 방법론들을 적용하고 최적화한 것들이 대단하면서도 한편으로는 유명 회사들이 전개하고있는 것 분석방법론들이 우리가 하려는 것들보다 월등히 뛰어난 전략들은 아니었다는 점이 위로가 되기도 했습니다. 가장 다행이라고 생각했던 부분은 KCD 회사 내 소수 포지션으로서 의견을 구하고 공유하기가 쉽지 않아 내가 생각하는 방향이 옳은 방향인지 항상 의문을 갖고있었던 것이 사실이었는데, 가서 보고 배운 것들이 제가 개인적으로 추구하던 방향성과 글로벌 스탠다드가 크게 다르지 않았다는 점이었습니다.
우리도 만들어진 도구들을 좀 더 잘 활용할 수 있으면 생산성이 크게 개선될 것 같다고 생각하면서, 왜 지금은 잘 활용 못하고 있을까에 대해 고민이 들었습니다. 모범답안이 있었으면 좋겠지만, 당시 상황에서 팀 자체적으로 연구개발에 대한 리소스를 일부 할당해야 기술부채를 해결하면서 미래의 생산성을 개선할 수 있을텐데, 할당된 업무와 어떻게 리소스를 잘 조절해 여유시간을 만들어 내는 것이 핵심이라고 생각했습니다.
2. 그 후 1년 우리는 무엇이 바뀌었나?
2024년 11월, 현재 KCD의 데이터 환경은 많은 변화가 있었습니다. 2023년 AWS Re:invent에서 느낀바를 바탕으로 데이터분석팀과 데이터플랫폼팀 및 사내 많은 팀들의 도움으로 발전적인 개선을 이루어내었고, 수많은 변화 중에서 주요한 변화를 몇가지 꼽아보면 다음과 같습니다.
여전히 개선해야나갈 것들이 많고 아직 완전히 ‘모던’하다고 할 수는 없지만 지난 2년을 돌이켜보면 1년 동안의 변화가 장족의 발전이 아니었나 싶습니다. 우리 구성원분들이 발전을 통해 성장할 수 있었던 부분을 스스로 격려하고 또한, 앞으로 해야할 것들이 많이 남아있다는 것에 기뻐할 수 있는 KCD 데이터 동지들이 되었으면 좋겠습니다.
또 가까운 미래에는
이번 2024년 AWS Re:invent에서도 동료분들이 많은 것들을 배워와 KCD에 적용해주길 바라며 몇가지 팁으로 이 글을 마무리 하고자합니다.
3. 2024년 이벤트 참가자들을 위한 팁
최대 10개 세션을 타겟으로 시간표 짜기
저는 앞서 첨부한 계획표의 20개 세션을 선택하는데 있어, AWS Re:invent 웹사이트에서 등록된 세션들을 찾고 abstract를 읽는데만 수시간을 소요했습니다. 수천개의 세션 중 들으면 좋겠다고 느껴지는 세션들이 너무 많았고, 처음 마음가짐은 하루에 4~6개 세션을 4일간 풀로 듣겠다는 욕심을 가졌는데요. 하지만 계획은 계획일 뿐.. 실제로 AWS 컨퍼런스에 참여하고 하루를 그렇게 보내면서 이 계획이 큰 욕심이었다는 것을 깨달았습니다.
AWS Re:invent 일정상 현실적으로 하루에 6개 세션을 듣기에 무리가 있습니다. 30분 내외의 라이트닝토크(짧은 세션)가 있긴하지만 보통의 세션들은 1시간 ~ 2시간 세션이 많습니다. 실습이 포함된 긴 세션은 3시간을 넘는 세션도 있죠.
오전에서 오후에 가까워질수록, 월요일에서 금요일에 가까워질수록 세션들의 구성도 많이 빈약해집니다. 경험상, 월~목 오전 2개 오후 1개 정도로 10개면 세션이면 충분히 많습니다. AWS 세션 외에 개인 일정들도 보통 고려할텐데 이를 생각하여 시간표를 짜면 좋습니다. 저처럼 너무 욕심내어 시간을 낭비하지 말고, 본인 포지션과 관련된 영역을 중심으로 최대 10개 세션으로 우선순위를 따져보세요.
미리 Re:invent 세션을 훑어보고 최종 후보들을 2–3배수 한정하기
등록된 세션들을 찾고 Abstract를 읽어보세요. 하나의 세션이 여러 시간에 반복해서 열리는 경우도 있으니 모든 내용을 읽어보지 말고, 주제별 카테고리와 난이도로 필터링하고 과감하게 우선순위를 결정하세요. 먼저 예약이 필요한 세션들이 많으니, 관심있는 세션은 일단 예약을 걸어놓고 동일한 시간대에 그 세션이 최선인지 검토해보세요.
여기서 가장 중요한 것! 세션이 진행되는 장소를 구글 맵을 통해 파악하고 세션과 세션 사이의 동선 및 이동 시간을 파악하여 후보를 줄이는게 핵심입니다. 라스베가스는 생각보다 넓습니다. 또 세션이 열리는 호텔들은 꽤 멀리 떨어진 경우도 있습니다. 호텔 간 무료 셔틀버스가 있습니다만, 대기시간과 이동시간을 포함해 가까운 곳은 10분 내로도 갈 수 있지만 먼 곳은 30분까지 걸리기도 했습니다. 여유있게 설정하더라도 인원이 몰려 버스를 한번에 못탈 수도 있다는 점!
실제 시간표를 짜기 전에 현실적인 장소 제약이 있을 수 있으니 타겟 세션수보다 2–3배 정도 여유있게 후보를 한정해두면 좋습니다.
이벤트 첫날부터 마지막까지 AWS Re:invent 앱을 주시하기
세션 시작 시간 이후 중간에 들어갈 수 없는 세션들이 많습니다. 하나의 세션을 듣고 곱씹어보는데에도 많은 시간이 필요한데 너무 타이트하게 들었다간 다음 세션을 제대로 듣지 못하거나 아예 못들어가는 경우도 있는데요. 이렇게 돌발 상황이 발생할 경우 열린 마음으로 Re:invent 앱에서 현재 장소와 시간을 중심으로 열리는 다른 세션을 찾아보세요.
참고로 포지션과 관련되지 않은 내용도 하나쯤 들어보면 좋습니다. 저는 남는 시간에 k8s 환경 관련 세션을 청강해봤고, 같이 간 백엔드엔지니어 참석자분과 이야기하며 따로 공부하는 것보다 빠르고 효율적으로 내용을 파악할 수 있었어요.
이벤트가 끝나면 80% 정도의 세션들은 곧바로 AWS Youtube에 올라옵니다. 못들었다고 너무 실망하지마세요.
Self-paced Lab을 충분히 활용해보기
세션 리스트 중에 하루 종일 잡혀있는 Self-paced lab이라는 것들이 있습니다. 가기 전에는 이게 너무 길게 잡혀있기도하고, 다른 세션을 놓치기 싫어 제외했었는데요.
이벤트 때 여러 세션에 겹쳐서 만나게되었던 Delta Airlines의 데이터 엔지니어링 팀장 마크 형님과 친해져 밥도 같이먹고 이야기했는데, Self-paced lab을 추천해주셔서 직접 가보고나서야 정확히 어떤 세션인지 알게되었습니다.
Self-paced lab은 각 세션들에서 AWS 및 관계사가 소개하는 AWS의 Product들을 무료로 AWS Solution Architect들로부터 과외 받으며 실습해볼 수 있는 정말 좋은 세션입니다. 기본적으로 열려있는 시간은 자율 운영시간입니다. 즉, 세션이 열려있는 시간 아무때나 방문해서 Re:invent 계정으로 혼자 학습하는 구조라 부담스럽지도 않고, Product별로 예제가 제공되기 때문에 쉽게 따라할 수 있습니다. 저는 당시 AWS Bedrock을 처음 사용해봤는데, 몇시간만에 모델 추론까지 실습해보고 현장에 있는 AWS SA에게 질문도 할 수 있었습니다.
알고보니 미국회사에서 AWS에 참가한 엔지니어들이 많이들 잘 활용하고 있더라구요. 확실히 가보면 한국분들은 많이 없었습니다. 저도 한번 경험한 이후에 목, 금 계획을 Self-paced lab을 끼워넣어 대폭 수정했습니다. 세션에서 배운 것을 바로 활용해볼 수 있는 좋은 기회이니 잘 활용해보세요!
그 외 미세 팁들