2020.06.22

데이터 거버넌스를 위한 애자일 프로세스 정의 3가지

Isaac Sacolick | InfoWorld
분석과 머신러닝 라이프사이클에 애자일 방법론을 적용할 경우 효과가 크지만, 몇 가지 용어와 개념의 재정의가 필요하다. 예를 들면 다음과 같다.

-    애자일 데이터 과학 팀을 이끄는 사람은 애자일 제품 소유자가 아니라 데이터 과학으로 얻은 통찰력에서 비즈니스 성과를 끌어내야 할 책임이 있는 분석 소유자일 수 있다.

-    데이터 과학 팀은 종종 대시보드와 기타 툴에 대한 개선을 적용해 새로운 사용자 스토리를 완성하지만 더 폭넓게 보면 실천 가능한 통찰력과 개선된 데이터 품질, 데이터옵스 자동화, 향상된 데이터 거버넌스를 비롯한 결과물을 제공한다. 분석 소유자와 팀은 백로그에서 이러한 모든 결과물에 대한 기반 요구사항을 포착해야 한다.

-    애자일 데이터 과학 팀은 여러 분야를 포괄해야 하며 데이터옵스 엔지니어, 데이터 모델러, 데이터베이스 개발자, 데이터 거버넌스 전문가, 데이터 과학자, 시민 데이터 과학자, 데이터 스튜어드, 통계학자, 머신러닝 전문가가 포함될 수 있다. 팀 구성은 작업의 범위와 필요한 데이터 및 분석의 복잡성에 따라 달라진다.

애자일 데이터 과학 팀은 대부분 여러 가지 유형의 작업을 수행한다. 그 중에서도 백로그와 스프린트 약속에 포함되어야 하는 가장 중요한 3가지는 다음과 같다.
 
ⓒ Thinkstock
 

1. 분석, 대시보드, 데이터 시각화 개발과 업그레이드

데이터 과학 팀은 최종 사용자가 질문에 대한 답을 찾는 데 도움이 되는 대시보드를 구상해야 한다. 예를 들어 판매 대시보드는 “지난 90일 동안 영업 담당자의 활동이 가장 활발한 영업 구역은 어디인가?”라는 질문에 답할 수 있다. 애자일 소프트웨어 개발 팀을 위한 대시보드라면 “지난 3번의 릴리즈에서 기능 제공, 기술 부채와 제품 결함 해결에서 팀이 얼마나 생산적이었는가?”라는 질문에 답할 수 있다.

애자일 사용자 스토리는 ‘최종 사용자가 누구인가?’, ‘이들이 해결하고자 하는 문제가 무엇인가?’, ‘그 문제가 왜 중요한가?’의 세 가지 질문을 다뤄야 한다. 질문은 분석, 대시보드 또는 데이터 시각화를 제공하는 애자일 사용자 스토리 쓰기의 기반이다. 질문은 누가 대시보드를 사용하고자 하며 이들에게 필요한 답이 무엇인지를 다룬다.
 
이해당사자와 최종 사용자는 이를 통해 질문에 대한 가설과 실천 가능한 결과를 도출할 방법을 제공한다. 통찰력이 어떻게 실천 가능하게 되는지와 비즈니스에 미치는 영향은 애자일 사용자 스토리가 다뤄야 하는 세 번째 질문(그 문제가 왜 중요한가)에 답하는 데 도움이 된다. 
 
태블로(Tableau)와 파워 BI(Power BI)의 첫 번째 버전은 피드백을 얻기 위해 최종 사용자와 공유하기에 부족함이 없을 정도의 “실행 가능한 최소한의 대시보드”여야 한다. 사용자는 대시보드가 자신의 질문에 얼마나 잘 대응하는지와 개선할 만한 부분을 데이터 과학 팀에 알려야 한다. 분석 제품 소유자는 이러한 개선점을 백로그에 넣고 이후 스프린트에서 우선 처리하도록 고려해야 한다.
 

2. 머신러닝 모델 개발 및 업그레이드

분석 및 머신러닝 모델을 개발하는 과정에는 데이터 분할(segmenting)과 태그 지정, 특성 추출, 여러 알고리즘 및 구성을 통한 데이터 집합 실행이 포함된다. 애자일 데이터 과학 팀은 모델 개발에 사용하도록 데이터를 준비하고 각 실험을 위한 별도의 스토리를 만들기 위해 애자일 사용자 스토리를 기록할 수 있다. 이같은 투명성은 팀이 실험 결과를 리뷰하고 다음 우선순위를 결정하고 접근 방법이 유익한 결과로 수렴하는지 여부를 토론하는 데 도움이 된다.
 
대부분은 모델을 실험 환경에서 프로덕션 환경으로 옮기기 위한 별도의 사용자 스토리가 있다. 이러한 스토리는 데이터 과학 및 머신러닝을 위한 데브옵스이며, 인프라 스크립팅, 모델 배포 자동화, 프로덕션 프로세스 모니터링를 포함하는 경우가 많다.
 
모델이 프로덕션으로 배포된 이후 데이터 과학 팀은 이를 유지관리할 책임이 있다. 새 데이터가 유입되면서 모델이 기준에서 벗어나면 경우에 따라 업데이트된 데이터 집합을 사용해서 재보정이나 리엔지니어링을 해야 한다. 트위터, 페이스북과 같은 기업의 앞선 머신러닝 팀은 지속적 학습을 구현, 새로운 학습 데이터로 모델을 재보정한다.
 

3. 데이터 소스 발견, 통합, 정제

애자일 데이터 과학 팀은 항상 전략적 데이터 웨어하우스 및 데이터 호수를 더 향상하기 위해 통합할 새로운 데이터 소스를 탐색해야 한다. 한 가지 중요한 예는 SaaS 툴에 격리된 채로 마케팅 부서에서 잠재 고객과 접촉하고 고객과 소통하는 데 사용되는 데이터다. 공급망, 고객 통계 또는 구매 의사 결정에 영향을 미치는 환경적 맥락에 관한 부가적인 관점을 제공하는 다른 데이터 소스도 있을 것이다.
 
분석 소유자는 스토리 카드로 애자일 백로그를 채워 새로운 데이터 소스를 연구하고 샘플 데이터 집합을 검사하고 우선순위가 높은 데이터 집합을 주 데이터 리포지토리에 통합해야 한다. 애자일 팀은 새로운 데이터 소스를 통합할 때 데이터 통합 자동화, 데이터 검증 및 품질 규칙 구현, 데이터와 마스터 데이터 소스의 연결을 고려해야 한다.
 
탈랜드(Talend) 제품 마케팅 부사장인 줄리엔 소베이지는 데이터 소스에 대한 신뢰 구축 가이드라인으로 “현재 기업은 보고서와 대시보드에 사용되는 데이터의 확실성을 더 높여야 한다”면서 “데이터 품질, 데이터 인기도, 규정 준수, 사용자 정의 평점을 기반으로 한 내장된 신뢰 점수를 사용하면 된다. 데이터 전문가는 신뢰 점수를 통해 데이터 정제 작업의 효과를 실시간으로 보고 데이터 품질 문제를 반복적인 방식으로 수정할 수 있다”고 말했다.

데이터 부채도 포착해서 우선 처리해야 한다. 기존의 데이터 소스에는 소유자, 스튜어드, 데이터 거버넌스 구현이 부족했다. 적절한 통제 수단의 부재로 인해 충분한 데이터 검증이 되지 않는 데이터 입력 양식과 툴이 많았고, 통합된 데이터 소스에는 정제 규칙이나 예외 처리가 없었다. 많은 조직이 분석과 데이터 시각화에 사용되는 데이터 웨어하우스와 데이터 호수에 정제되지 않은 데이터를 산더미처럼 쌓아 두고 있다.
 
기술 부채를 간단히 해결할 방법이 없는 것과 마찬가지로, 애자일 데이터 과학 그룹으로서는 반복적으로 데이터 부채를 우선순위화하고 처리할 수밖에 없다. 분석 소유자가 분석을 제공하기 위한 사용자 스토리를 추가하면 팀은 이를 리뷰해서 백로그에 작성하고 우선 처리해야 할 기반 데이터 부채가 무엇인지 확인해야 한다.
 

애자일 방법론으로 데이터 거버넌스 구현

공유한 예시는 모두 데이터 과학 팀이 데이터 품질을 개선하고 의사 결정, 제품 및 서비스에서 분석을 활용하기 위한 툴을 제공하는 데 도움이 된다.
 
선제적인 데이터 거버넌스 프로그램에서 데이터 정책, 프라이버시, 보안에 관한 문제는 데이터 시각화, 분석, 머신러닝, 데이터옵스를 제공하고 개선하는 작업과 나란히 우선 처리된다. 데이터 거버넌스 작업이 데이터 과학 팀의 업무 범위에 포함되는 경우도 간혹 있지만 대부분은 별도의 그룹이나 부서가 데이터 거버넌스를 담당한다.
 
조직에서 분석과 데이터 거버넌스 규정, 규정 준수, 그리고 진화하는 모범 사례에 대해 경쟁력을 갖춰야 할 필요가 커지고 있다. 애자일 방법론은 데이터 기반의 파급 효과를 우선순위화하고 계획하고 제공하기 위한 정립된 구조와 프로세스, 툴을 조직에 제공한다. editor@itworld.co.kr 


2020.06.22

데이터 거버넌스를 위한 애자일 프로세스 정의 3가지

Isaac Sacolick | InfoWorld
분석과 머신러닝 라이프사이클에 애자일 방법론을 적용할 경우 효과가 크지만, 몇 가지 용어와 개념의 재정의가 필요하다. 예를 들면 다음과 같다.

-    애자일 데이터 과학 팀을 이끄는 사람은 애자일 제품 소유자가 아니라 데이터 과학으로 얻은 통찰력에서 비즈니스 성과를 끌어내야 할 책임이 있는 분석 소유자일 수 있다.

-    데이터 과학 팀은 종종 대시보드와 기타 툴에 대한 개선을 적용해 새로운 사용자 스토리를 완성하지만 더 폭넓게 보면 실천 가능한 통찰력과 개선된 데이터 품질, 데이터옵스 자동화, 향상된 데이터 거버넌스를 비롯한 결과물을 제공한다. 분석 소유자와 팀은 백로그에서 이러한 모든 결과물에 대한 기반 요구사항을 포착해야 한다.

-    애자일 데이터 과학 팀은 여러 분야를 포괄해야 하며 데이터옵스 엔지니어, 데이터 모델러, 데이터베이스 개발자, 데이터 거버넌스 전문가, 데이터 과학자, 시민 데이터 과학자, 데이터 스튜어드, 통계학자, 머신러닝 전문가가 포함될 수 있다. 팀 구성은 작업의 범위와 필요한 데이터 및 분석의 복잡성에 따라 달라진다.

애자일 데이터 과학 팀은 대부분 여러 가지 유형의 작업을 수행한다. 그 중에서도 백로그와 스프린트 약속에 포함되어야 하는 가장 중요한 3가지는 다음과 같다.
 
ⓒ Thinkstock
 

1. 분석, 대시보드, 데이터 시각화 개발과 업그레이드

데이터 과학 팀은 최종 사용자가 질문에 대한 답을 찾는 데 도움이 되는 대시보드를 구상해야 한다. 예를 들어 판매 대시보드는 “지난 90일 동안 영업 담당자의 활동이 가장 활발한 영업 구역은 어디인가?”라는 질문에 답할 수 있다. 애자일 소프트웨어 개발 팀을 위한 대시보드라면 “지난 3번의 릴리즈에서 기능 제공, 기술 부채와 제품 결함 해결에서 팀이 얼마나 생산적이었는가?”라는 질문에 답할 수 있다.

애자일 사용자 스토리는 ‘최종 사용자가 누구인가?’, ‘이들이 해결하고자 하는 문제가 무엇인가?’, ‘그 문제가 왜 중요한가?’의 세 가지 질문을 다뤄야 한다. 질문은 분석, 대시보드 또는 데이터 시각화를 제공하는 애자일 사용자 스토리 쓰기의 기반이다. 질문은 누가 대시보드를 사용하고자 하며 이들에게 필요한 답이 무엇인지를 다룬다.
 
이해당사자와 최종 사용자는 이를 통해 질문에 대한 가설과 실천 가능한 결과를 도출할 방법을 제공한다. 통찰력이 어떻게 실천 가능하게 되는지와 비즈니스에 미치는 영향은 애자일 사용자 스토리가 다뤄야 하는 세 번째 질문(그 문제가 왜 중요한가)에 답하는 데 도움이 된다. 
 
태블로(Tableau)와 파워 BI(Power BI)의 첫 번째 버전은 피드백을 얻기 위해 최종 사용자와 공유하기에 부족함이 없을 정도의 “실행 가능한 최소한의 대시보드”여야 한다. 사용자는 대시보드가 자신의 질문에 얼마나 잘 대응하는지와 개선할 만한 부분을 데이터 과학 팀에 알려야 한다. 분석 제품 소유자는 이러한 개선점을 백로그에 넣고 이후 스프린트에서 우선 처리하도록 고려해야 한다.
 

2. 머신러닝 모델 개발 및 업그레이드

분석 및 머신러닝 모델을 개발하는 과정에는 데이터 분할(segmenting)과 태그 지정, 특성 추출, 여러 알고리즘 및 구성을 통한 데이터 집합 실행이 포함된다. 애자일 데이터 과학 팀은 모델 개발에 사용하도록 데이터를 준비하고 각 실험을 위한 별도의 스토리를 만들기 위해 애자일 사용자 스토리를 기록할 수 있다. 이같은 투명성은 팀이 실험 결과를 리뷰하고 다음 우선순위를 결정하고 접근 방법이 유익한 결과로 수렴하는지 여부를 토론하는 데 도움이 된다.
 
대부분은 모델을 실험 환경에서 프로덕션 환경으로 옮기기 위한 별도의 사용자 스토리가 있다. 이러한 스토리는 데이터 과학 및 머신러닝을 위한 데브옵스이며, 인프라 스크립팅, 모델 배포 자동화, 프로덕션 프로세스 모니터링를 포함하는 경우가 많다.
 
모델이 프로덕션으로 배포된 이후 데이터 과학 팀은 이를 유지관리할 책임이 있다. 새 데이터가 유입되면서 모델이 기준에서 벗어나면 경우에 따라 업데이트된 데이터 집합을 사용해서 재보정이나 리엔지니어링을 해야 한다. 트위터, 페이스북과 같은 기업의 앞선 머신러닝 팀은 지속적 학습을 구현, 새로운 학습 데이터로 모델을 재보정한다.
 

3. 데이터 소스 발견, 통합, 정제

애자일 데이터 과학 팀은 항상 전략적 데이터 웨어하우스 및 데이터 호수를 더 향상하기 위해 통합할 새로운 데이터 소스를 탐색해야 한다. 한 가지 중요한 예는 SaaS 툴에 격리된 채로 마케팅 부서에서 잠재 고객과 접촉하고 고객과 소통하는 데 사용되는 데이터다. 공급망, 고객 통계 또는 구매 의사 결정에 영향을 미치는 환경적 맥락에 관한 부가적인 관점을 제공하는 다른 데이터 소스도 있을 것이다.
 
분석 소유자는 스토리 카드로 애자일 백로그를 채워 새로운 데이터 소스를 연구하고 샘플 데이터 집합을 검사하고 우선순위가 높은 데이터 집합을 주 데이터 리포지토리에 통합해야 한다. 애자일 팀은 새로운 데이터 소스를 통합할 때 데이터 통합 자동화, 데이터 검증 및 품질 규칙 구현, 데이터와 마스터 데이터 소스의 연결을 고려해야 한다.
 
탈랜드(Talend) 제품 마케팅 부사장인 줄리엔 소베이지는 데이터 소스에 대한 신뢰 구축 가이드라인으로 “현재 기업은 보고서와 대시보드에 사용되는 데이터의 확실성을 더 높여야 한다”면서 “데이터 품질, 데이터 인기도, 규정 준수, 사용자 정의 평점을 기반으로 한 내장된 신뢰 점수를 사용하면 된다. 데이터 전문가는 신뢰 점수를 통해 데이터 정제 작업의 효과를 실시간으로 보고 데이터 품질 문제를 반복적인 방식으로 수정할 수 있다”고 말했다.

데이터 부채도 포착해서 우선 처리해야 한다. 기존의 데이터 소스에는 소유자, 스튜어드, 데이터 거버넌스 구현이 부족했다. 적절한 통제 수단의 부재로 인해 충분한 데이터 검증이 되지 않는 데이터 입력 양식과 툴이 많았고, 통합된 데이터 소스에는 정제 규칙이나 예외 처리가 없었다. 많은 조직이 분석과 데이터 시각화에 사용되는 데이터 웨어하우스와 데이터 호수에 정제되지 않은 데이터를 산더미처럼 쌓아 두고 있다.
 
기술 부채를 간단히 해결할 방법이 없는 것과 마찬가지로, 애자일 데이터 과학 그룹으로서는 반복적으로 데이터 부채를 우선순위화하고 처리할 수밖에 없다. 분석 소유자가 분석을 제공하기 위한 사용자 스토리를 추가하면 팀은 이를 리뷰해서 백로그에 작성하고 우선 처리해야 할 기반 데이터 부채가 무엇인지 확인해야 한다.
 

애자일 방법론으로 데이터 거버넌스 구현

공유한 예시는 모두 데이터 과학 팀이 데이터 품질을 개선하고 의사 결정, 제품 및 서비스에서 분석을 활용하기 위한 툴을 제공하는 데 도움이 된다.
 
선제적인 데이터 거버넌스 프로그램에서 데이터 정책, 프라이버시, 보안에 관한 문제는 데이터 시각화, 분석, 머신러닝, 데이터옵스를 제공하고 개선하는 작업과 나란히 우선 처리된다. 데이터 거버넌스 작업이 데이터 과학 팀의 업무 범위에 포함되는 경우도 간혹 있지만 대부분은 별도의 그룹이나 부서가 데이터 거버넌스를 담당한다.
 
조직에서 분석과 데이터 거버넌스 규정, 규정 준수, 그리고 진화하는 모범 사례에 대해 경쟁력을 갖춰야 할 필요가 커지고 있다. 애자일 방법론은 데이터 기반의 파급 효과를 우선순위화하고 계획하고 제공하기 위한 정립된 구조와 프로세스, 툴을 조직에 제공한다. editor@itworld.co.kr 


X