데이터 엔지니어는 다양한 운영체제 및 데이터베이스에 익숙해야 하고 소프트웨어를 쓰고 프로그래밍할 수도 있어야 한다. 데이터 웨어하우스 및 데이터 분석 경험, 그리고 뛰어난 비판적 사고와 커뮤니케이션 역량도 필요하다. 데이터 엔지니어는 교육, 직장 내 훈련, 지속적인 자격증 습득의 조합을 통해 기술력을 쌓을 수 있다. 인디드(Indeed)는 자격증 습득이 자신의 역량을 보여주고 앞서 나가기 위한 좋은 방법이라고 강조한다.
데이터 엔지니어가 되기 위해 무엇이 필요한지를 알아보기 위해 AI 기반의 품질 모니터링 플랫폼 전문업체인 유닛큐(unitQ)의 데이터 엔지니어인 랜스 마일스를 인터뷰했다.
교육과 취업
마일스는 2013년 캘리포니아 산타크루즈 대학에서 신경과학 학사 과정을 졸업한 뒤 2017년 워싱턴 대학에서 데이터 과학 자격증을 취득하고, 2020년에 캘리포니아 버클리 대학에서 정보 및 데이터 과학 석사 학위를 취득했다.마일스는 “내가 거쳐온 단계를 뒤돌아볼 때 한 가지 큰 영향을 미친 경험이 있다. 대학 마지막 학기의 파이썬 과정이었던 생물학자를 위한 프로그래밍이다. 이 경험이 새로운 열정의 바탕이 됐다”고 말했다.
잘 아는 영역에서 나와 처음부터 시작해야 하는 새로운 영역으로 들어간다는 것은 겁나는 일이었다. 마일스는 매일 코드를 쓰며 방대한 서열 데이터 집합에서 정보를 추출해 단백질 서열의 물리화학적 속성을 계산하기 위한 방법을 개발하고, 유전자의 길이와 위치를 알아내고 바이러스 DNA의 특성을 파악했다.
마일스는 “정리되지 않은 데이터 집합을 간결한 결과로 추출해 내면서 프로그래밍과 생물학의 연결이 가진 강력한 힘을 볼 수 있었다. 새로운 길에 대한 도전인 이 과정에 완전히 몰입했다. 코딩이라는 행위 자체에서 행복과 만족감을 느꼈다”고 말했다.
보건 과학에서 데이터 분석으로
항상 기술에 관심은 있었지만, 첫 직장은 제약 회사인 질리드 사이언시스(Gilead Sciences)였다. 마일스는 “데이터 엔지니어가 되기까지의 과정은 간단하지 않았다. 하지만 모든 것을 연결한 하나의 구심점은 작업과 그 작업이 미치는 영향에 대한 팀과 회사의 시각을 데이터를 활용해서 바꾸는 데 대한 관심이었다”고 말했다.질리드 사이언시스에서 체외생물학 부문 선임 연구원으로 심혈관 건강을 나타내는 임상적으로 전환 가능한 생물지표를 파악하는 일을 했다. 각 실험마다 수천 개의 데이터 포인트가 산출됐지만, 데이터 분석에 많은 시간이 걸렸다.
마일스는 “분석의 효율성을 높일 수 있는 방법이 떠올랐다. 데이터를 효율적으로 파싱해서 중요한 정보를 추출하는 엑셀 매크로를 만들었다. 이후 팀은 결과를 요약하고 후속 실험을 결정하는 데 집중할 수 있게 됐다. 효과적인 생물지표 파악에서 내가 한 작업의 영향을 본 이후에는 환자에게 명확하고 즉각적인 영향을 미칠 수 있는 프로젝트에 초점을 두기 시작했다”고 말했다.
사전임상 프로젝트를 마친 후 임상 약학 그룹으로 이동해 그곳에서 항바이러스 임상 연구를 위한 생물분석 작업 책임자로 일했다. 마일스는 “데이터 분석 경험을 발판으로 임상 등록 정보를 다루면서 약물 허가 신청에 사용할 수 있는 약물동역학 데이터를 얻는 시점을 예측했다. 또한 임상 데이터를 다룰 수 있는 기회도 얻었다. 여러 임상 연구에 걸쳐 환자 데이터를 수집해 정제, 분석하고 데이터 품질을 평가했다”고 말했다.
데이터 엔지니어 되기
마일스는 회사 경영진의 지지를 받아 워싱턴 대학을 통해 데이터 과학 자격증 프로그램에 등록했다. 마일스는 “여기서 머신러닝을 처음 접했고 결과적으로는 진로 변경 욕구를 확실히 다진 계기가 됐다”고 말했다.