Hybrid Cloud - The power of "and"

제조산업에서의 데이터 레이크 구축 방안

Cloudera | Cloudera

2022.01.19

인더스트리 4.0 시대를 맞아 많은 제조 기업이 디지털 혁신을 서두르고 있다. 제조업의 디지털 혁신 전략의 핵심은 ‘데이터 활용’이다. 제조업계는 자동화 설비와 공정 전반에서 생성되는 데이터의 가치를 높게 인정한다. 그렇다면 인더스트리 4.0 시대의 데이터 수집과 활용은 이전 세대와 비교해 무엇이 다를까? 더 많은 관계자가 더 많은 데이터에 더 쉽고 편하게 접근할 수 있어야 한다는 것이 차이점이다.

데이터 레이크의 가치 재발견

제조 기업의 현장에 가보면 품질관리, 설비관리, 생산관리, 경영정보 등 수많은 데이터가 쏟아지고 있다는 것을 알 수 있다. 이들 데이터를 활용해 엔지니어는 품질 문제를 찾고, 수율을 개선하고, 공정을 혁신한다. 이처럼 중요한 데이터를 활용할 때 아직 많은 현장이 전통적인 수집과 분석 방법에 의존한다.

즉, 현장을 잘 아는 엔지니어가 스스로 필요한 정보에 접근해 데이터 속에서 통찰력을 찾는 것이 아니라, IT 부서에 요청해 필요 데이터를 받아 분석하는 방식이 사용된다. 이런 식의 접근은 데이터 준비에 오랜 시간이 걸리기 때문에, 엔지니어가 필요 데이터를 적시에 활용하기가 쉽지 않다.

그렇다면 엔지니어가 더 빠르고 편리하게 데이터를 활용하려면 어떻게 접근해야 할까? 그 첫걸음이 바로 데이터 레이크 구축이다. 여러 시스템에서 데이터를 수집해, 이를 정형화하고, 마스터 데이터와 결합하는 등의 전처리 작업을 마친 데이터를 데이터 레이크에 적재하면 접근성이 크게 높아진다. 따라서 엔지니어들은 더 쉽고 빠르게 업무에 필요한 데이터를 활용할 수 있다. 데이터 레이크로 접근성과 편의성을 높이는 것이 중요한 이유는 제조업의 경우 시계열 데이터 처리 비중이 높기 때문이다.

문제는 이 데이터의 양이 상당하다는 것이다. 센서 데이터 수집 주기를 짧게 만들 경우 양이 더욱 커진다. 그렇다면 이처럼 방대한 데이터를 어떻게 더 빠르게 적재하고 추출할 것인가? 데이터 레이크에 품질, 설비, 생산관리, 경영정보 등의 원시 데이터를 모아 놓으면 간단하게 답이 나오는 질문이다.

제조업계를 위한 데이터 레이크 구축 방안

데이터 레이크를 구축하는 가장 큰 이유는 제조 현장에서 데이터를 기반으로 하는 업무 체계가 정착시키기 위해서다. 데이터에 대한 접근성과 편의성을 높여 특정 소수가 아니라 더 많은 엔지니어와 관계자가 데이터를 확보하고, 분석하고, 결과를 공유해 업무를 개선하는 활동을 이어갈 수 있도록 데이터 레이크를 추구하는 것이다. 이런 측면에서 보면 데이터 레이크는 단순히 데이터를 잔뜩 모아둔 저장소가 아니다. 전사 측면에서 데이터 활용 극대화를 위해 셀프서비스가 가능한 사용자 중심 서비스를 구현하는 기초로 봐야 한다.

제조업을 위한 클라우데라의 제안은 셀프서비스 데이터 포털을 통해 데이터 활용도를 높이는 것이다. 데이터 레이크를 바탕으로 다양한 개방형 기술로 구성된 CDH/CDP를 활용해 누구나 쉽게 필요 데이터에 접근해 분석 등 활용할 수 있는 환경을 구축하는 것이 핵심이다. 셀프서비스 데이터 포털은 데이터 레이크를 기반으로 DW, NiFi, RDBMS, HDFS, Hbase, 임팔라(Impala), 카프카(Kafka) 등을 활용해 아키텍처를 구성할 수 있다.

셀프서비스 데이터 포털이 제 기능을 다하려면 현장 엔지니어의 다양한 요구사항을 충족할 수 있어야 한다. 이를 위한 클라우데라의 제안은 데이터 카탈로그 중심의 셀프서비스 데이터 포털을 구축하는 것이다. 이 환경을 구축하면 다양한 원천 시스템에서 획득한 데이터 모델 정보들이 표준 데이터 모델 체계 아래 관리된다.

또, 이들 표준 모델은 ETL과 연계된다. ETL을 통해 수집한 데이터는 리니지 수집기를 통해 생명주기 정보가 기록되며, 여러 이기종 시스템에서 가져온 메타 데이터로는 카탈로그를 구성한다. 참고로 메타 데이터 카탈로그는 메타 데이터 마스터부터 상세 정보와 샘플 데이터까지 관리한다. 이렇게 환경을 구성해 놓으면 사용자는 원하는 데이터를 손쉽게 확보할 수 있다. 사용자는 원하는 데이터를 획득하기 위해 추출 조건만 지정하면 된다. 그러면 셀프서비스 데이터 포털 플랫폼은 Spark와 Livy를 이용해 데이터를 읽어들인 후 병렬 분산 처리로 고속 가공해 데이터를 요청한 사용자의 버킷에 저장한다.

제조 중심의 데이터 레이크 구축에 필요한 플랫폼 기술

이제 제조 환경에 적합한 데이터 레이크 구축을 조금 더 자세히 알아보자. 클라우데라의 제조 부문 고객사는 보편적으로 데이터 레이크 구축에 다음 기술을 활용한다. 이중 중요 기술 몇 가지를 정리했다.

먼저 NiFi는 코딩 없이 ETL 과정을 수행할 수 있는 데이터 파이프라인 구축에 사용한다. 데이터 레이크에 데이터를 적재하려면 원천 시스템에서 데이터를 로딩한 다음 가공해서 HFDS 및 Kudu 스토리지에 저장해야 한다. 이 과정에서 Parquet 파일 변환도 해야 하고, 파티셔닝 작업도 해야 한다. 이런 일련의 작업을 코딩 없이 진행하는 데 있어 NiFi만한 것이 없다.

두 번째는 데이터 추출 및 모델을 위한 데이터 모델러다. 보통 제조 기업은 데이터 추출과 가공을 담당하는 BI 도구를 직접 만들어 사용하는 경우가 많다. 스팟파이어(Spotfire), 태블로(Tableau) 같은 도구도 많이 쓰지만, 업무 특성에 최적화한 도구를 선호하는 곳이 많다.

데이터 레이크 환경에서는 자체 도구보다는 개방형 도구를 적용하는 것이 여러 모로 효과적이다. 파일, 데이터베이스 등 다양한 데이터 소스와 연계해 데이터를 결합하고 가공하는 과정을 기존 BI 도구나 데이터베이스에서 수행하는 경우, 리소스 부족과 성능 저하 문제에서 벗어나기 어렵다. 해결할 수 있는 조합이 바로 스파크(Spark)와 리비(Livy)다. 이 둘을 이용하면 표준화 기반의 데이터 처리 모델과 분산 처리 기술로 빠르게 데이터 추출과 결합을 할 수 있다.

다음으로 센서 데이터 추출을 위해 NoSQL 기술을 이용한다. 제조 현장에 IoT 및 엣지 컴퓨팅 적용이 확대되면서 고속으로 센서 데이터를 추출하기 위한 NoSQL 기술의 중요성이 커지고 있다. 수 페타바이트 수준의 용량이 생성될 경우 쿠두/임팔라를 적용하기에는 데이터 크기가 큰 문제와 함께 데이터 탐색에 너무 긴 시간이 걸리는 문제가 있다.

또한, 조회 조건이 엔지니어마다 달라 파티션으로 컬럼을 지정하기도 쉽지 않다. 이런 이유로 초대용량 센서 데이터 처리는 별도의 방법이 필요하다. 이 중 하나가 Hbase를 기반으로 MapReduce 처리 방식을 이용해 센서 값을 뽑기 편하게 변경한 후 분산 검색 엔진으로 검색 조건을 인덱스로 생성하는 것이다.

마지막으로 살펴볼 것은 데이터 보관 주기에 맞게 저장소를 티어링하기 위해 쿠두/임팔라를 활용하는 것이다. 실시간으로 쏟아지는 데이터를 모두 저장하는 것은 현실적이지 않다. 자주 참조하는 정보와 그렇지 않은 것을 구분해 핫, 웜, 콜드 계층으로 나누어 저장하는 접근이 필요하다. 쿠두/임팔라는 하나의 엔진처럼 통합되어 동작한다. 따라서 단일 쿼리로 두 개의 엔진이 유기적으로 구간에 따라 티어링을 수행하므로 탄력적으로 핫, 웜, 콜드 데이터에 접근할 수 있다.

기타 고려 사항

제조산업에서 빅데이터 기술 세트를 적용할 때 고려해야 할 사항이 많다. 가장 먼저 고려해야 할 것은 시간이다. 시계열 데이터를 많이 다루는 업종의 특성상 시간의 중요성은 아무리 강조해도 지나치지 않다. 따라서 이런 특성을 고려해 클라우데라 CDH/CDP에 있는 기술을 사용할 때 충분히 파악한 후에 적용하는 것이 필요하다.