AIㆍML / 개발자

정성적 고객 경험 개선하는 텍스트 애널리틱스 방법론 3가지

Isaac Sacolick  | InfoWorld 2021.02.08
텍스트 애널리틱스는 ‘텍스트 데이터 마이닝’이라고도 불리는, 문장에서 통찰력과 실행 가치 있는 정보, 추세, 패턴을 발견하는 과정이다. 추출되어 구조화된 데이터는 원래 텍스트보다 정보의 데이터 품질 및 유용성을 판단하기가 훨씬 더 편리하고 쉽다. 개발자와 데이터 과학자는 채굴된 데이터를 다운 스트림 데이터 시각화, 애널리틱스, 머신러닝, 애플리케이션에서 이용할 수 있다.

텍스트 애널리틱스는 사실, 관계, 정서, 여타 맥락적 정보를 식별하는 것을 목표로 한다. 추출된 정보의 유형은 사람 이름, 장소, 제품 등 개체에 태그를 붙이면서 시작한다. 이후에는 주제를 할당하고 범주를 결정하고 감정을 발견하는 단계로 나아갈 수 있다. 통화, 일자, 수량 등의 지표가 추출되면 다른 개체와 그 외 여타 한정자 간 관계를 확립하는 것이 텍스트 애널리틱스의 핵심 기능이다.
 
ⓒ Getty Images Bank
 

문서 또는 데이터 필드에서 데이터 추출 

텍스트 애널리틱스에서 가장 어려운 점은 기업 리포지토리와 대형 문서를 처리하는 것이다. 예를 들어, 웹사이트에서 취합한 뉴스, 기업 SEC 제출 문서, 전자 의료 기록, 그 외 비구조적, 또는 반구조적 문서 등이다. 문서의 크기 및 구조는 흔히 도메인 고유의 사전 처리 규칙 및 자연어 처리(Natural Language Processing, NLP) 알고리즘을 따르기 때문에 문서 분석에 몇몇 특수한 어려움이 따른다. 예를 들어, 1,000단어짜리 블로그 게시물을 분류하는 것은 도서 전집 내에서 발견되는 모든 주제의 순위를 정하는 것보다 훨씬 쉽다. 또, 대용량 문서 작업은 추출한 정보를 맥락에 근거해 계속 검증해야 한다. 예를 들어 어떤 환자의 질병은 가족 병력 질병 목록과는 별개로 범주화해야 한다.

그러나 폼 필드나 여타 짧은 텍스트 스니펫에서 정보를 추출하는 한층 단순한 작업을 수행할 경우는 어떠한가? 아래의 유망한 시나리오를 검토해보자. 

•    직원 설문조사의 개방형 응답에서 피드백을 수량화 
•    브랜드나 제품에 대한 정서를 발견하기 위해 소셜 미디어 게시물을 처리 
•    각종 챗봇 상호작용을 범주화 
•    애자일 백로그 상의 이용자 스토리로 주제를 할당 
•    문제 상세 정보에 기초해 서비스 데스크 요청의 경로 지정 
•    웹사이트 상에서 마케팅에 제출된 정보를 해석 

이들 문제는 문서를 파싱하는 것보다 한층 단순한 알고리즘을 요구한다. 텍스트 필드는 식별 가능하고, 짧고, 흔히 특정 유형의 정보를 담고 있기 때문이다. 

한 애플리케이션에서 비구조적 필드 데이터를 이용하거나, 데이터 시각화에 텍스트에서 추출한 통찰력을 포함하라는 요청이 있다고 하자. 텍스트 애널리틱스는 중요한 첫 단계이고, 애자일 데이터 과학 팀은 발견 작업 이행에 보통 스파이크(Spikes)를 이용한다. 텍스트 애널리틱스 수행에는 도구, 기술, 방법론이 필요하다.
 

1. 퍼블릭 클라우드의 NLP 및 인지 서비스 이용 

대형 퍼블릭 클라우드는 자연어 처리 및 여타 인지서비스를 제공한다. 따라서 이미 이러한 환경에서 일하고 있고 알고리즘을 능숙하게 이용하는 팀은 다음 선택지를 조사해야 한다.

•    애저 코그니티브 서비스(Azure Cognitive Services)는 몇 가지 연관 서비스를 제공한다. 폼 리코그나이저(Form Recognizer)는 텍스트 필드와 문서에서 키/값 쌍을 추출할 수 있고, 텍스트 애널리틱스는 개체, 정서, 핵심 어구를 식별할 수 있다. 더욱 고도화된 랭귀지 언더스탠딩(Language Understanding) 기능으로 챗봇, 모바일 및 사물 인터넷(IoT) 애플리케이션에서 NLP 모델을 개발할 수 있다.

•    구글 클라우드 플랫폼(GCP)은 2가지 별개의 자연어 옵션을 제공한다. 개발자는 자연어 API를 이용해 기본 개체를 분석하고, 정서를 추출하고, 700개의 사전 정의된 범주로 콘텐츠를 분류한다. 고급 오토 머신러닝 내추럴 랭귀지(AutoML Natural Language)는 커스텀 분류 및 정서 모델을 생성한다. 

•    AWS 컴프리헨드(AWS Comprehend)도 유사한 텍스트 애널리틱스 및 NLP 기능을 제공한다. 개체, 이벤트, 핵심 어구, 주제, 정서, 개인 식별 정보를 검출하는 API가 있다. 개발자와 데이터 과학자는 아마존 세이지메이커를 이용해 블레이징 텍스트(Blazing Text), BERT(Bidirectional Encoder Representations form Transformers), 스페이시(SpaCy) 등의 NLP 모델을 테스트하고 훈련시키고 전개할 수 있다. 

•    IBM 왓슨 내추널 랭귀지 언더스탠딩(IBM Watson Natural Language Understanding)은 개체, 정서, 범주, 개념을 추출할 수 있을 뿐 아니라 관계, 감정, 의미론적 역할을 식별하는 고급 기능도 있다. 
 

2. 데이터 통합 및 머신러닝 플랫폼에 있는 텍스트 애널리틱스 도구를 이용 

데이터 통합, 머신러닝 또는 애널리틱스 플랫폼에 투자한 조직이라면, 아마 텍스트 애널리틱스 및 NLP 기능을 사용할 수 있을 것이다. 이들 플랫폼을 이용하는 것은 가벼운 텍스트 애널리틱스를 실행하는 더 쉽고 더 빠른 방법이다.  API로, 또는 데이터 과학 노트북에서 코딩을 할 필요가 없다. 실례를 들자면 아래와 같다. 

•    알터릭스 디자이너(Alteryx Designer)는 전처리, 주제 모델링, 정서 분석을 위한 텍스트 마이닝 기능이 있다.  

•    IBM SPSS 모델러 텍스트 애널리틱스(IBM SPSS Modeler Text Analytics)는 분류에 쓰일 수 있고, 시장 조사에서 설문 응답을 처리하는 보편적인 도구다.


•    SAS 비주얼 텍스트 애널리틱스(SAS Visual Text Analytics)는 파싱, 정보 추출, NLP 모델링, 정서 분석, 추세 분석을 위한 시각적 도구이자 오픈 플랫폼이다. 

다른 데이터 과학 플랫폼으로는 래피드마이너(RapidMiner), 나임(Knime), 데이터이쿠(Dataiku) 등이 있고, 이들은 퍼블릭 클라우드 서비스와의 통합 및 플러그-인을 통해 텍스트 마이닝 기능을 네이티브로 제공한다. 
 

3. 전문 텍스트 애널리틱스 도구 사용 

퍼블릭 클라우드 플랫폼 상의 코딩이 너무 복잡하다면, 그리고 텍스트 마이닝 기능을 갖춘 애널리틱스, 데이터 과학, 머신러닝 플랫폼을 보유한 상태가 아니라면 세 번째 선택지인 전문 텍스트 애널리틱스 도구를 고려한다. 키트텍스트(KeatText), 렉사리틱스(Lexalytics), 미닝클라우드(MeaningCloud), 넷오울(NetOwl), 프로밸리스 리서치(Provalis Research), 로제트 텍스트 애널리틱스(Rosette Text Analytics), 여타 텍스트 애널리틱스 기능을 제공하는 플랫폼 등이 있다.

텍스트 애널리틱스는 또한 고객 및 판매 전망에 대한 정성적 정보를 포착하는 고객 경험, 마케팅 자동화, 시장 조사, 소셜 리스닝, 챗봇, 여타 플랫폼에서 보편적으로 관측된다.

수많은 도구가 텍스트 애널리틱스 기능을 갖춘 것은 놀라울 게 없다. 표준화된 개체, 범주, 주제를 기초로 사전 구축된 모델을 가진 간단한 온-램프(on-ramps)이거나, 아니라면 견실한 모델 구축을 가능하게 하는 도구도 있다. 플랫폼은 표적 이용 사례에 따라 각기 다르다. 몇몇 플랫폼은 특정한 산업, 문서 유형, 통합 요건, 기술 이용 사례에 큰 비중을 두고 있다.

텍스트 애널리틱스를 이제 막 시작했다면 몇 가지 모범 코스가 있다. 비즈니스 가치를 전달하는 질문과 표적 결과를 정의해 데이터 및 애널리틱스 발견 훈련부터 시작하라. 그 후 처리를 요하는 문서, 콘텐츠, 텍스트 필드의 전반적인 복잡성을 고려하고, 표적 개체, 주제, 어의와 관련된 세부 정보를 조사하라. 문제 복잡성을 이해한다면, 이것은 애자일 스파이크가 가능한지, 아니라면 텍스트 마이닝 전문가와 공동으로 보다 광범위한 애자일 개념 증명을 구축해야 하는지를 구분하는 데 도움이 될 것이다. 

무엇보다도, 텍스트 애널리틱스와 자연어 처리가 머신러닝의 한 형태임을 인식해야 한다. 견고한 솔루션을 위해서는 여러 알고리즘을 실험하고, 모델을 개선하고, 새 데이터 출처를 추가하고, 결과의 품질을 검증해야 한다. 고객 경험을 향상시키고자 한다면 텍스트 애널리틱스는 개발해야 할 중요한 기능이다. editor@itworld.co.kr 
 Tags

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.