AIㆍML

마이크로소프트, 문자 분류 머신러닝 모델 간소화하는 API 공개

Paul Krill | InfoWorld 2022.06.16
최근 마이크로소프트가 ML.NET 텍스트 클래시피케이션 API(ML.NET Text Classification API)의 프리뷰를 공개했다. 오픈소스 ML.NET 머신러닝 프레임워크를 사용한 사용자 지정 문자 분류 모델의 학습을 간소화하는 API다. 
 
ⓒ Getty Images Bank

마이크로소프트는 ML.NET 텍스트 클래시피케이션 API가 최신 딥러닝 기술을 사용한다고 말했다. 개발자는 ML.NET로 사용자 지정된 머신러닝 학습 모델을 .NET 앱에 통합할 수 있다. 문자 분류는 레이블이나 범주를 문자에 적용하는 프로세스로, 일반적으로 이메일을 스팸과 스팸이 아닌 것으로 분류하거나 고객 리뷰에서 긍정적/부정적인 감정을 분석하고, 지원 티켓에 레이블을 적용하는 데 사용된다. 

ML.NET 텍스트 클래시피케이션 API는 토치샤프(TorchSharp) .NET 라이브러리로 구동된다. 이 라이브러리는 파이토치(PyTorch) 머신러닝 프레임워크를 지원하는 libtorch 라이브러리에 대한 액세스를 제공한다. 토치샤프는 .NET에서 신경망을 기초부터 훈련시키는 저수준 기능을 보유하고 있는데, ML.NET에서는 이런 교육을 더 쉽게 수행할 수 있도록 토시샤프의 일부 복잡성이 추상화됐다. 

마이크로소프트는 마이크로소프트 리서치와 협력해 NAS-BERT(Bidirectional Encoder Representations from Transformers)에 토치샤프를 적용했다. NAS-BERT는 신경망 아키텍처 탐색(neural architecture search, NAS)으로 얻은 BERT의 변형이다. 사전 훈련된 버전을 시작으로 텍스트 클래시피케이션 API는 새 모델을 처음부터 구축하는 대신 사용자 데이터로 기존 모델을 미세 조정한다.

텍스트 클래시피케이션 API는 ML.NET 2.0.0 및 0.20.0 프리뷰 버전에 포함됐다. Microsoft.ML 패키지 외에 Microsoft.ML.TorchSharpTorchSharp-cpu(CPU 사용 시), TorchSharp-cuda-windows 또는 TorchSharp-cuda-linux(GPU 사용 시)가 필요하다.

개발자는 비주얼 스튜디오의 누겟(NuGet) 패키지 관리자 또는 .NET CLI를 사용해 패키지를 설치할 수 있다. API의 코드 샘플은 API 깃허브 리포지토리에서 확인할 수 있다. 

마이크로소프트는 Evaluate 메서드를 사용해 평가 메트릭을 계산할 수 없는 등 해당 API에 여전히 한계가 있다고 지적하며, 다른 시나리오 기반 API 도입과 함께 텍스트 클래시피케이션 API를 개선할 예정이라고 말했다. 
editor@itworld.co.kr
Sponsored

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.