AIㆍML / 보안

케이사인, 악성코드 분야 AI 데이터셋 4억 건 구축

편집부 | ITWorld 2022.02.11
케이사인이 자회사 위협 인텔리전스 전문기업인 ‘샌즈랩’ 및 안티바이러스 전문기업인 ‘이스트시큐리티’와 4억 건의 사이버보안 AI 학습용 데이터셋을 구축 완료했다고 밝혔다.

한국인터넷진흥원(KISA)은 지난해에 과학기술정통부의 ‘K-사이버방역 추진전략’의 일환으로 ‘사이버보안 AI 데이터셋 구축사업’을 진행했다. 이번 과제는 사이버 침해대응 분야 민관 전문가가 협력해 사이버보안 AI 데이터셋 구축의 선순환 환경을 조성하고, 국내 보안기술을 지능화해 급증하는 신·변종 보안 위협에 선제적으로 대응할 수 있는 기반을 마련하는 것을 목표로 한다.

케이사인 컨소시엄은 해당 사업에서 3억 건 이상의 정상/악성파일 및 300종 이상의 악성코드 패밀리를 분류하고, 즉시 활용할 수 있는 ‘사이버보안 인공지능(AI) 데이터셋(악성코드 분야)’ 구축했다. 악성코드 AI 특징정보 추출에 대한 전문적 노하우와 클라우드 기반의 페타급 대용량 데이터셋 이관 방법론으로 최적의 데이터셋을 구축하고, 이관 및 검증 체계를 마련하며 업계의 주목을 받았다.
 

케이사인 컨소시엄은 샌즈랩에서 운영하는 멀웨어즈닷컴(malwares.com)에서 분석한 20억 건의 악성코드 분석 데이터 가운데 대표성을 띈 3억 개의 악성코드를 추출하고, 악성코드 특징 정보를 바탕으로 300여 종의 패밀리로 분류했다.

구축된 데이터셋은 총 150여 종의 메타정보 및 원시데이터를 포함한다. 또한 공격그룹, 공격기법, 유포방법 등 악성코드 속성정보에 대한 고차원으로 연관관계 분석을 실시해 1억 건의 악성코드 분석 데이터도 함께 마련했다. 정적/동적 분석만으로 도출할 수 없는 심층정보를 속성으로 생성해 유사도 분석을 수행하고, 클러스터링한 결과를 기반으로 데이터셋을 구축하며 기술을 우수성을 인정받았다.

구축한 데이터셋은 다수의 기관으로부터 다양한 AI 모델을 통해 실증을 수행했다. 또한 악성코드 전문 인력과 품질 검증을 위해 각 분야 전문가 10인의 자문을 받아 데이터셋의 질적 향상을 도모했다.

케이사인은 사업 종료 이후에도 구축된 데이터셋을 인공지능 핵심기술 연구 개발에 사용하는 한편, 사이버 보안 위협 대응에 필요한 중요 거점 데이터셋으로 활용이 될 수 있도록 지원할 방침이다. editor@itworld.co.kr
 Tags 케이사인

회사명 : 한국IDG | 제호: ITWorld | 주소 : 서울시 중구 세종대로 23, 4층 우)04512
| 등록번호 : 서울 아00743 등록발행일자 : 2009년 01월 19일

발행인 : 박형미 | 편집인 : 박재곤 | 청소년보호책임자 : 한정규
| 사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.