국립국어원과 업무협약
1500억 매개변수 거대 언어 모델..다양한 산업에 활용

SKT 데이비스 에릭 하트먼 Language Superintelligence Labs장(왼쪽), 국립국어원 정희원 어문연구실장/사진=SK텔레콤

[포쓰저널=정환용 기자] SK텔레콤이 7일 국립국어원과 업무 협약을 체결하고, 국립국어원의 언어 정보를 활용해 한국어에 최적화된 차세대 인공지능(AI) 언어 모델을 개발하기로 했다고 밝혔다.

차세대 AI 한국어 모델은 사람의 능력 수준으로 평가되는 GPT-3와 유사한 성능을 발휘하는 한국어 범용 언어 모델(GLM)이다. GLM은 일상의 감성대화, 다양한 업종의 고객센터 대화 뿐 아니라 시사, 문학, 역사, 게임 등 다양한 영역의 언어 활동에 적용될 수 있다.

GPT-3는 오픈 AI가 개발한 영어 기반 AI 언어 모델로, 기존 GPT-2보다 언어 표현이 자연스럽다. GPT-3는 언어 관련 문제풀이, 글짓기, 번역, 주어진 문장에 따라 간단한 코딩을 수행할 수 있다.

SKT가 개발하는 GLM은 1500억 개의 매개변수(다른 함수에 공통 영향을 미치는 변수)를 가진 거대 언어 모델로 개발된다. GPT-3의 매개변수는 1750억 개로 GPT-2보다 100배 이상 크고 정확도와 활용도 모두 높다.

SKT는 올해 말까지 GLM을 개발해 내부 서비스를 통해 모델 성능을 검증한 후, 상용화와 함께 다양한 서비스에도 적용한다. 또한, 한국어 언어모델 성능 평가 방법 개발, 한국어 데이터 품질 평가 연구 등도 추진한다.

이와 함께 국립국어원은 올해 국어 정보처리 시스템 경진대회를 SKT의 AI 언어 모델을 활용해 AI의 언어소통 능력을 겨루는 방식으로 개편, 한글 주간에 개최하기로 했다.

SKT 데이비스 에릭 하트먼 Language Superintelligence Labs장은 “SKT는 한국어에 최적화된 인공지능 언어모델을 선제적으로 개발해 한국어의 정보화에 이바지하고 있다”며 “이번 국립국어원과의 협력을 계기로 한국어의 과학화, 세계화에도 기여할 계획”이라고 밝혔다.

국립국어원 정희원 어문연구실장은 “앞으로도 인공지능 개발에 필요한 언어 정보자원을 지속적으로 발굴해, 관련 산업계와 학계에서 유용하게 활용될 수 있도록 시스템을 구축해 나가겠다”고 말했다.

SKT는 2018년부터 AI 언어모델을 개발해 왔다. 2019년 KoBERT를 개발해 챗봇 등에 활용하고 있고, 2020년 KoGPT-2를 개발해 챗봇의 대화를 보다 자연스럽게 발전시켰다. 2020년 10월에는 뉴스나 문서를 고품질 요약문으로 만들어내는 능력 등을 갖춘 KoBART를 개발했다.

저작권자 © 포쓰저널 무단전재 및 재배포 금지