"할루시네이션 문제 해결…6월 정도면 내부 기준 넉넉히 달성"

[포쓰저널=서영길 기자] SK텔레콤이 ‘텔코LLM(거대언어모델)’의 완성도에 대해 자신감을 드러내며 연내 고객센터에 적용할 수 있을 것이라고 밝혔다.
30일 서울 을지로 SKT타워에서 열린 '텔코LLM 기자설명회'에서 정민영 SKT AI플랫폼 담당은 "텔코LLM의 할루시네이션(환각현상) 문제는 내부적으로 평가 기준이 있는데 몇몇 테스크(과제)는 이 기준을 넘겼고 다른 테스크들도 기준 이상의 수치를 확보하려고 한다"며 "6월 정도에는 꽤 넉넉히 (기준 이상을) 달성할 수 있을 것이라고 생각한다"고 강조했다.
SK텔레콤은 이날 통신사에 최적화된 LLM을 쓸 수 있도록 하는 멀티LLM 전략의 일환인 텔코LLM을 선보였다.
현재 고객센터에서 상담 전화 한 건을 처리하는데 고객 상담에 약 3분, 상담 후 업무 처리하는데 30초 이상이 소요되는데 텔코LLM을 도입하면 상담사가 고객과 전화하는 동안 LLM이 해결책을 상담사에게 제공하고 상담 내용을 요약해주는 등 상담 후 처리까지 소요되는 시간을 크게 단축시켜 줄 수 있을 것으로 회사 측은 기대하고 있다.
정 담당은 텔코LLM의 6월 도입과 관련된 질문에 "도입 시점은 모델과 요약, 테스크 단위 개발을 하는 것들이 6월 초쯤 마무리 될 거라고 예상된다"며 "하지만 사내 여러 시스템들에 적용되기 위해 필요한 일들이 있어서 아마도 올해 안으로 고객센터에 적용할 수 있을 것이고 실제 상용화는 그쯤 가능할 것"이라고 내다봤다.
에릭 데이비스 SKT AI Tech Collaboration담당은 데이터 확보와 관련해 40년간 콜센터를 운영하며 축적된 대용량의 데이터가 이미 확보돼 있다고 했다.
데이비스 담당은 "SKT가 콜센터 운영을 40년간 해와서 데이터가 많다"며 "다만 데이터 품질이 높지 않아 샘플링 단계에 집중하고 있다"고 했다.
다음은 정민영 SKT AI플랫폼 담당과 에릭 데이비스 SKT AI Tech Collaboration담당과의 일문일답이다.
- SK텔레콤은 글로벌 LLM을 개발하고 있는 걸로 알고 있는데, 오늘 발표한 한국형 텔코LLM에서 글로벌형 LLM으로 파인튜닝(미세조정) 하는 건지 글로벌형은 별도로 개발을 하고 있는지 궁금하다. 또 최근 기업들이 비용 효율 측면에서 SLM(소형언어모델)을 더 많이 개발하고 있는데 SKT는 LLM 쪽으로 계속하는 이유는.
▶ (정민영 SKT AI플랫폼 담당) SK텔레콤이 일전부터 강조했던 멀티LLM 전략에 텔코LLM도 포함돼 있다고 이해를 하면 좋을 것 같다. LLM 개발과 관련해선, GPT4 등을 사용해보면 한국어를 꽤 잘 한다. 전 세계 통신사에 공유하는 표준도 많고 업무들도 비슷하다 보니 모든 언어를 위해 모든 데이터가 다 필요하다고 보고 있지는 않다. 한국어, 영어 등 주요 언어가 어느 정도 개발되면 언어 부분에 있어선 LLM 커버리지가 생각보다 크게 있을 거라고 기술적으로 기대를 하고 있다.
- 6월에 출시한다고 했는데, 이건 텔코LLM의 기술이 어느 정도 완성이 됐다는 의미같다. 그럼 할루시네이션이 어느 정도 되나.
▶ (정 담당) 할루시네이션 경우는 저희 내부적으로 평가 기준이 있다. 일정 기준 이상 넘어가야 제품을 출시할 수 있다고 판단했고, 몇몇 과제들에 대해서는 이미 해당 기준을 넘었다. 현재 다른 테스크들에 대해서도 그 기준을 확보하려고 하고 있다. 6월까지 시간이 좀 남아 있는데 이쯤에는 넉넉히 기준을 넘어설 수 있을 것으로 예상하고 있다.
하지만 AI 모델 같은 경우 ‘완성’이라는 표현을 사용하기에는 어려움이 있다. 왜냐면 계속 고객 요청이 바뀌고 사업 상황이 지속 변화하기 때문에 이에 따라서 제품이 시장에 따라서 계속 변화할 수밖에 없다.
- 텔코LLM 만들면서 멀티LLM을 쓰고 있다. 이 때문에 각 과제에 따라 다른 LLM을 썼을 경우 비용이 많이 들 것으로 보이는데.
▶ (정 담당) 멀티LLM 전략을 사용을 할 때 모든 LLM들에 동일한 인풋을 넣고 아웃풋을 본 다음에 평가해 어떤 걸 쓸지를 매번 결정하는 방식도 물론 있다. 하지만 실제 적용 사례를 만들어낼 때 일반적으로 모든 AI 프로젝트들이 그렇듯 사내 수요 부서의 평가 과정을 거친다. 이런 평가를 거쳐 LLM을 선택해 비용적은 측면을 컨트롤 한다.
- 텔코LLM이 속도와 비용에 있어서 기존 다른 LLM 서비스에 비해 얼마나 높은지 구체적 수치를 비교해 달라.
▶ (정 담당) 속도와 관련해선 정확한 수치를 말하기는 곤란하다. 하지만 텔코LLM을 잘 만들어놓으면 훨씬 적은 입력을 줘도 더 좋은 답변을 얻을 수도 있고 짧은 답변 내에서도 원하는 결과를 만들어낼 수도 있어서 속도 등은 당연히 따라오는 결과라고 판단하고 있다. 하지만 AI 기술이라는 게 케이스마다 조금씩 그 효과들이 다 다르다. 그래서 텔코LLM이 무조건 기존 모델 대비 몇 배 더 뛰어나다고 말하기는 어렵다.
- 오픈AI가 LLM 기술에서 핵심 중에 하나인데, 오픈AI 이전 버전에 비해 새로 나온 버전이 할루시네이션이 얼마나 낮아졌다고 분석하고 있나.
▶ (에릭 데이비스 SKT AI Tech Collaboration담당) GPT4 보면 GPT 3.5 버전보다 훨씬 좋아졌다. 영어의 경우는 그렇게 큰 차이가 없지만 타 언어는 과거보다 훨씬 많이 개선됐다.
▶ (정 담당) LLM 모델에 전적으로 모든 답변을 다 의존하는 건 앞으로도 불가능할 거라고 저는 보고 있다. 모델의 학습 시점에 들어갔던 데이터와 실제로 사용되는 시점의 데이터 간에 차이가 있기 때문이다. 그래서 RAG(검색증강생성) 같은 시스템 구축이 반드시 필요하다. LLM 모델이 아무리 발전돼도 이를 전적으로 믿기엔 어려운 부분이있어서 이렇게 시스템적으로 보완하는 건 앞으로도 필수적이라고 생각한다.
- 일반 LLM에 비해 통신의 전문성을 내기 위해서 텔코LLM을 만든 건데, 그러면 B2B(기업간 거래) 사업을 하겠다는 건지 아니면 통신사들에게 도구로서의 기능을 하겠다는 건지 궁금하다.
▶ (정 담당) LLM 모델의 최근에 발전 트렌드를 보거나 저희 내부적으로 보기에 모든 도메인과 어플리케이션에 파인튜닝이 필요할 거라고 생각하지는 않는다. 다만 비용 문제 등의 최적화를 가져가려면 파인튜닝이 필요한 지점이 분명히 있다는 것이다. 하지만 파인튜닝 비용도 추세적으로 보면 굉장히 가파르게 떨어지고 있다.
파인튜닝에 들어가는 비용이 점점 저렴해지고 있기는 하지만 어쨌든 중간에 사업 평가도 들어가게 되고 데이터 구축도 해야 한다. 데이터 품질이 좋을수록 당연히 파인튜닝도 잘 되기 때문이다. 이처럼 데이터 구축 비용이 많이 들어가긴 하지만 텔코LLM에서는 분명히 그 이상의 효용을 얻을 수 있을 것이라 판단해 투자하고 있다.
예를 들면 금융 분야도 요즘 파인튜닝을 굉장히 열심히 하고 있는 도메인 중에 하나다. 이건 ROI(투자대비수익률) 평가에 따라 어느 정도 (텔코LLM이 비즈니스) 할 수 있는 부분들이 있을 거라고 생각한다. 다만 여기서 전제가 모든 도메인의 모든 비즈니스에 평가가 들어가기 위해 ‘파인튜닝을 전제로 해야 한다’ 이런 건 아니다.
- 6월에 개발 완료하시면 구체적으로 언제쯤 현장에 바로 적용해 사용할 수 있나.
▶ (정 담당) 모델과 그다음 모델을 실행해 요약같은 테스크 단위의 개발을 하는 것이 이르면 6월 초에 마무리 될 것으로 예상하고 있다. 하지만 사내 여러 시스템들에 적용되기 위해 필요한 일들이 있어서 아마도 올해 안으로 고객센터에 적용할 수 있을 거라 예상하고 있다.
- 정확도를 높이기 위해 데이터를 어떻게 확보하는지.
▶ (데이비스 담당) SKT가 콜센터를 40년동안 해와 엄청난 양의 데이터가 있다. 하지만 그 데이터 품질이 크게 높지 않아 이 데이터를 토대로 샘플링에 많이 집중하고 있다.
