한양대, 효율적인 다국어 대화형 챗봇 데이터 생성기술 개발
상태바
한양대, 효율적인 다국어 대화형 챗봇 데이터 생성기술 개발
  • 이송옥 기자
  • 승인 2023.09.13 15:36
  • 댓글 0
이 기사를 공유합니다

「ACL」 학술대회 논문 발표
서지원 교수(왼쪽) 김성균 박사과정 연구원(오른쪽)
서지원 교수(왼쪽) 김성균 박사과정 연구원(오른쪽)

 

[nbn시사경제] 이송옥 기자

한양대 컴퓨터소프트웨어학부 서지원 교수 연구팀이 최근 미국(Stanford University), 중국(Tianjin University), 프랑스(Université Paris-Saclay), 인도(Microsoft Research India, International Institute of Information Technology, Karya. Inc) 연구팀과의 협업으로 다국어 언어를 지원하는 대화형 챗봇 에이전트의 학습 효율성을 증가시키는 고품질의 데이터 생성 기술을 개발했다고, 한양대가 13일 밝혔다. 

연구팀의 기술을 활용하면 고품질의 다국어 챗봇 에이전트를 저렴한 비용으로 기계학습 시킬 수 있다. 이번 연구는 자연어 처리 분야의 최우수 학술대회인 ‘ACL (Conference on Machine Learning and Systems)’의 ‘Findings’ 트랙에서 발표됐으며, 공동 연구팀은 데이터셋, 코드, 툴 등을 오픈소스로 공개하였다.

그동안 주요 국제 학회에서 발표되고 논의된 대화형 챗봇 연구는 주로 영어, 중국어와 같이 널리 사용되는 언어에 국한되어 왔다. 새로운 언어를 위한 데이터셋을 만드는 데 적지 않은 비용이 들어가기 때문이다. 연구팀이 제안한 기법을 사용하면, 사람이 번역한 데이터셋 일부를 기반으로 전체 데이터셋에 대한 자동 번역 품질을 향상시켜 널리 사용되지 않은 언어에 대해서도 데이터셋 제작 비용을 현저히 줄일 수 있다.

연구결과 모식도 (출처=한양대)
연구결과 모식도 (출처=한양대)

 

연구팀은 신경망 기반 기술과 사전 기반 기술을 독창적으로 통합하는 자연어 처리 기술인 통합적 개체 정렬(Hybrid Entity Alignment) 기술을 고안했다. 연구팀은 이를 활용하여 전체 데이터셋을 번역하는 대신 작은 크기의 일부 데이터셋만 번역한 후 기술을 적용하는 ‘번역 및 후편집 방법론’을 제안하였다.

이 기법을 적용하면 데이터셋 전체를 번역하지 않아도 챗봇 모델의 다국어 성능을 유의미하게 높일 수 있다. 예를 들면, 한국어로 훈련된 챗봇 모델을 서비스하는 기업에서 글로벌 고객을 응대하기 위해 영어와 프랑스어에 대해서도 같은 기능의 챗봇 모델을 서비스해야 할 때, 기존에는 한국어 모델을 훈련할 때 사용했던 데이터셋 전체를 번역해야 했지만 ‘번역 및 후편집 방법론’을 적용하면 데이터셋의 일부만 번역해도 비슷한 성능을 가지는 다국어 챗봇 모델을 서비스할 수 있게 된다.

공동 연구팀은 독립체 정렬 기술의 성능을 측정하기 위하여 중국어로 된 ‘RiSAWOZ’ 데이터셋을 영어, 프랑스어, 힌디어, 한국어, 영어-힌디 변형(Code-mixed)의 5가지 타깃 언어에 대하여 실험을 수행하였다. 또한 데이터셋의 품질을 더욱 높일 수 있는 다양한 자동화, 반자동화 검사 툴들을 개발하였다.

특히 한국어는 다른 언어와 단어 조합 방법이 달라 통합적 개체 정렬 기술을 적용하기에 어려움이 있었다. 서지원 교수 연구팀의 김성균 박사과정 연구원은 한국어 데이터셋의 독립체 정렬 기술 성능을 높이기 위하여 어절 단위가 아닌 단어 단위로 개체 정렬을 적용할 수 있도록 문자 단위의 개체 정렬 기법을 제안하고, 이를 위한 도구 개발에 참여하였다. 이를 통해 조사, 보조 용언같이 한 어절에서 나타나는 변화를 포함한 여러 한국어의 특성들을 고려할 수 있게 됐다. 

김성균 박사과정 연구원은 이번 연구결과에 대해 “챗봇 모델이 지원하는 언어를 추가할 때 비용적인 장벽이 크게 낮아질 수 있다”라며 “특히 널리 사용되지 않아 챗봇 언어 모델을 훈련하기 위한 데이터셋을 만들기 어려운 언어들에 대해서도 챗봇 서비스 지원을 기대하고 있으며, 이를 통해서 비주류 언어 사용자들의 서비스 접근성이 증가하는 효과를 기대하고 있다”라고 밝혔다.

공동 연구팀은 본 연구 결과인 대화형 챗봇 에이전트를 위한 엔드 투 엔드(End-to-End) 데이터셋과 검사 툴들을 포함한 ‘X-RiSAWOZ’ 벤치마크를 오픈소스로 공개하였다.

maceye0622@gmail.com

nbn 시사경제, nbnbiz


주요기사