[AI 사내 세미나] AI가 아직 정복하지 못한 인간의 영역, 언어

Jun 7, 2021

첫 번째 AI 세미나는 LG전자 미래기술센터 인공지능연구소 김유진 연구위원의 강연으로 막을 열었습니다. LG전자는 가전에 ‘음성지능’ 기술을 추가하여 홈 IoT 시대에 맞는 가장 현실적인 미래 모습을 제시하고 있는데요. 음성지능을 담당하고 있는 김유진 연구위원의 강연 내용을 함께 살펴볼까요?

AI 첫 번째 세미나, 언어를 어디까지 이해하고 무엇을 할 수 있는가?

 

Session 1, 자연어 처리 기술 현황

첫 번째 세션에서는 언어 처리의 관점에서 AI의 현재 수준을 살펴보았습니다.

 

인공지능 언어 처리 기술은 주변에서 쉽게 볼 수 있는 인공지능 스피커를 통해 쉽게 접할 수 있습니다. 사용자가 스피커에 “유튜브에서 유퀴즈 검색해줘”라고 말하면 AI는 ‘음성 인식’, ‘의도 분석’, ‘대화 처리’, ‘음성 합성’ 과정을 거쳐 유튜브에서 검색된 유퀴즈 영상 목록을 사용자에게 보여주는데 자연어 처리는 ‘의도 분석’과 ‘대화 처리’를 담당하게 됩니다.

 

자연어 처리 프로세스

자연어 처리 절차

 

AI도 사람처럼 이미 습득한 질문에 대한 답은 곧 잘하지만 가설 또는 수치화할 수 없는 정보에 답을 하기엔 아직 부족한 점이 많습니다. 예를 들어, 약 10년전에 IBM의 Watson이라는 기술은 퀴즈쇼에서 사람을 상대로 압도적인 성능을 보여주었지만, 환자의 정보를 입력하면 치료 방법을 제공하는 Watson for Oncology의 경우, 전문가들의 치료 방법과 Watson for Oncology이 권고한 치료 방법이 일치하는 비율이 낮아 개발이 중단되었습니다. 아직 특정 영역에서 전문가 수준의 지식을 바탕으로 답변하는 것은 쉽지 않은 도전임을 알 수 있었습니다. 

 

AI_Seminar_2-2.jpg

◀왼쪽: 미국의 퀴즈프로그램 ‘제퍼리(jeopary)’에 참가한 IBM의 슈퍼컴퓨터 ‘왓슨(Watson)’, [사진 출처: 청년의사]

►오른쪽: 왓슨(Watson for Oncology) 도입병원, [사진 출처: 한국일보]

 

또한 우리가 매우 쉽고 편리하게 사용하는 번역의 경우에도, 동서양의 문화 차이로 동양은 직역을 서양은 의역을 선호하는데요 AI는 수치화할 수 없는 사람들의 선호 영역은 고려하지 못해 아직 번역 업계에 AI를 적용하기엔 무리라는 판단이 주를 이루고 있습니다. 끝으로 최근에 한국에서 뜨거운 논란을 일으켰던 ‘이루다’ 챗봇의 경우 개인정보의 이슈와 학습 및 응답의 편향성 등으로 사회적인 문제가 되기도 했습니다.

 

2010년 후반부터 기존의 수준을 훨씬 뛰어넘는 Sequence-To-Sequence 모델링 기반의 대용량 언어모델들이 나타났지만 아직은 특정 영역에서 일반적인 상식 수준의 능력을 보여준 것이고 상업적으로 의미 있는 전문 영역에서 사람과 동일한 언어지능을 보여주기에는 아직 개선되어야 할 것들은 많아 보입니다.

 

Session 2, 대용량 언어모델 기술

두 번째 세션에서는 대용량 언어모델의 개념과 의미 등을 살펴보았습니다.

 

독해력을 기르는 방법은 독서뿐이고 글쓰기의 시작은 독서라고 말한 유시민 작가의 말처럼 최신의 자연어처리 기술은 엄청난 양의 책을 읽은 것과 같은 대용량 언어 모델들을 기반으로 하고 있습니다.

대용량 언어모델은 사람의 일반지능에 도전하는 기술이라고 할 수 있는데요 마치 초중고 과정을 독서를 통해 일반지식을 갖추고 대학에서 각 분야별 전문지식을 습득하여 기업의 구성원이 되는 것과 같은 과정입니다. 최신의 언어모델은 사람이 학습할 수 없는 약 800만개의 웹페이지의 문서를 학습하는 pre-trained 모델을 기반으로 특정 분야의 업무를 처리하기 위해 아주 적은 양의 데이터만을 추가 학습하는 fine-tuning 과정을 통해 생성된다고 합니다.

 

대표적인 언어모델로서 언어이해 및 분류를 주로 처리하는 BERT (Bidirectional Encoder Representations from Transformers)에서 텍스트 생성, 번역, 요약과 같은 기능을 위주로 하는 GPT-3 (Generative Pre-Training 3)까지 자연어 처리를 위한 Transformer 기반의 언어 모델 기술들을 소개했습니다. 이와 관련하여 언어 모델을 활용하여 간략한 입력 문장만으로도 문단을 생성하거나 코딩 문장을 자동으로 작성하는 프로그램도 알아보는 시간이었습니다.

 

LG전자도 발전하는 AI 추세에 발맞추어 ThinQ.AI 플랫폼을 개발하고 있습니다. ThinQ.AI는 이미 TV, 가전 이외에도 LG전자의 다양한 제품에서 사용되고 있으며 플랫폼의 사용 영역 또한 점차 확장되고 있습니다. 기기와 사용자가 자연스럽게 대화할 수 있도록 지속해서 발전하는 ThinQ.AI를 기대해주세요.


 

사내에서 주관하는 첫 번째 AI 세미나는 어떠셨나요? 우리의 일상생활을 쾌적하게 하는 AI의 발전 속도가 놀랍지 않으신가요? 저는 강의를 들으면서 AI가 이렇게 다양한 분야에서 사용되고 주변에 깊숙하게 관여하고 있다는 사실에 놀라웠고 또 앞으로의 발전 방향이 무척이나 기대되었습니다.

 

두 번째 세미나는 ‘말로만 그림을 그릴 수 있을 것인가?’를 주제로 진행됩니다. 6월까지 진행하는 AI 세미나에 많은 관심 부탁 드리며 이상으로 첫 번째 AI 세미나 후기를 마칩니다.