인공지능은 어떻게 내 말을 알아들을까
오늘날 우리는 말의 홍수 속에서 살아가고 있습니다. 하루가 다르게 늘어나고 있는 신어들은 당최 어디에서 왔는지조차 알 수 없을 만큼 생소하고, 그렇다고 해서 기존에 존재하던 단어들이 다 익숙한 것도 아닙니다. 이는 비단 실제 언어사용자인 우리뿐만이 아니라, 언어사용의 중심적인 배경으로 자리 잡은 컴퓨터 역시 마찬가지입니다.
그럼에도 불구하고 컴퓨터는 실제 언어생활에서 사용하고 있는 다양한 말들을 마치 스펀지마냥 빨아들이며 사용 · 처리하고 있는데요. 이것이 가능한 이유는 ‘말뭉치’가 존재하기 때문입니다.
○ 말뭉치란?
말뭉치(corpus)란, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료입니다. 매체, 시간, 공간, 주석 단계 등의 기준에 따라 다양한 종류로 나눌 수 있다는 특징을 가지고 있습니다. (출처- 국립국어원 표준국어대사전)
○ 음성인식을 가능하게 하는 말뭉치
말뭉치가 실생활에서 사용되고 있는 대표적인 예시는 ‘인공지능 음성 인식’입니다. 인공지능이 휴대폰 사용자의 음성을 인식하여 명령을 수행하기 위해서는 말뭉치에 담겨 있는 언어 자료가 필수적인데요. 애플의 'siri'와 삼성전자의 ‘bixby'를 시작으로 kt의 ’GiGA Genie'와 SKT의 ‘NUGU'와 같은 인공지능 스피커 역시 인공지능 음성 인식을 활용하여 생활에 편리함을 안겨다 주고 있습니다.
○ 더 많은 말뭉치 확보가 관건
인공지능 시장의 열기가 더해가고 있는 가운데, 인공지능 개발에 필수적인 말뭉치 구축이 중점으로 떠올랐습니다. 2018년 12월 6일 이뤄진 기자간담회에서 소강춘 국립국어원장은 “현재 확보한 말뭉치가 2억3천만 어절인데, 내년까지 10억 어절을 구축해 제공하겠다”고 밝혔는데요.
AI 기술의 발달과 함께 중요하게 대두되고 있는 말뭉치에 관심을 가져보는 것은 어떨까요? (자료인용 : 특허청 블로그)