텍스트 요약 모델 성능 평가를 위한 새로운 척도, RDASS를 소개합니다.

더 나은 성능의 요약 모델을 만들려면 모델로부터 자동으로 생성된 요약문을 어느 정도로 신뢰할 수 있는지 판별하기 위한 적절한 평가 방법이 있어야 합니다. 문제는 가장 보편적으로 쓰이는 성능 평가 척도가 모델의 성능을 제대로 평가하지 못한다는 거죠. 이를 해결하기 위해 카카오엔터프라이즈가 카카오, 고려대학교, 한신대학교와 연구팀을 꾸리고 관련 주제로 연구를 하게 됐습니다.

2021.07.29

텍스트 스타일을 바꾸는 딥러닝 기술

카카오엔터프라이즈는 입력 문장에서 '스타일' 토큰을 명시적으로 삭제하고, '내용 토큰과 타깃 스타일 속성값만을 가지고 문장 벡터를 생성하는 접근 방식에서 영감을 얻었습니다. 카카오엔터프라이즈가 고안한 SST 모델 또한 1)문장에서 ‘스타일' 토큰을 삭제한 뒤, 2)’콘텐츠’ 토큰만을 가지고 입력 문장과는 반대되는 스타일 속성값을 가진 문장을 생성합니다. 다만 기존과는 다른 방식으로 각 모듈을 구현했는데, 이는 포스트에 자세히 소개돼 있습니다.

2021.05.25

EMNLP 2020 - 다국어 번역 논문 2편을 소개합니다

첫번째 논문은 1-1 MNMT가 지닌 한계를 극복한 실용적인 번역 모델을 새롭게 탐색하는 과정에서 multi-way MNMT의 가치를 재발견했습니다. LSTM 대신 Transfomer로 인코더와 디코더를 구현한 버전을 M2NMT라 명명하고 실험을 진행했습니다. 두번째 논문에서는 제로샷 번역에서 1-1 MNMT의 한계와 SLNI 기법이 무엇인지, SLNI를 이용했을 때 제로샷-감독학습 번역에서 성능이 어떻게 달라지는지 실험적으로 증명했습니다.

2020.12.17

지식그래프에서 경로를 탐색하는 모델 AttnIO를 소개합니다

산업 현장에서 많이 쓰이는 Seq2Seq 기반 대화 모델은 지식을 갖춘 문장 생성에 취약합니다. 대화 모델의 근간이 되는 대규모 말뭉치를 사전학습한 언어 모델은 스스로 문장에 포함된 의미가 사실에 근거하는지 아닌지를 구분하지 못하기 때문입니다. 아울러 입력 문장과 관계없는 상투적인 표현을 내뱉는 경향도 크죠. 이에 지난 2019년부터는 외부에 구축해 둔 지식 그래프를 활용하는 연구가 본격적으로 제안되고 있습니다. 특히 지식 경로를 효과적으로 탐색하는 방법론이 많이 다뤄지고 있습니다. 카카오엔터프라이즈 연구도 이와 궤를 같이합니다.

2020.12.14

무인 편의점 개발기 - Edge Device로 Object Tracking 시스템 구축하는 방법

저희는 '편의점'이라는 가상의 공간을 만들어서, 그 안에서 소형의 엣지 디바이스만으로 사람을 추적하는 것을 목표로 개발을 진행하였습니다. 오늘은 바로, 저희가 이 시스템을 어떻게 설계했는지에 대해서 간략하게 소개해보려 합니다.

2020.11.17

정답 유형을 분류하는 딥러닝 기술

사용자 질의에 적절한 답을 제시해주는 검색 시스템에서 후보 정답을 추출하는 방식은 정답의 유형에 따라 다릅니다. 단답형의 정답은 대부분 그 형태가 비슷하다 보니 일종의 규칙에 기반한 투표 알고리즘을 통해 최종 정답을 선별할 수 있습니다. 하지만 서술형의 정답은 제각기 표현 방식이 달라 전과는 다른 새로운 투표 알고리즘이 동작해야 합니다. 질의만 보고 그 정답의 유형(단답형, 서술형)을 분류하는 딥러닝 기술에 대한 중요성이 필요해지는 이유입니다.

2020.07.24

얼굴 인식 알고리즘 선행 연구를 소개합니다

얼굴 인식 모델의 성능을 높이려는 목적에서 다양한 손실 함수가 제안돼 왔습니다. 하지만 손실 함수 개선만으로는 성능 향상에 한계가 있습니다. 기존의 인식 모델 자체가 수천개 범주만을 구분할 수 있다보니, 수만 명의 인물을 구분해야 하는 태스크에는 적합하지 않은 거죠. 이에 카카오엔터프라이즈는 얼굴의 유사성을 그룹화해 표현하는 특징 벡터를 추출하는 새로운 모델 구조인 GroupFace를 고안했습니다.

2020.07.23

FRVT 1:1 검증 챌린지 참가 스토리

사내 서비스 '라이브픽'에 쓰이는 얼굴 인식 모델을 개선하는 과정에서 객관적인 성능을 평가받기 위해 챌린지에 도전했습니다. 그 결과, 1차, 2차 그리고 3차에 연이은 도전 끝에 1등과 2등과 매우 근소한 차이를 보이며 3등을 차지했습니다. 현재 다양한 산업 영역에 응용되는 얼굴인식 기술은 요구되는 정확성이 높아 업체 간 경쟁이 치열해지고 있습니다. 매우 한정된 자원으로 거둔 유의미한 성과를 소개하고자 합니다.

2020.06.16

카카오 i 번역 성능 향상 실험 : 대규모 말뭉치를 활용한 사전학습

카카오가 보유한 대규모 말뭉치를 사전학습한 번역 모델은 기존 카카오 i 번역 엔진에 사용된 모델과 비교했을 때 더 나은 성능을 냈습니다. 이 글에서는 바로 이 사전학습된 번역 모델을 만드는 과정과 실험 결과에 대한 내용을 담았습니다.

2020.05.07