Home

Reformer - The Efficient Transformer

Author Nikita Kitaev, Lukasz Kaiser, Anselm Levskaya Abstract 큰 사이즈의 트랜스포머 기반 모델들은 여러가지 분야에서 SOTA를 달성 하지만, 모델들을 학습하는데 비용이 많이 듬 : 특히 긴 시퀀스의 경우 그래서 트랜스포머를 효율을 향상시킬 두가지 기술을 소개하려 함. 어텐션을 계산할 때 내적 대신 LSH(Locality-Sensitive Hashing)을 이용 ⇒ O(L^2) → O(LlogL) 기존의 residuals 방법 대신 “reversible residual layer”를 사용 ⇒ 학습시 엑티베이...

Read more

ELECTRA Pre-Training Text Encoders as Discriminators Rather than Generators

Author Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning Abstract MLM 방식은 입력 토큰을 손상 시킨 후 오리지널 토큰으로 수정 하면서 학습을 진행 (예 : BERT) 다양한 다운 스트림 테스크로 트랜스퍼 되는 관점 에서는 효과적일 수 있지만, 일반적으로 많은 양의 컴퓨팅을 요구함 대안으로 좀더 나은 방식을 제안 : “Replaced token detection” MASK 토큰을 쓰는 대신 미리 학습해둔 작은 뉴럴넷을 통해 생성된 유사한 단어를 사용 ...

Read more

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)

Created: Nov 08, 2019 5:52 PM Created By: Leo Kim Last Edited By: Leo Kim Last Edited Time: Nov 12, 2019 4:36 PM Abstract NLP 도메인에 존재하는 다양한 문제들을 하나의 통일된 프레임웍을 이용해서 해결 하고자 함 프레임웍 기반 기술 : Transfer learning using Transformer 최근 다양한 변이가 많음 : 실험을 통해 최적의 모델을 찾고자 함 고려한 옵션 : Pre-training Architect, Pre...

Read more

Cross-lingual Language Model Pre-training

Author Guillaume Lample, Alexis Conneau Abstract 2가지 Cross-lingual LM(XLM)을 제시 단일 언어 말뭉치에 대한 비지도학습 방법 두개 언어에 대해 병렬 말뭉치가 있을 때 지도학습 방법 그리고 이것은 매우 좋은 성능을 보였음. 1. Introduction 트랜스포머 이후에 많은 LM기반 Pre-Training모델들이 나왔지만, 대부분 하나의 언어(특히 영어)에 포커스 된 형태. 최근 이러한 영어 중심의 바이어스된 문제를 완화하고 싶음. 방안으로 여러 언어가 하나의 임베딩 공간을 공유...

Read more