NLP 9

ELECTRA [Pre-training Text Encoders as Discriminators Rather Than Generators]

https://mldlcvmjw.tistory.com/259 6. 훈련 평가 GAN이 어디에 위치하는지 알아보자. 다음 그림은 모델의 분류 체계를 보여준다. 이 그림에서 어떤 생성 모델이 있는지 알 수 있고 서로 비슷한 것과 비슷하지 않은 것을 확인할 수 있다. 이 그 mldlcvmjw.tistory.com GAN 과의 차이점 GAN 과 다른 점 1. ELECTRA (Discriminative) : generator 로 부터 전달된 데이터를 가짜로 인식하도록 하는 것이 목표인 모델 GAN (생성 알고리즘) : 생성한 데이터를 discriminator 가 진짜로 인식하도록 하는것이 목표인 모델 GAN 은 최대한 진짜 같은 데이터를 생성하려는 생성 모델과 진짜와 가짜를 판별하려는 분류모델이 존재하여 서로 적..

NLP 2022.08.23

[DistilBERT] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter - 논문 리뷰

Abstract 고성능의 NLP model 을 만드는 것은 비용(시간, 하드웨어)이 많이 듬 (성능이 모델의 크기와 비례) NLP 에서 Transfer learning 을 사용하여 큰 모델을 사용하는걸 보편적으로 볼 수는 있지만 model 을 deploy 하기 위해서는 제한된 환경이 주어질 경우가 많음 이 논문에서 제한하고 있는 Distil BERT 는 기존 BERT 의 크기 40% 감소, 속도는 60% 빠르며 그럼에도 불구하고 97% 의 성능을 유지하고 있음 1. Introduction 최근 2년 동안 NLP 에서 Transfer Learning 의 접근이 많아짐 (large-model 을 pretrained 하고 특정 task 에 맞춰 fine tuning 하는 방식) 초기 자연어 처리의 문제 [1]..

NLP 2022.08.07

SpanBERT[Improving Pre-training by Representing and Predicting Spans] - 논문리뷰

Abstract random token 이 아닌 contiguous 한 random span 을 마스킹함 개별 token representation 에 의존하지 않고 mask 범위의 전체 내용을 예측하도록 span boundary representation 을 학습 Q/A 와 conference resolution 과 같은 span 선택 task 에서 가장 큰 이득을 보임 1. Introduction BERT 는 individual word, subword 를 마스킹하여 self-supervised training 을 통해 성능을 크게 향상 시킴 NLP task 의 text span 간의 relationship 추론에 대해 고민한 논문 eg. extractive Q/A 에서 "Denver Broncos"..

NLP 2022.08.01

RoBERT [A Robustly Optimized BERT Pretraining Approach] - 논문리뷰

RoBERT BERT 는 학습 시간이 길어 hyper param 들을 하나하나 조정하며 실험을 하는 것이 어려움 기존의 BERT 를 유지하면서 각 학습 단계의 hyper param 을 조정하여 성능을 높임 BERT 와의 비교 BERT 는 Under fit 되어 있음 (설계) 여러가지 tuning 을 진행 더 큰 batch 와 data 를 가지고 학습 NSP loss 제거 longer seq Dynamic Masking 적용 Static 과 Dynamic Masking 의 비교 Original BERT : mask 한 번 수행 후 고정 Dynamic Masking 기존에 bert 는 매 학습 단계에서 똑같은 mask 를 보게 되는 것을 (static masking) 같은 문장을 10번 복사한 뒤 mask ..

NLP 2022.08.01

XLNet [Generalized Autoregressive Pretraining for Language Understanding] - 논문리뷰

[youtube] PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding : https://www.youtube.com/watch?v=koj9BKiu1rU 참고 Abstract 이전의 Transformer XL 과 똑같은 저자분들이 등장함 (reject) Pretraining model 을 크게 두개로 나누어서 설명하고 있음 Autoregressive yt = ayt-1 - ut Y 는 현시점 Y 에 영향을 주는 자기 자신에 대한 함수가 됨 (forward, backward 가 존재) (한방향으로 가기 시작하면 그 다른 정보는 볼 수 없다는 단점이 존재 bidirectional rnn 결과도 forward 따로 ba..

NLP 2022.07.25

BERT [Pre-training of Deep Bidirectional Transformers for Language Understanding] - 논문리뷰

BERT [Pre-training of Deep Bidirectional Transformers for Language Understanding] Abstract BERT 란 Bidirectional Encoder Representations from Transformer 를 뜻합니다. 기존에 존재하던 모델과 다르게 BERT 는 unlabeled text 에 대해 모든 레이어에서 양쪽 context 를 모두 고려하였습니다. pre trained BERT 모델은 한개의 추가적인 layer 만으로(즉, 특정 task 를 처리하기 위해 새로운 network 를 붙일 필요 없이 Bert 모델 자체의 fine-tuning 을 통해 처리가 가능하다는 말) 다양한 task 에서 SOTA 를 달성하였습니다. Intro..

NLP 2022.07.11

GPT-1 [Improving Language Understanding by Generative Pre-Training] - 논문리뷰

[GPT-1] Improving Language Understanding by Generative Pre-Training Introduction 원시 텍스트에서 학습 지도 학습에 대한 의존성을 완화 시켜야 raw text 에서 학습을 하는 능력이 향상됩니다. 대부분의 딥러닝에는 상당한 양의 라벨링된 데이터가 필요하기 때문입니다. 이런 unsupervised learning 이 시간과 비용은 많이 들지만 상당한 성능 향상을 가지고 있습니다. 라벨링이 안된 데이터는 단어 수준 이상의 정보를 활용하기 어렵다. 어떤 optimization objectives 가 text representations 를 학습할 때에 제일 효과적인지 알기 어렵습니다. 학습된 표현을 target task 로 전달하는 효과적인 방법에..

NLP 2022.07.07

[Day35] NLP Intro (word embedding) 필기

Natural language processing (ACL, EMNLP, NAACL) Low level parsing tokenization, stemming Word and pharse level NER(하나의 고유명사로 인식), POS tagging, noun-pharse chunking, dependency parsing, conference resolution Semantic relation extraction Sentence level sentiment analysis, machine translation (각 단어별로 적절한 번역 어순 고려) Multi-sentence and paragraph level Entailment prediction 기존에는 키워드가 포함된 웹페이지 리스트가 띄워짐 ..

NLP 2022.06.23