인공지능 AI/자연어처리

    [NLP/LLM] LLM 용어 정리

    LLM 최신 트렌드가 매일 쏟아져나와 따라잡기 벅차다.. 최근 논문들을 계속 읽으면서 반복적으로 나오는 용어들을 정리해서 머릿속에 넣어줄 필요성을 느꼈다. jailbreak 모델 편향을 악용하여 의도한 목적에 부합하지 않을 수 있는 결과를 생성하기 위해 프롬프트를 신중하게 설계하는 것 instruction-tuning 구글의 FLAN(Finetuned Language Models are Zero-Shot Learners) 논문에서 처음 나온 개념 텍스트로 구성된 데이터 세트에 대해 LLM을 지도학습 방식으로 추가 학습시키는 과정 즉, LLM 모델을 Instruction 데이터셋을 통해 fine-tuning을 진행하고 이를 통해 zero-shot 성능을 높이는 방법 Domain Adaption 대상 시스템..

    [NLP] Adversarial Attacks on LLMs (LLMs 대한 적대적공격)

    Adversarial Attacks on LLMs https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/ Adversarial Attacks on LLMs The use of large language models in the real world has strongly accelerated by the launch of ChatGPT. We (including my team at OpenAI, shoutout to them) have invested a lot of effort to build default safe behavior into the model during the alignment proces lilianweng.github.io LL..

    [NLP/RE] RCL: Relation Contrastive Learning for Zero-Shot Relation Extraction

    NAACL 2022에 기재된 논문입니다. Zero-Shot Relation Extraction에 대한 새로운 접근 방식을 제안하는 논문입니다. Introduction 저자는 Zero-Shot Relation Extraction이 두 엔티티 간 관계의 복잡한 의미론을 포착하지 못한다는 한계점을 지적합니다. 따라서 저자는 이 한계를 극복하기 위한 새로운 프레임워크, RCL(Relation Contrastive Learning for Zero-Shot Relation Extraction)을 소개합니다. 현재의 접근법이 pre-defined relations or supervised data에 의존하기 때문에 적용 가능성이 제한된다고 주장합니다. 저자는 contrastive learning을 활용하여 엔티티 쌍..

    [NLP/RSNs/RE] Neural Snowball for Few-Shot Relation Learning

    AAAI 2020 https://arxiv.org/pdf/1908.11007.pdf Introduction 저자는 few-shot relation learning의 문제를 소개하고 이 작업에 대한 기존 방법의 한계에 대해 논의합니다. 그래서 해결책으로 신경 스노우볼 모델을 제안하고 main contributions를 개략적으로 설명합니다. Related Work few-shot learning, relation extraction, and entity linking에 관련연구들,, 저자는 Neural Snowball model을 기존 접근 방식과 비교하고 그 장점을 강조합니다. 해당 논문은 RSNs(Relational Siamese Networks)를 채택해서 사용합니다. Method BERT 기반 인코..

    [논문리뷰/NLP/IR/NLG] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

    Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 2020 NeurIPS 발표 논문입니다 Patrick Lewis, Ethan Perez.. 저자로 Facebook AI Research; University College London; New York University 에서 작성하였습니다. Retrieval 문제와 Generation 문제를 함께 이용하여 Knowledge Intensive Task를 해결하는 모델을 제안합니다. 외부 지식 베이스에서 Input과 관련된 문서를 Retrieval하여 실제 생성 태스크를 수행하는 새로운 프레임워크를 제시하였습니다. 문맥 정보를 반영하는 고정된 임배딩 모델 pre-trained neural r..

    [논문리뷰/NLP/IR] Dense passage retrieval for Open-Domain QA

    Dense passage retrieval for Open-Domain QA 2020 EMNLP 게재 논문으로 Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih Facebook AI, University of Washington, Princeton University에서 쓴 논문입니다. Information Retrieval 정보 검색 분야 모델로 DPR, dual-encoder 모델을 활용한 dense passage retrieval 제안하였습니다. Open-domain QA task에서는 후보 context를 고르기 위한 passage retrieval 중요..

    [논문리뷰/NLP] Prototypical Representation Learning for Relation Extraction

    Prototypical Representation Learning for Relation Extraction ICLR 2021 논문으로 칭화대와 알리바바 작성 논문입니다. 논문에 대해 다루기 전에, 우선 알아야 하는 개념 몇개를 보겠습니다. Prototype 이란? 일종의 대표값입니다. 우리가 학습을 대규모의 데이터에서 학습을 해야 성능이 좋은데, 보통 이런 여건이 되는 경우는 흔치 않죠..ㅠ 그래서 적은 데이터로도, 학습한 적 없는 데이터에도 좋은 성능으로 결과를 내기 위한 메타 러닝 기법입니다! k-mean clustering 과정처럼 접근하면 됩니다. 각각 가까운 거리에 있는 점끼리 클러스터링하면 그림과 같이 다른 색깔의 클래스로 군집화가 됩니다. 그러면 그 점들끼리의 평균을 구해서 계속해서 업데이..

    ComDensE : Combined Dense Embedding of Relation-aware and Common Features for Knowledge Graph Completion

    논문선정이유 KG 관련 국내 연구 읽기 위해. Abstract Real-world knowledge graphs (KG) are mostly incomplete. The problem of recovering missing relations, called KG completion, has recently become an active research area. Knowledge graph (KG) embedding, a low-dimensional representation of entities and relations, is the crucial technique for KG completion. Convolutional neural networks in models such as ConvE, SACN..

    Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0

    논문선정이유 멀티모달 모델 관련 국내연구를 찾기 위해서. Abstract This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask #1, #2 and the generation of subtask #4. SIMMC 2.0 dataset is a multimodal dataset containing image and text information, which..

    [논문리뷰/NLP] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

    ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS We call our approach ELECTRA for “Efficiently Learning an Encoder that Classifies Token Replacements Accurately.” 핵심요약 ELECTRA achieves higher accuracy on downstream tasks when fully trained. replaced token detection → pre-training GAN이랑 비슷한 구조. 하지만 generator를 maximum likelihood로 train. (기존GAN: adversarial하게 학습) 왜냐하면 te..

    [논문리뷰/NLP] ALBERT: A LITE BERT FOR SELF-SUPERVISEDLEARNING OF LANGUAGE REPRESENTATIONS

    https://arxiv.org/pdf/1909.11942.pdf Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut Abstract 논문선정이유 Introduction Related Work Scaling up Representation Learning for Natural Language Cross-Layer Parameter Sharing Sentence Ordering Objectives The Elements of ALBERT Factorized embedding parameterization. Cross-layer parameter sharing, Inter-sentence coheren..

    [논문리뷰/NLP] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

    ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION https://arxiv.org/abs/2107.02137 ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation Pre-trained models have achieved state-of-the-art results in various Natural Language Processing (NLP) tasks. Recent works such as T5 and GPT-3 have shown that scaling up ..

    [논문리뷰/NLP] ERNIE: Enhanced Language Representation with Informative Entities

    paper link: https://arxiv.org/pdf/1905.07129.pdf Abstract: Neural language representation models such as BERT pre-trained on large-scale corpora can well capture rich semantic patterns from plain text, and be fine-tuned to consistently improve the performance of various NLP tasks. However, the existing pre-trained language models rarely consider incorporating knowledge graphs (KGs), which can pr..

    [논문리뷰/NLP] Distilling the Knowledge in a Neural Network

    Distilling the Knowledge in a Neural Network Geoffrey Hinton, Oriol Vinyals, Jeff Dean #NIPS 2014 Deep Learning Workshop 논문선정이유 모델링 경량화 작업을 공부하기 위해 읽었던 사전의 DistilBERT 논문이 차용한 논문이다. Knowledge Distillation에 대해 처음으로 소개하는 논문이다. Teacher model과 Student model이라는 개념을 제시했다. Abstract A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on ..

    [논문리뷰/NLP] DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

    Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF Hugging Face {victor,lysandre,julien,thomas}@huggingface.co 📎paper link: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter 논문 선정 이유 모델 경량화 관련하여 참고하고 공부하기 위해서 Abstract large-scale pre-trained 모델들로 Transfer Learning이 일반화된 NLP. 더 낮은 비용의 언어 모델링으로 사전학습을 하는 방법 제안. We reduce the size of a BERT model by 40%, while reta..

    [논문리뷰] Transformer_Attention is all you need(NIPS 2017)

    기존의 RNN과 CNN 아키텍처의 단점들을 보완하여 등장한 새로운 혜성 같은 모델, Attention Sequential한 특징을 가지는 Recurrent 모델들과 다르게 병렬 처리가 가능하다. 모델 아키텍처 Encoder와 Decoder로 이루어져있다. Encoder 레이어(층)끼리 임베딩 sub-layer 등 모든 차원을 512로 통일. Stage1_out = Embedding512 + TokenPositionEncoding512 #w2v결과 + pos정보 Stage2_out = layer_normalization(multihead_attention(Stage1_out) + Stage1_out) Stage3_out = layer_normalization(FFN(Stage2_out) + Stage2_o..

    [논문리뷰]Generative Pretraining from Pixels_ImageGPT/OpenAIGPT/이미지GPT

    [Chen et al. 2020] Generative Pretraining from Pixels 2020, ICML 논문 기재 자연어처리로 유명한 OpenAIGPT를 만든 회사, OpenAI에서 쓴 논문입니다. 자연어처리에서 사용하는 GPT모델을 이미지에도 사용하였다는 신기한 내용의 논문이라서 읽어보고 리뷰해보았습니다. 'NLP의 단어들 = 이미지 픽셀' 이라고 생각하고 처리하였다고 보시면 됩니다. 자연어처리에서 단어들로 빈칸을 예측하여 채웠듯, 이미지 픽셀로 채운 것입니다. "이미지GPT(Image GPT)"로 알려진 논문입니다. GPT-3는 자연어처리에서 소설 쓰기, 이메일 답장, 가계부 완성, 자동 웹페이지 작성 등의 작업을 할 수 있다고 합니다. 이를 이미지에도 적용시킨 것이 재밌어서 리뷰해보았습..

    [논문리뷰/NLP] Pre-training of Deep Bidirectional Transformers for Language Understanding

    구글이 2019년 발표한 BERT 논문을 리뷰하였습니다. Abstract BERT는 Bidirectional Encoder Representations from Transformers 를 뜻하고 다른 LM(language model)들과 달리, 모든 층의 left and right (bidirectional) 방향으로 pretrain합니다. 먼저 pretrained language model을 설명하자면, 두 가지로 나뉩니다. feature-based와 fine-tuning. feature-based 방식엔 대표적으로 ELMo가 있고, pre-trained representations를 추가해서 task-specific 구조를 사용합니다. fine-tuning방식은 대표적으로 OpenAI GPT가 있고,..