인공지능 AI

    [NLP/LLM] LLM 용어 정리

    LLM 최신 트렌드가 매일 쏟아져나와 따라잡기 벅차다.. 최근 논문들을 계속 읽으면서 반복적으로 나오는 용어들을 정리해서 머릿속에 넣어줄 필요성을 느꼈다. jailbreak 모델 편향을 악용하여 의도한 목적에 부합하지 않을 수 있는 결과를 생성하기 위해 프롬프트를 신중하게 설계하는 것 instruction-tuning 구글의 FLAN(Finetuned Language Models are Zero-Shot Learners) 논문에서 처음 나온 개념 텍스트로 구성된 데이터 세트에 대해 LLM을 지도학습 방식으로 추가 학습시키는 과정 즉, LLM 모델을 Instruction 데이터셋을 통해 fine-tuning을 진행하고 이를 통해 zero-shot 성능을 높이는 방법 Domain Adaption 대상 시스템..

    [NLP] Adversarial Attacks on LLMs (LLMs 대한 적대적공격)

    Adversarial Attacks on LLMs https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/ Adversarial Attacks on LLMs The use of large language models in the real world has strongly accelerated by the launch of ChatGPT. We (including my team at OpenAI, shoutout to them) have invested a lot of effort to build default safe behavior into the model during the alignment proces lilianweng.github.io LL..

    [NLP/RE] RCL: Relation Contrastive Learning for Zero-Shot Relation Extraction

    NAACL 2022에 기재된 논문입니다. Zero-Shot Relation Extraction에 대한 새로운 접근 방식을 제안하는 논문입니다. Introduction 저자는 Zero-Shot Relation Extraction이 두 엔티티 간 관계의 복잡한 의미론을 포착하지 못한다는 한계점을 지적합니다. 따라서 저자는 이 한계를 극복하기 위한 새로운 프레임워크, RCL(Relation Contrastive Learning for Zero-Shot Relation Extraction)을 소개합니다. 현재의 접근법이 pre-defined relations or supervised data에 의존하기 때문에 적용 가능성이 제한된다고 주장합니다. 저자는 contrastive learning을 활용하여 엔티티 쌍..

    [NLP/RSNs/RE] Neural Snowball for Few-Shot Relation Learning

    AAAI 2020 https://arxiv.org/pdf/1908.11007.pdf Introduction 저자는 few-shot relation learning의 문제를 소개하고 이 작업에 대한 기존 방법의 한계에 대해 논의합니다. 그래서 해결책으로 신경 스노우볼 모델을 제안하고 main contributions를 개략적으로 설명합니다. Related Work few-shot learning, relation extraction, and entity linking에 관련연구들,, 저자는 Neural Snowball model을 기존 접근 방식과 비교하고 그 장점을 강조합니다. 해당 논문은 RSNs(Relational Siamese Networks)를 채택해서 사용합니다. Method BERT 기반 인코..

    [논문리뷰/NLP/IR/NLG] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

    Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 2020 NeurIPS 발표 논문입니다 Patrick Lewis, Ethan Perez.. 저자로 Facebook AI Research; University College London; New York University 에서 작성하였습니다. Retrieval 문제와 Generation 문제를 함께 이용하여 Knowledge Intensive Task를 해결하는 모델을 제안합니다. 외부 지식 베이스에서 Input과 관련된 문서를 Retrieval하여 실제 생성 태스크를 수행하는 새로운 프레임워크를 제시하였습니다. 문맥 정보를 반영하는 고정된 임배딩 모델 pre-trained neural r..

    [논문리뷰/NLP/IR] Dense passage retrieval for Open-Domain QA

    Dense passage retrieval for Open-Domain QA 2020 EMNLP 게재 논문으로 Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih Facebook AI, University of Washington, Princeton University에서 쓴 논문입니다. Information Retrieval 정보 검색 분야 모델로 DPR, dual-encoder 모델을 활용한 dense passage retrieval 제안하였습니다. Open-domain QA task에서는 후보 context를 고르기 위한 passage retrieval 중요..

    [논문리뷰/NLP] Prototypical Representation Learning for Relation Extraction

    Prototypical Representation Learning for Relation Extraction ICLR 2021 논문으로 칭화대와 알리바바 작성 논문입니다. 논문에 대해 다루기 전에, 우선 알아야 하는 개념 몇개를 보겠습니다. Prototype 이란? 일종의 대표값입니다. 우리가 학습을 대규모의 데이터에서 학습을 해야 성능이 좋은데, 보통 이런 여건이 되는 경우는 흔치 않죠..ㅠ 그래서 적은 데이터로도, 학습한 적 없는 데이터에도 좋은 성능으로 결과를 내기 위한 메타 러닝 기법입니다! k-mean clustering 과정처럼 접근하면 됩니다. 각각 가까운 거리에 있는 점끼리 클러스터링하면 그림과 같이 다른 색깔의 클래스로 군집화가 됩니다. 그러면 그 점들끼리의 평균을 구해서 계속해서 업데이..

    [AI/추천시스템/RecSys] 추천 시스템의 성능 평가방법

    넷플릭스가 우리에게 컨텐츠를 추천해줄때, 추천을 잘 하고 있는지 어떻게 평가할 수 있을까? 평점 예측 연속된 숫자 형태의 평점을 예측하는 방법입니다. 보통 관측되지 않는 데이터에 대해서는 평가하지 않습니다. 평가 함수로 주로 RMSE나 MAE를 사용하고, 모델의 손실 함수로는 주로 MSE를 사용합니다. 순위 예측 사용자가 관심있는 아이템 k개를 예측하고, 이 중에서 얼마나 실제로 관심을 가졌는지 확인하는 것입니다. - 가능한 전체 사용자-아이템 쌍 중에서 관측된것이 얼마인지 확인 - k에 따라 값이 변하기 때문에 일반적으로 k를 같이 표시합니다. Precision@k 추천한 k개 중에서 실제로 관심이 있는 아이템 비율 Recall@k 사용자가 관심을 가진 모든 아이템들 중 추천한 아이템 비율 AP@k (..

    [AI/추천시스템/RecSys] Transformer기반 추천시스템 모델, SASRec, SSE-PT, BERT4Rec

    언어 모델은 추천 문제에 사용하기 좋습니다. Seq2Seq 모델 번역 문제, QA 문제에 적용하며 긴 문장에 대해서는 성능이 떨어집니다. Attention 모델 Attention을 통해 어떤 노드를 얼마나 참조할지 가중치를 사용합니다. 이전 RNN 노드들을 다시 이용하여 최종 출력치를 결정합니다. Transformer 모델 Attention 을 이용하여 encoding과 decoding을 진행합니다. 순서를 표시하기 위한 positional encoding을 함께 진행합니다. Encoder: self-attention 사용 Decoder: 일반 attention 사용, masked self-attention 사용(순차적 입력 고려) self-attention을 통해 단어 간 유사성을 파악할 수 있습니다...

    [AI/추천시스템/RecSys]Model-based, User-based 협업 필터링(Collaborative Filtering), 스포티파이(Spotify)의 RecSys

    협업 필터링(Collaborative Filtering) - 사용자 행동 데이터로 아이템 추천. - 유사 사용자 그룹에서 공통 관심 아이템을 추천. - 대규모 데이터 필요(데이터 적은 경우, 신규 아이템/사용자에는 어려움) - 새로운 아이템 추천 가능. • Memory Based Approach(메모리 기반 방식) - User-based Filtering : target user와 유사한 user들의 아이템 선호 기반 추천 - Item-based Filtering: target item과 유사한 item들에 대한 사용자 추천 • Model Based Approach - 사용자-아이템 평점 표현한 수학적 모델로부터 데이터 학습. - 행렬 분해(Matrix Factorization): MF, SVD, NMF..

    [AI/추천시스템/Recommender System] 순차적 추천(Sequential Recommendation)

    일반적 추천과 순차적 추천 비교 일반적 추천(Conventional Recommendation): - 과거의 사용자-아이템 피드백을 기반으로 새로운 아이템을 추천합니다. - 피드백이 발생한 시간 혹은 발생 순서를 고려하지 않습니다. ex) 1년 전 본 영화와 지난주에 본 영화가 같이 고려됩니다. 시리즈물 1, 2를 연속으로 본 행위가 고려되지 않습니다. 순차적 추천(Sequential Recommendation) - 사용자 행동을 시간 순으로 관리하는 것이 가능해졌습니다. (웹시스템의 발전) - 사용자의 과거행동에 기반하여 다음 번 아이템을 추천합니다. 순차 데이터 (Sequence Data) 시간 혹은 어떤 순서에 따라서 발생하는 데이터 시계열 데이터, 음성, 동영상, 언어 등 언어 데이터와 추천 데이..

    [AI/추천시스템/Recommender System] FM: Factorization Machine

    Rendle, “Factorization Machine”, ICDM, 2010 일반적인 예측 모델로 SVM과 유사성이 높습니다. 방법론적 특성상 MF와 같은 행렬분해 방식의 추천 알고리즘이 확장된 것입니다. Factorization Machine은 매우 sparse한 데이터를 다루고, 사용자와 아이템 정보 외의 다양한 feature들을 포함해서 활용합니다. 사전에 소개했던 MF는 사용자와 아이템 정보, rating 정보만 활용했던 것과 다릅니다. MF와 FM이 이름도 비슷해서 헷갈릴 수 있는데, FM은 Polynomial Regression(다항 회귀)에 가깝습니다. X에서 Y를 예측하는 일반적인 지도학습 모델로, NeuralCF와의 차이는 - NeuralCF는 사용자와 아이템 정보만으로 target을 ..

    [NLP/추천시스템/Recommender System] RecBole 라이브러리 소개

    https://recbole.io/data_flow.html Data Processing Pipeline | RecBole The overall data flow can be described as follows: The details are as follows: Raw Input: Unprocessed raw input dataset. Detailed in [ Dataset List ]. Atomic Files: Basic components for characterizing the input of various recommendation tasks, proposed by recbole.io “世有伯乐,然后有千里马。千里马常有,而伯乐不常有。”——韩愈《马说》 "세상에는 백락이 있고, 그 다음에는 천리마가 ..

    [NLP/검색/Information Retrieval/아파치] 아파치 솔라 Apache Solr 를 통한 검색 서버 구현 실습

    아파치 솔라는 아파치 루씬에 기반을 둔 강력하고, 고성능, 스레드 안전한 검색 서버다. 오픈 소스 엔터프라이즈 검색 서버. 솔라가 제공하는 기능: - 색인 생성, 검색을 위한 쉬운 HTTP 기반의 프로토콜이나 자바 및 PHP, Ruby 등에 대한 클라이언트(Restful API를 사용) - 성능 향상을 위한 고급 캐싱과 복제 - 패싯 브라우징 - 일치 강조(하이라이팅) - 맞춤법 검사 - 분산 검색(NoSQL 데이터베이스) - 아파치 티카를 사용한 콘텐츠 추출 https://kafka.apache.org/ Apache Kafka Apache Kafka: A Distributed Streaming Platform. kafka.apache.org 아파치 설치하기 환경: Mac M1 brew install s..

    [NLP/검색/Information Retrieval/아파치] 검색 개념 개론, 정보 검색, 패싯, 색인 생성, 사용자 입력, 순위화, 결과 표시

    검색이란 것은 인터넷에서 정보를 검색하거나, sns에서 친구를 찾거나, 텍스트 조각에서 주요 단어를 찾는 일이다. 사용자가 거대한 텍스트 덩어리를 관찰하는 데이터 주도 애플리케이션에서는 특히나 이 검색 기능이 중요하다. 오픈소스를 활용한 검색 도구는 - 유연성, 개발 비용, 가격, 콘텐츠에 대한 이해 - 등의 장점으로 품질이 굉장히 높다. 검색과 패싯: 아마존과 이베이 검색과 패싯은 아마존과 이베이와 같은 온라인 상점의 표준 검색 기능으로 자리잡았다. 만약에 사용자가 방탄소년단 굿즈를 사고 싶다고 하자. 아마존에서 'bts merchandise'를 입력하고 다음과 같은 결과를 받았다고 하자. 당연히 이렇게 일반적인 질의를 입력했기 때문에 원하는 결과가 아니다. 그래서 이제 검색 결과를 좁혀야 한다. 패싯..

    [AI/이론] 딥러닝 기반의 추천시스템 Recommender System, 행렬분해(MF), NeuralCF, GMF, MLP

    딥러닝 추천시스템 모델 기반 협업 필터링 - MF, 딥러닝 - MLP: 주로 행렬분해(Matrix Factorization) 개선 ex) NeuralCF, DeepFM, Wide&Deep Learning - AutoEncoder: 차원축소 등 딥러닝 ex) RBM-Rec, AutoRec, CDAE - RNN/CNN: Sequential Recommendation. ex) GRU4Rec, Caser, SLi-Rec - Transformer: 주로 언어모델 활용 ex) SASRec, SSE-PT, BERT4Rec 평점 예측 - 연속된 숫자 형태의 평점을 예측하고 이를 평가. ex) 0~5 - 일반적으로 관측된 테스트 데이터에 대해서만 평가. - RMSE, MAE를 주로 사용. MF: Matrix Factor..

    [AI/이론] 추천시스템 Recommender System_ 협업필터링, 사용자기반, 컨텐츠 기반, 지식 기반 추천

    추천시스템 (Recommender System): 사용자가 관심을 가질만한 콘텐츠 (상품, 영화, 이미지, 뉴스 등)을 추천하는 기계학습의 한 방법으로 사용자의 선호도 및 과거 행동을 토대로 사용자의 관심과 흥미를 가질만한 콘텐츠를 제공하는 것 ex) 사용자의 과거 행동 데이터(구매지표, 평점, 좋아요수) 등 메타데이터: 상품 정보, 사용자 그룹 등 추천시스템 활용도: 상품 추천, 컨텐츠 추천, 뉴스 추천, 개인 맞춤형 광고, 앱 추천 case 1. 상품 추천하는 경우) – 상품: 도서, 음악, 전자제품, 식료품 등 –사용자 행동: 명시적 (별점, 리뷰), 암묵적 (구매, 검색) –추천 기준: 베스트셀러, 관심그룹별 추천, 비슷한 상품 case 2. 개인 맞춤형 광고) - 사용자 행동: 암묵적(접속로그,..

    ComDensE : Combined Dense Embedding of Relation-aware and Common Features for Knowledge Graph Completion

    논문선정이유 KG 관련 국내 연구 읽기 위해. Abstract Real-world knowledge graphs (KG) are mostly incomplete. The problem of recovering missing relations, called KG completion, has recently become an active research area. Knowledge graph (KG) embedding, a low-dimensional representation of entities and relations, is the crucial technique for KG completion. Convolutional neural networks in models such as ConvE, SACN..

    Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0

    논문선정이유 멀티모달 모델 관련 국내연구를 찾기 위해서. Abstract This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at Dialog State Tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask #1, #2 and the generation of subtask #4. SIMMC 2.0 dataset is a multimodal dataset containing image and text information, which..

    [논문리뷰/NLP] ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

    ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS We call our approach ELECTRA for “Efficiently Learning an Encoder that Classifies Token Replacements Accurately.” 핵심요약 ELECTRA achieves higher accuracy on downstream tasks when fully trained. replaced token detection → pre-training GAN이랑 비슷한 구조. 하지만 generator를 maximum likelihood로 train. (기존GAN: adversarial하게 학습) 왜냐하면 te..