인공지능 AI/자연어처리

[NLP/LLM] LLM 용어 정리

LLM 최신 트렌드가 매일 쏟아져나와 따라잡기 벅차다..

최근 논문들을 계속 읽으면서 반복적으로 나오는 용어들을 정리해서 머릿속에 넣어줄 필요성을 느꼈다.

 

 

jailbreak

모델 편향을 악용하여 의도한 목적에 부합하지 않을 수 있는 결과를 생성하기 위해 프롬프트를 신중하게 설계하는 것

 

 

instruction-tuning

구글의 FLAN(Finetuned Language Models are Zero-Shot Learners) 논문에서 처음 나온 개념

텍스트로 구성된 데이터 세트에 대해 LLM을 지도학습 방식으로 추가 학습시키는 과정

즉, LLM 모델을 Instruction 데이터셋을 통해 fine-tuning을 진행하고 이를 통해 zero-shot 성능을 높이는 방법

 

 

Domain Adaption

대상 시스템에서 획득한 인공지능 학습용 데이터가 부족할 때, 대상 시스템(타겟 도메인)과는 약간 다르지만 비교적 유사한 시스템(소스 도메인)에서 획득한 데이터를 활용

 

 

RLHF(reinforcement learning from human preferences)

인간의 선호도를 기반으로 한 강화 학습(reinforcement learning from human preferences)을 포함하는 것으로, 기계 학습에서 인간의 피드백으로부터 직접 '보상 모델'을 학습시키고, 해당 모델을 보상 함수로 사용하여 근거리 정책 최적화(Proximal Policy Optimization)와 같은 최적화 알고리즘을 통해 강화 학습(RL)을 사용하여 에이전트의 정책을 최적화하는 기술