전체 글
[Bayesian Deep Learning] 베이지안 딥러닝, Bayesian deep neural network
[용어 정리] Variational Inference (변분 추론): 변분 추론은 확률 분포를 근사화하기 위한 효율적인 방법입니다. 주어진 데이터와 모델의 파라미터 사이의 관계를 활용하여 모델의 파라미터를 추정하고, 이를 통해 원하는 확률 분포를 근사합니다. 변분 추론은 빅데이터 및 복잡한 모델을 다룰 때 특히 유용합니다. 예를 들어, 가우시안 혼합 모델을 고려해 봅시다. 우리는 관측 데이터 ( X = {x_1, x_2, ..., x_N} ) 가 있고, 이 데이터가 가우시안 혼합 모델 ( p(x|\theta) ) 에 따라 생성되었다고 가정합니다. 이 때, 우리의 목적은 데이터를 가장 잘 설명하는 모델 파라미터인 ( \theta ) 를 찾는 것입니다. Log Marginal Likelihood (로그 주변..
[TIL] 최근의 IT AI 이슈 정리_금융LLM, 딥페이크 보호, 일론머스크 Grok1.5
대규모 언어 모델은 '2년 안에 금융 부문에 혁명을 일으킬 수 있다'? 앨런 튜링 연구소의 연구에 따르면 대규모 언어 모델(LLM)은 사기 탐지, 금융 인사이트 생성, 고객 서비스 자동화를 통해 금융 부문의 효율성과 안전성을 향상시킬 수 있는 잠재력을 가지고 있습니다. 연구진은 문헌 조사와 함께 주요 하이스트리트 및 투자 은행, 규제 기관, 보험사, 결제 서비스 제공업체, 정부 및 법률 전문가 43명을 대상으로 워크숍을 개최했습니다. 워크숍 참가자의 대다수(52%)는 회의록 관리부터 사이버 보안 및 규정 준수 인사이트에 이르기까지 정보 지향적 업무의 성과를 높이기 위해 이미 이 모델을 사용하고 있으며, 29%는 비판적 사고력을 높이기 위해, 나머지 16%는 복잡한 업무를 세분화하는 데 이 모델을 사용하고..
TIL 240201- GPT5, MambaByte, ICLR2024
GPT5 unlocks LLM System2 Thinking? https://www.youtube.com/watch?v=A6VUwJ5qHlI 1. 시스템 1 및 시스템 2 사고 소개: - 동영상에서는 인간 인식의 시스템 1 (빠르고 직관적인 사고) 및 시스템 2 (느린, 더 합리적인 사고) 개념을 논의합니다. - 지구의 궤도나 장난감 가게 가격 측정 시나리오와 같은 예를 들어 개인이 복잡한 문제에 시스템 1 사고를 적용할 때 발생하는 어려움을 설명합니다. 2. 대형 언어 모델 (LLM) - GPT 모델과의 비교: - 현재의 대형 언어 모델 (LLM)인 GPT-4의 한계점을 강조하며, 이 모델이 시스템 2 사고 능력을 본질적으로 갖추지 못하고 있는 점을 설명합니다. - LLM이 단순한 쿼리와 복잡한 질문에..
[NLP/LLM] LLM 용어 정리
LLM 최신 트렌드가 매일 쏟아져나와 따라잡기 벅차다.. 최근 논문들을 계속 읽으면서 반복적으로 나오는 용어들을 정리해서 머릿속에 넣어줄 필요성을 느꼈다. jailbreak 모델 편향을 악용하여 의도한 목적에 부합하지 않을 수 있는 결과를 생성하기 위해 프롬프트를 신중하게 설계하는 것 instruction-tuning 구글의 FLAN(Finetuned Language Models are Zero-Shot Learners) 논문에서 처음 나온 개념 텍스트로 구성된 데이터 세트에 대해 LLM을 지도학습 방식으로 추가 학습시키는 과정 즉, LLM 모델을 Instruction 데이터셋을 통해 fine-tuning을 진행하고 이를 통해 zero-shot 성능을 높이는 방법 Domain Adaption 대상 시스템..
TIL 240119 - 최근 LLM 트렌드 핫이슈
ChatGPT는 20B 크기의 모델?! Microsoft Research에서 EMNLP 2023에 제출한 논문인 "CodeFusion: A Pre-trained Diffusion Model for Code Generation"에서 ChatGPT(gpt-3.5-turbo)의 파라메터 개수가 20B로 공개되었습니다. T5 (t5-large): 770M CodeT5 (codet5-large): 770M GPT3 (text-davinci-003): 175B ChatGPT (gpt-turbo-3.5): 20B 여론이 시끄럽자 후다닥 삭제한.... "There are some errors in the paper and we need to retract it" 과연 20B가 맞을지? 정정할지..??! 물론 반대의견도..
TIL 231207 - 구글 Deepmind, Gemini 발표하다
https://www.youtube.com/watch?v=jV1vkHv4zq8 ???: 잼민아 이거 설명해줘~ 구글 딥마인드가 가장 크고 유능한 AI 모델인 Gemini를 발표했습니다. 간략하게 정리했습니다: 1) 특징 - 처음부터 멀티모달을 지원하도록 설계되었습니다. 텍스트, 이미지, 비디오, 오디오 및 코드 전반에 걸쳐 뛰어난 멀티모달 추론 기능을 제공합니다. 효율성/규모와 같은 다양한 시나리오를 지원하고 복잡한 기능을 지원하기 위해 Nano, Pro, Ultra 모델을 사용할 수 있습니다. 2) 성능 - 표준 벤치마크(MMLU, HumanEval, Big-Bench-Hard 등)의 결과는 GPT-4에 비해 큰 폭은 아니지만 개선된 결과를 보여줍니다. 3) 인간 전문가를 능가하는 성능 - AI 모델의..
[NLP] Adversarial Attacks on LLMs (LLMs 대한 적대적공격)
Adversarial Attacks on LLMs https://lilianweng.github.io/posts/2023-10-25-adv-attack-llm/ Adversarial Attacks on LLMs The use of large language models in the real world has strongly accelerated by the launch of ChatGPT. We (including my team at OpenAI, shoutout to them) have invested a lot of effort to build default safe behavior into the model during the alignment proces lilianweng.github.io LL..
TIL 231124 - 잘 명령하기: 프롬프트 엔지니어링, LoRA: 비용 줄이기
https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api Best practices for prompt engineering with OpenAI API | OpenAI Help Center How to give clear and effective instructions to GPT-3 and Codex help.openai.com OpenAI API를 활용한 프롬프트 엔지니어링 예제들 https://discuss.pytorch.kr/t/llm-the-developers-guide-to-production-grade-llm-apps/2919?utm_source=geeknews 상용 수준의..
TIL 231123 OpenAI 세상 구경하기
https://huggingface.co/datasets/maywell/ko_Ultrafeedback_binarized 허깅페이스 여러 모델 데이터셋들 구경 중.. maywell/ko_Ultrafeedback_binarized · Datasets at Hugging Face 대기 컨베이션은 지구의 날씨와 기후 시스템에서 중요한 과정입니다. 이는 열과 수분이 대기에서 수직으로 이동하는 중심 메커니즘으로, 구름과 강수의 형성부터 격렬한 천둥 번개와 허리케인 huggingface.co OpenAI Dev Day 요약 https://openai.com/blog/new-models-and-developer-products-announced-at-devday New models and developer produc..
TIL 231110 - Mistral 7B, OpenAI Dev day
Mistral 7B https://mistral.ai/news/announcing-mistral-7b/ Mistral 7B The best 7B model to date, Apache 2.0 mistral.ai 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 Mistral AI는 최초의 대규모 언어 모델을 발표했다. 7억 개의 매개변수 모델을 갖춘 Mistral AI 첫 번째 모드는 라마 2 모든 테스트에서 13B를 기록했으며 여러 지표에서 Llama 1 34B를 능가한다고 한다.. https://huggingface.co/HuggingFaceH4/zephyr-7b-beta HuggingFaceH4/zephyr-7b-beta · Hugging Face Model Card ..
TIL - 231107 한국어 오픈소스 언어모델 LLM 탐구하기
한국어 오픈소스 대화 모델 고려대 KULLM 구름 https://github.com/nlpai-lab/KULLM GitHub - nlpai-lab/KULLM: ☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM ☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM. Contribute to nlpai-lab/KULLM development by creating an account on GitHub. github.com KoAlpaca https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델 KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델. Cont..
TIL - 231031
CODEFUSION: A Pre-trained Diffusion Model for Code Generation Microsoft에서 ChatGPT가 20B라고 했다?! (대다나다..)ㄷㄷㄷ 코드퓨전은 대부분의 LLM 코드 생성기처럼 auto-regressive 모델이 아닌 코드 생성 diffusion model인게 흥미롭다 https://www.forbes.com/sites/forbestechcouncil/2023/02/17/is-bigger-better-why-the-chatgpt-vs-gpt-3-vs-gpt-4-battle-is-just-a-family-chat/amp/ 해당 기사를 보면, ChatGPT는 매개변수 수가 1,750억 개에서 200억개(20B) 줄어들어 GPT-3보다 빠를 뿐만 아니라 ..
TIL - 231027
Diffusion Model 입력 이미지에 (정규 분포를 가진) Noise를 여러 단계에 걸쳐 추가하고, 여러 단계에 걸쳐 (정규 분포를 가진) Noise를 제거함으로써, 입력 이미지와 유사한 확률 분포를 가진 결과 이미지를 생성하는 모델 SHAP(Shapley Additive exPlanations) Shapley Value란, 게임이론을 바탕으로 Game에서 각 Player의 기여분을 계산하는 방법 Shapley Value는 전체 성과(판단)을 창출하는 데 각 feature가 얼마나 공헌했는지 수치로 표현 SHAP : Shapley Value 의 Conditional Expectation (조건부 기댓값) 기계학습의 출력결과를 게임이론으로 설명하는 이론적인 접근방법... LIME(Local Inter..
TIL - 231025
LoRA 논문 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 메모리를 적게 사용하면서 대규모 모델의 미세 조정을 가속화하는 기술 보다 효율적인 미세 조정을 위해 LoRA의 접근 방식은 저순위..
[NLP/RE] RCL: Relation Contrastive Learning for Zero-Shot Relation Extraction
NAACL 2022에 기재된 논문입니다. Zero-Shot Relation Extraction에 대한 새로운 접근 방식을 제안하는 논문입니다. Introduction 저자는 Zero-Shot Relation Extraction이 두 엔티티 간 관계의 복잡한 의미론을 포착하지 못한다는 한계점을 지적합니다. 따라서 저자는 이 한계를 극복하기 위한 새로운 프레임워크, RCL(Relation Contrastive Learning for Zero-Shot Relation Extraction)을 소개합니다. 현재의 접근법이 pre-defined relations or supervised data에 의존하기 때문에 적용 가능성이 제한된다고 주장합니다. 저자는 contrastive learning을 활용하여 엔티티 쌍..
[NLP/RSNs/RE] Neural Snowball for Few-Shot Relation Learning
AAAI 2020 https://arxiv.org/pdf/1908.11007.pdf Introduction 저자는 few-shot relation learning의 문제를 소개하고 이 작업에 대한 기존 방법의 한계에 대해 논의합니다. 그래서 해결책으로 신경 스노우볼 모델을 제안하고 main contributions를 개략적으로 설명합니다. Related Work few-shot learning, relation extraction, and entity linking에 관련연구들,, 저자는 Neural Snowball model을 기존 접근 방식과 비교하고 그 장점을 강조합니다. 해당 논문은 RSNs(Relational Siamese Networks)를 채택해서 사용합니다. Method BERT 기반 인코..
[논문리뷰/NLP/IR/NLG] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 2020 NeurIPS 발표 논문입니다 Patrick Lewis, Ethan Perez.. 저자로 Facebook AI Research; University College London; New York University 에서 작성하였습니다. Retrieval 문제와 Generation 문제를 함께 이용하여 Knowledge Intensive Task를 해결하는 모델을 제안합니다. 외부 지식 베이스에서 Input과 관련된 문서를 Retrieval하여 실제 생성 태스크를 수행하는 새로운 프레임워크를 제시하였습니다. 문맥 정보를 반영하는 고정된 임배딩 모델 pre-trained neural r..
[논문리뷰/NLP/IR] Dense passage retrieval for Open-Domain QA
Dense passage retrieval for Open-Domain QA 2020 EMNLP 게재 논문으로 Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih Facebook AI, University of Washington, Princeton University에서 쓴 논문입니다. Information Retrieval 정보 검색 분야 모델로 DPR, dual-encoder 모델을 활용한 dense passage retrieval 제안하였습니다. Open-domain QA task에서는 후보 context를 고르기 위한 passage retrieval 중요..
[논문리뷰/NLP] Prototypical Representation Learning for Relation Extraction
Prototypical Representation Learning for Relation Extraction ICLR 2021 논문으로 칭화대와 알리바바 작성 논문입니다. 논문에 대해 다루기 전에, 우선 알아야 하는 개념 몇개를 보겠습니다. Prototype 이란? 일종의 대표값입니다. 우리가 학습을 대규모의 데이터에서 학습을 해야 성능이 좋은데, 보통 이런 여건이 되는 경우는 흔치 않죠..ㅠ 그래서 적은 데이터로도, 학습한 적 없는 데이터에도 좋은 성능으로 결과를 내기 위한 메타 러닝 기법입니다! k-mean clustering 과정처럼 접근하면 됩니다. 각각 가까운 거리에 있는 점끼리 클러스터링하면 그림과 같이 다른 색깔의 클래스로 군집화가 됩니다. 그러면 그 점들끼리의 평균을 구해서 계속해서 업데이..
[AI/추천시스템/RecSys] 추천 시스템의 성능 평가방법
넷플릭스가 우리에게 컨텐츠를 추천해줄때, 추천을 잘 하고 있는지 어떻게 평가할 수 있을까? 평점 예측 연속된 숫자 형태의 평점을 예측하는 방법입니다. 보통 관측되지 않는 데이터에 대해서는 평가하지 않습니다. 평가 함수로 주로 RMSE나 MAE를 사용하고, 모델의 손실 함수로는 주로 MSE를 사용합니다. 순위 예측 사용자가 관심있는 아이템 k개를 예측하고, 이 중에서 얼마나 실제로 관심을 가졌는지 확인하는 것입니다. - 가능한 전체 사용자-아이템 쌍 중에서 관측된것이 얼마인지 확인 - k에 따라 값이 변하기 때문에 일반적으로 k를 같이 표시합니다. Precision@k 추천한 k개 중에서 실제로 관심이 있는 아이템 비율 Recall@k 사용자가 관심을 가진 모든 아이템들 중 추천한 아이템 비율 AP@k (..