TIL(Today I Learned)

TIL 231110 - Mistral 7B, OpenAI Dev day

Mistral 7B

https://mistral.ai/news/announcing-mistral-7b/

 

Mistral 7B

The best 7B model to date, Apache 2.0

mistral.ai

파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 Mistral AI는 최초의 대규모 언어 모델을 발표했다.

 

7억 개의 매개변수 모델을 갖춘 Mistral AI 첫 번째 모드는 라마 2 모든 테스트에서 13B를 기록했으며 여러 지표에서 Llama 1 34B를 능가한다고 한다..

 

 

https://huggingface.co/HuggingFaceH4/zephyr-7b-beta

 

HuggingFaceH4/zephyr-7b-beta · Hugging Face

Model Card for Zephyr 7B β Zephyr is a series of language models that are trained to act as helpful assistants. Zephyr-7B-β is the second model in the series, and is a fine-tuned version of mistralai/Mistral-7B-v0.1 that was trained on on a mix of public

huggingface.co

 

Mistral을 finetune 시킨 좋은 모델 예시 (허깅페이스)

 

아직 한국어 연구는 ko-leaderboard에 보이지 않는다. mistral model이 아직 한국어 튜닝은 안된 듯 하다. 

llm-leaderboard와 다르게 ko-learderboard에는 7b, 70b 모델이 별로 없는 이유..

 

LLM의 hallucination 문제 detecting하는 방법 연구들

https://arxiv.org/abs/2309.03883

 

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

Despite their impressive capabilities, large language models (LLMs) are prone to hallucinations, i.e., generating content that deviates from facts seen during pretraining. We propose a simple decoding strategy for reducing hallucinations with pretrained LL

arxiv.org

https://arxiv.org/pdf/2306.03341

LLaMA-7B를 사용한 연구가 많다. 크기가 가장 합리적이라 그런 듯하다.

 

OpenAI Dev day

https://www.youtube.com/watch?v=U9mJuUkhUzk

 

 

나온다... 엄청난거 나온다.............ㅎㅎ

 

OpenAI 에서 첫 개발자 컨퍼런스가 3일전 열렸다. 

 

키노트 요약은 천천히 시간내서 해야겠다