TIL(Today I Learned)

    [TIL] 최근의 IT AI 이슈 정리_금융LLM, 딥페이크 보호, 일론머스크 Grok1.5

    대규모 언어 모델은 '2년 안에 금융 부문에 혁명을 일으킬 수 있다'? 앨런 튜링 연구소의 연구에 따르면 대규모 언어 모델(LLM)은 사기 탐지, 금융 인사이트 생성, 고객 서비스 자동화를 통해 금융 부문의 효율성과 안전성을 향상시킬 수 있는 잠재력을 가지고 있습니다. 연구진은 문헌 조사와 함께 주요 하이스트리트 및 투자 은행, 규제 기관, 보험사, 결제 서비스 제공업체, 정부 및 법률 전문가 43명을 대상으로 워크숍을 개최했습니다. 워크숍 참가자의 대다수(52%)는 회의록 관리부터 사이버 보안 및 규정 준수 인사이트에 이르기까지 정보 지향적 업무의 성과를 높이기 위해 이미 이 모델을 사용하고 있으며, 29%는 비판적 사고력을 높이기 위해, 나머지 16%는 복잡한 업무를 세분화하는 데 이 모델을 사용하고..

    TIL 240201- GPT5, MambaByte, ICLR2024

    GPT5 unlocks LLM System2 Thinking? https://www.youtube.com/watch?v=A6VUwJ5qHlI 1. 시스템 1 및 시스템 2 사고 소개: - 동영상에서는 인간 인식의 시스템 1 (빠르고 직관적인 사고) 및 시스템 2 (느린, 더 합리적인 사고) 개념을 논의합니다. - 지구의 궤도나 장난감 가게 가격 측정 시나리오와 같은 예를 들어 개인이 복잡한 문제에 시스템 1 사고를 적용할 때 발생하는 어려움을 설명합니다. 2. 대형 언어 모델 (LLM) - GPT 모델과의 비교: - 현재의 대형 언어 모델 (LLM)인 GPT-4의 한계점을 강조하며, 이 모델이 시스템 2 사고 능력을 본질적으로 갖추지 못하고 있는 점을 설명합니다. - LLM이 단순한 쿼리와 복잡한 질문에..

    TIL 240119 - 최근 LLM 트렌드 핫이슈

    ChatGPT는 20B 크기의 모델?! Microsoft Research에서 EMNLP 2023에 제출한 논문인 "CodeFusion: A Pre-trained Diffusion Model for Code Generation"에서 ChatGPT(gpt-3.5-turbo)의 파라메터 개수가 20B로 공개되었습니다. T5 (t5-large): 770M CodeT5 (codet5-large): 770M GPT3 (text-davinci-003): 175B ChatGPT (gpt-turbo-3.5): 20B 여론이 시끄럽자 후다닥 삭제한.... "There are some errors in the paper and we need to retract it" 과연 20B가 맞을지? 정정할지..??! 물론 반대의견도..

    TIL 231207 - 구글 Deepmind, Gemini 발표하다

    https://www.youtube.com/watch?v=jV1vkHv4zq8 ???: 잼민아 이거 설명해줘~ 구글 딥마인드가 가장 크고 유능한 AI 모델인 Gemini를 발표했습니다. 간략하게 정리했습니다: 1) 특징 - 처음부터 멀티모달을 지원하도록 설계되었습니다. 텍스트, 이미지, 비디오, 오디오 및 코드 전반에 걸쳐 뛰어난 멀티모달 추론 기능을 제공합니다. 효율성/규모와 같은 다양한 시나리오를 지원하고 복잡한 기능을 지원하기 위해 Nano, Pro, Ultra 모델을 사용할 수 있습니다. 2) 성능 - 표준 벤치마크(MMLU, HumanEval, Big-Bench-Hard 등)의 결과는 GPT-4에 비해 큰 폭은 아니지만 개선된 결과를 보여줍니다. 3) 인간 전문가를 능가하는 성능 - AI 모델의..

    TIL 231124 - 잘 명령하기: 프롬프트 엔지니어링, LoRA: 비용 줄이기

    https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api Best practices for prompt engineering with OpenAI API | OpenAI Help Center How to give clear and effective instructions to GPT-3 and Codex help.openai.com OpenAI API를 활용한 프롬프트 엔지니어링 예제들 https://discuss.pytorch.kr/t/llm-the-developers-guide-to-production-grade-llm-apps/2919?utm_source=geeknews 상용 수준의..

    TIL 231123 OpenAI 세상 구경하기

    https://huggingface.co/datasets/maywell/ko_Ultrafeedback_binarized 허깅페이스 여러 모델 데이터셋들 구경 중.. maywell/ko_Ultrafeedback_binarized · Datasets at Hugging Face 대기 컨베이션은 지구의 날씨와 기후 시스템에서 중요한 과정입니다. 이는 열과 수분이 대기에서 수직으로 이동하는 중심 메커니즘으로, 구름과 강수의 형성부터 격렬한 천둥 번개와 허리케인 huggingface.co OpenAI Dev Day 요약 https://openai.com/blog/new-models-and-developer-products-announced-at-devday New models and developer produc..

    TIL 231110 - Mistral 7B, OpenAI Dev day

    Mistral 7B https://mistral.ai/news/announcing-mistral-7b/ Mistral 7B The best 7B model to date, Apache 2.0 mistral.ai 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 Mistral AI는 최초의 대규모 언어 모델을 발표했다. 7억 개의 매개변수 모델을 갖춘 Mistral AI 첫 번째 모드는 라마 2 모든 테스트에서 13B를 기록했으며 여러 지표에서 Llama 1 34B를 능가한다고 한다.. https://huggingface.co/HuggingFaceH4/zephyr-7b-beta HuggingFaceH4/zephyr-7b-beta · Hugging Face Model Card ..

    TIL - 231107 한국어 오픈소스 언어모델 LLM 탐구하기

    한국어 오픈소스 대화 모델 고려대 KULLM 구름 https://github.com/nlpai-lab/KULLM GitHub - nlpai-lab/KULLM: ☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM ☁️ 구름(KULLM): 고려대학교에서 개발한, 한국어에 특화된 LLM. Contribute to nlpai-lab/KULLM development by creating an account on GitHub. github.com KoAlpaca https://github.com/Beomi/KoAlpaca GitHub - Beomi/KoAlpaca: KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델 KoAlpaca: 한국어 명령어를 이해하는 오픈소스 언어모델. Cont..

    TIL - 231031

    CODEFUSION: A Pre-trained Diffusion Model for Code Generation Microsoft에서 ChatGPT가 20B라고 했다?! (대다나다..)ㄷㄷㄷ 코드퓨전은 대부분의 LLM 코드 생성기처럼 auto-regressive 모델이 아닌 코드 생성 diffusion model인게 흥미롭다 https://www.forbes.com/sites/forbestechcouncil/2023/02/17/is-bigger-better-why-the-chatgpt-vs-gpt-3-vs-gpt-4-battle-is-just-a-family-chat/amp/ 해당 기사를 보면, ChatGPT는 매개변수 수가 1,750억 개에서 200억개(20B) 줄어들어 GPT-3보다 빠를 뿐만 아니라 ..

    TIL - 231027

    Diffusion Model 입력 이미지에 (정규 분포를 가진) Noise를 여러 단계에 걸쳐 추가하고, 여러 단계에 걸쳐 (정규 분포를 가진) Noise를 제거함으로써, 입력 이미지와 유사한 확률 분포를 가진 결과 이미지를 생성하는 모델 SHAP(Shapley Additive exPlanations) Shapley Value란, 게임이론을 바탕으로 Game에서 각 Player의 기여분을 계산하는 방법 Shapley Value는 전체 성과(판단)을 창출하는 데 각 feature가 얼마나 공헌했는지 수치로 표현 SHAP : Shapley Value 의 Conditional Expectation (조건부 기댓값) 기계학습의 출력결과를 게임이론으로 설명하는 이론적인 접근방법... LIME(Local Inter..

    TIL - 231025

    LoRA 논문 LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 메모리를 적게 사용하면서 대규모 모델의 미세 조정을 가속화하는 기술 보다 효율적인 미세 조정을 위해 LoRA의 접근 방식은 저순위..