TIL(Today I Learned)

TIL 240201- GPT5, MambaByte, ICLR2024

GPT5 unlocks LLM System2 Thinking?

https://www.youtube.com/watch?v=A6VUwJ5qHlI

 

1. 시스템 1 및 시스템 2 사고 소개:
   - 동영상에서는 인간 인식의 시스템 1 (빠르고 직관적인 사고) 및 시스템 2 (느린, 더 합리적인 사고) 개념을 논의합니다.
   - 지구의 궤도나 장난감 가게 가격 측정 시나리오와 같은 예를 들어 개인이 복잡한 문제에 시스템 1 사고를 적용할 때 발생하는 어려움을 설명합니다.

2. 대형 언어 모델 (LLM) - GPT 모델과의 비교:
   - 현재의 대형 언어 모델 (LLM)인 GPT-4의 한계점을 강조하며, 이 모델이 시스템 2 사고 능력을 본질적으로 갖추지 못하고 있는 점을 설명합니다.
   - LLM이 단순한 쿼리와 복잡한 질문에 모두 유사하게 응답하며 복잡한 문제를 작은 단계로 분해하여 계획적으로 분석할 능력이 부족하다는 점을 논합니다.

3. GPT-5 개발 목표:
   - GPT-5의 개발 초점은 빌 게이츠와의 인터뷰에서 언급된 대로 추론 능력과 신뢰성을 향상시키는 데 있습니다. 이는 모델이 복잡한 문제를 처리하고 일관되게 더 정확한 응답을 제공하는 것을 목표로 합니다.

4. 프롬프트 엔지니어링 전략:
   - LLM에 시스템 2 수준 사고를 강제하기 위한 두 가지 일반적인 프롬프트 엔지니어링 전략을 논의합니다:
     - "Chain of S" 방법은 응답 생성 전에 문제를 작은 단계로 분해하는 문장을 삽입하는 것입니다.
     - "Tree of Sorts" 방법은 더 발전된 접근 방식으로 모델이 문제를 해결하기 위해 여러 가지 분기 및 옵션을 탐색하며 그 탐색을 추적합니다.

5. 커뮤니케이티브 에이전트로서의 해결책:
   - LLM에서 시스템 2 사고를 강제하기 위한 솔루션으로 커뮤니케이티브 에이전트를 소개합니다.
   - 문제 해결자와 리뷰어를 설정하여 협력적인 문제 해결을 가능하게 하는 방법을 설명하며 리뷰어는 문제 해결자의 결과물에 피드백을 제공합니다.
   - AutoGen Studio와 같은 프레임워크를 사용하여 커뮤니케이티브 에이전트를 구현하는 데의 유연성과 쉬움을 강조합니다.

이 문서는 현재 사고 모델의 어려움, GPT-5의 개발 목표, 시스템 2 사고를 강화하기 위한 전략, 그리고 커뮤니케이티브 에이전트가 문제 해결 능력을 향상시키는 데의 잠재적인 역할에 대한 내용을 개요로 하고 있습니다.

 

MambaByte: Token free Selective State Space Model

 

요새 핫한 mambabyte..

ㅋㅋㅋㅋㅋㅋㅋㅋ mamba밈.. 작명도 어려운 일이다..

 

https://www.youtube.com/watch?v=3aZyFyrnyC4

 

 

1. MambaByte 소개:
   - MambaByte는 언어 처리를 위한 토큰 없는 선택적 상태 공간 모델이다.
   - 언어 모델은 일반적으로 토큰화에 의존하며, 그 중에서도 하위 단어 토큰화가 널리 사용되지만, 철자 오류나 대소문자 변이와 같은 제한이 있다.
   - MambaByte는 중간 토큰화를 제거하고 다양한 철자에 적응하지만, 잠재적으로 더 긴 시퀀스를 가져올 수 있다.
   - Mamba 아키텍처 중 특히 MambaByte는 패칭을 제거하고 계산 사용을 향상시켜 효율성을 향상시킨 변형으로 제안된다.

2. 기존 모델과의 비교:
   - MambaByte는 긴 형식의 텍스트 데이터셋에서 하위 단어 모델, 바이트 레벨 트랜스포머 및 메가바이트 트랜스포머와 비교된다.
   - MambaByte는 바이트 레벨 트랜스포머를 능가하여 더 나은 계산 효율성을 보여주며, 더 긴 시퀀스를 처리한다.
   - 하위 단어 모델과 비교하여 경쟁력 있는 성능을 보이며, 기존의 토크나이저 종속적 모델에 대한 강력한 대안으로 제시된다.

3. Mamba 아키텍처 및 선택 메커니즘:
   - Mamba는 시퀀스 모델링을 위한 선형 시간 접근을 채택한 Mamba 아키텍처의 수정본이다.
   - Mamba에는 텍스트와 같은 이산 데이터에 효과적인 선택 메커니즘이 도입되었다.
   - 선택 메커니즘은 언어 모델링에서 계산 병목 현상을 완화하는 데 도움이 되며, 패칭이 필요 없고 사용 가능한 계산 예산을 효과적으로 활용한다.

4. 선형 반복과 병렬 스캔:
   - Mamba는 선형 상태 공간 모델에서 순차적 반복을 효율적으로 계산하기 위해 작업 효율적인 병렬 스캔을 사용한다.
   - 선형 반복은 튜플의 시퀀스로 변환되고, 연관 연산자를 사용하여 병렬 스캔이 적용된다.
   - 대각 행렬과 함께 사용되는 병렬 스캔은 \(n \log_2 L\)에 비례하는 시간이 걸리며, \(NL\)에 비례하는 공간이 필요하다.

5. 텍스트 생성 효율성:
   - MambaByte의 텍스트 생성 과정은 각 레이어마다 단일 진화 중인 숨겨진 상태를 유지하며 각 단계에서 일정한 생성 시간을 허용한다.
   - 매우 낮은 생성 비용을 위해 패칭을 사용하는 메가바이트와 비교할 때, 동일한 매개변수 수를 갖는 경우 MambaByte는 2.6배 빠르다.
   - 이 효율성은 MambaByte의 순환 생성 방법에서 비롯되며 속도와 매개변수 활용 면에서 이점을 제공한다.

 

 

 

ICLR 2024 Spotlight

https://openreview.net/group?id=ICLR.cc/2024/Conference#tab-accept-spotlight

 

ICLR 2024 Conference

Welcome to the OpenReview homepage for ICLR 2024 Conference

openreview.net

 

슬슬 훑어봐야지

논문들이 매일 너무 많이 쏟아져나온다 흙,,