TIL(Today I Learned)

TIL 231207 - 구글 Deepmind, Gemini 발표하다

https://www.youtube.com/watch?v=jV1vkHv4zq8

 


???: 잼민아 이거 설명해줘~ 

 

 

 

 

구글 딥마인드가 가장 크고 유능한 AI 모델인 Gemini를 발표했습니다.

간략하게 정리했습니다:

1) 특징 - 처음부터 멀티모달을 지원하도록 설계되었습니다. 텍스트, 이미지, 비디오, 오디오 및 코드 전반에 걸쳐 뛰어난 멀티모달 추론 기능을 제공합니다. 효율성/규모와 같은 다양한 시나리오를 지원하고 복잡한 기능을 지원하기 위해 Nano, Pro, Ultra 모델을 사용할 수 있습니다.

2) 성능 - 표준 벤치마크(MMLU, HumanEval, Big-Bench-Hard 등)의 결과는 GPT-4에 비해 큰 폭은 아니지만 개선된 결과를 보여줍니다. 

3) 인간 전문가를 능가하는 성능 - AI 모델의 지식과 문제 해결 능력을 테스트하는 데 널리 사용되는 벤치마크인 MMLU(대규모 다중 작업 언어 이해)에서 인간 전문가를 능가한 최초의 모델이라고 주장합니다.

 

4) 역량 - Gemini는 인포그래픽 이해 및 시각적 맥락에서의 수학적 추론과 같은 여러 가지 복합 작업에서 SOTA 성능을 능가합니다. 문서를 분석하고 식별하기 어려운 지식을 발견하는 능력과 함께 복합적 추론 능력에 많은 초점이 맞춰져 있었습니다. 보고된 모델 능력은 다중 양식, 다국어, 사실성, 요약, 수학/과학, 긴 문맥, 추론 등입니다. 아마도 가장 뛰어난 기능을 갖춘 모델 중 하나일 것입니다.

5) 사용해보기 - 미세 조정된 Gemini Pro를 Bard를 통해 사용할 수 있다고 합니다. 빨리 사용해보고 싶네요.

6) 가용성 - 12월 13일부터 구글 AI 스튜디오와 구글 클라우드 버텍스 AI에서 개발자가 모델을 사용할 수 있게 됩니다.

 

블로그:

https://t.co/qct2ODnRpR

 

Gemini - Google DeepMind

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

deepmind.google

 

기술 리포트:

https://t.co/IK01vYcxHW