Microsoft, 새로운 Phi-3.5 모델 출시, Google, OpenAI 등을 능가

2024.08.26

조회 수 66 댓글 0

Phi-3.5-mini-instruct는 3.82억 개의 매개변수를 가진 경량 AI 모델로, 기본적이고 빠른 추론 작업에 적합합니다.

38억 개의 매개변수를 가진 이 경량 모델은 128,000 토큰의 컨텍스트 길이를 지원하며, 메모리나 컴퓨팅 자원이 제한된 환경에서 강력한 추론 능력을 발휘합니다.

코드 생성, 수학 문제 해결, 논리 기반 추론 등의 작업에 특히 유용합니다.

여러 벤치마크에서 최첨단에 근접한 성능을 자랑하며, "긴 컨텍스트 코드 이해"를 측정하는 RepoQA 벤치마크에서 다른 유사한 크기의 모델들(Llama-3.1-8B-instruct 및 Mistral-7B-instruct)을 능가합니다.

Phi-3.5-MoE-instruct는 41.9억 개의 매개변수를 가진 모델로, 더 강력한 추론 능력을 제공합니다.

이 모델은 '전문가 혼합' 아키텍처를 사용하여 여러 다른 모델 유형을 하나로 결합했습니다.

420억 개의 활성 매개변수를 가지고 있지만, 실제로는 66억 개의 활성 매개변수만으로 작동합니다.

이 모델 역시 128,000 토큰의 컨텍스트 길이를 지원하며, 코드, 수학, 다국어 언어 이해 등 다양한 추론 작업에서 뛰어난 성능을 보입니다.

또한 STEM, 인문학, 사회 과학 등 다양한 수준의 전문성을 요구하는 주제에 걸쳐 5-shot MMLU(대규모 다중 작업 언어 이해)에서 GPT-4o mini를 인상적으로 능가합니다.

Phi-3.5-vision-instruct는 4.15억 개의 매개변수를 가진 모델로, 이미지와 비디오 분석 작업에 특화되어 있습니다. 이 멀티모달 모델은 텍스트와 이미지 처리 기능을 통합하여 일반적인 이미지 이해, 광학 문자 인식, 차트 및 표 이해, 비디오 요약 등의 작업을 수행할 수 있습니다. 다른 두 모델과 마찬가지로 128,000 토큰의 컨텍스트 길이를 지원합니다.

이 세 모델은 모두 Hugging Face 플랫폼을 통해 개발자들에게 공개되었으며, Microsoft 브랜드의 MIT 라이선스 하에 제공됩니다.

이 라이선스는 상업적 사용과 수정을 제한 없이 허용하고 있습니다.

모델들은 여러 제3자 벤치마크 테스트에서 최고 수준의 성능을 보여주었으며, 일부 경우에는 Google의 Gemini 1.5 Flash, Meta의 Llama 3.1, 심지어 OpenAI의 GPT-4o까지도 능가했습니다.

댓글로 가기

댓글 쓰기

Search

Notices

Microsoft, 새로운 Phi-3.5 모델 출시, Google, OpenAI 등을 능가