Skip to menu

Notices

Views 68 Comment 0

AMD가 첫 번째 소형 언어 모델(Small Language Model, SLM)을 출시했습니다. 이름은 AMD-135M으로, 빠른 추론 속도를 자랑하는 "추측 디코딩(Speculative Decoding)" 기술을 탑재했습니다. 이는 대형 언어 모델(Large Language Model, LLM)의 한계를 보완하며, 특정 용도에 최적화된 성능을 제공합니다.

 

AMD-135M의 주요 특징

  • 두 가지 모델
    • 일반 데이터를 학습한 AMD-Llama-135M과 추가로 코드 데이터를 학습한 AMD-Llama-135M-code.
    • AMD-Llama-135M 모델은 일반 데이터를 사용하여 6일 동안 6700억 개의 토큰으로 훈련됨
    • AMD-Llama-135M-code 모델은 추가로 200억 개의 코드 데이터 토큰으로 4일 동안 미세 조정됨
  • 훈련과정
    • MI250 가속기를 사용해 6700억 개의 데이터를 학습했으며, 코드 모델은 200억 개의 추가 데이터를 학습하여 최적화되었습니다.
  • "추측 디코딩" 기술을 통해 기존보다 훨씬 빠르게 결과를 생성할 수 있으며, 메모리 효율도 크게 개선되었습니다.
  • 이 모델의 훈련 코드, 데이터셋 및 가중치는 오픈 소스로 제공

 

Speculative Decoding 으로 추론 성능 최적화

  • 대형 언어 모델은 일반적으로 자회귀 접근 방식을 사용하여 추론함
  • 이 접근 방식의 주요 한계는 각 전진 패스에서 단일 토큰만 생성할 수 있다는 점임
  • 추측 디코딩의 도입으로 이 문제를 해결함
  • 작은 초안 모델을 사용하여 후보 토큰 세트를 생성하고, 이를 더 큰 목표 모델이 검증함
  • 이 접근 방식은 각 전진 패스에서 여러 토큰을 생성할 수 있게 하여 메모리 접근 소비를 크게 줄이고 속도를 크게 향상시킴

성능 테스트 (추론 성능 가속)

AMD-Llama-135M-code 모델을 사용한 결과, 데이터센터용 MI250 가속기와 AI PC용 Ryzen AI 프로세서에서 추론 속도가 비약적으로 증가했습니다.

이 성능 개선 덕분에, 소형 모델(SLM)과 대형 모델(LLM) 모두 효율적인 AI 워크플로우를 제공합니다.

  • AMD-Llama-135M-code를 CodeLlama-7b의 초안 모델로 사용하여 추론 성능을 테스트 
  • MI250 가속기와 Ryzen™ AI 프로세서(NPU 포함)에서 추측 디코딩을 사용한 경우와 사용하지 않은 경우를 비교함
  • 특정 구성에서 추측 디코딩을 사용한 경우 속도 향상을 확인함

 

출처 : https://community.amd.com/t5/ai/amd-unveils-its-first-small-language-model-amd-135m/ba-p/711368

© k2s0o2d0e0s1i0g1n. ALL RIGHTS RESERVED.