4월 1째 주 - 주요논문안내

2024.04.09

https://kgaf.org/resources/2220 Views 50 Comment 0

1. 다발성 탈옥 / Many-shot Jailbreaking

LLM의 안전장치를 회피하기 위해 다발성 탈옥이라는 탈옥 기법을 제안합니다. 이 탈옥 기법은 많은 최신 LLM이 지원하는 긴 컨텍스트 창을 악용하고, 최종 질문 앞에 매우 많은 수의 가짜 대화(~256개)를 포함하여 모델을 효과적으로 조종하여 유해한 반응을 생성하도록 합니다.

대규모 언어 모델에 대한 간단한 긴 컨텍스트 공격, 즉 수백 가지의 바람직하지 않은 동작을 보여주는 프롬프트를 조사합니다. 이는 최근 Anthropic, OpenAI, Google DeepMind에서 배포한 더 큰 컨텍스트 창을 통해 새롭게 실현 가능합니다. 다양하고 현실적인 상황에서 이 공격의 효과는 최대 수백 회에 이르는 파워 법칙을 따르는 것으로 나타났습니다. 가장 널리 사용되는 최신 폐쇄형 모델과 다양한 작업에서 이 공격의 성공을 입증했습니다. 연구 결과에 따르면 매우 긴 컨텍스트에서는 LLM에 대한 새로운 공격 표면이 풍부하게 존재합니다.

링크: https://www.anthropic.com/research/many-shot-jailbreaking?utm_source

2. MoD(Mixture-of-Depths): 트랜스포머 기반 언어 모델에서 컴퓨팅을 동적으로 할당하기 / Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

트랜스포머 모델이 시퀀스의 특정 위치에 FLOP을 효율적이고 동적으로 할당하는 방법을 학습할 수 있음을 보여줌으로써 모델 깊이 전반에 걸쳐 다양한 레이어에 대해 시퀀스를 따라 할당을 최적화하고, 주어진 FLOP 예산 모델에 대해 기준 모델보다 더 빠르고 우수한 성능을 발휘하도록 학습할 수 있다는 사실을 보여줍니다.

트랜스포머 기반 언어 모델은 입력 시퀀스 전체에 FLOP을 균일하게 분산시킵니다. 이 작업에서는 트랜스포머가 대신 시퀀스의 특정 위치에 FLOP을 동적으로 할당(또는 계산)하는 방법을 학습하여 모델 심층에 걸쳐 다양한 계층에 대해 시퀀스를 따라 할당을 최적화할 수 있음을 보여줍니다. 이 방법은 주어진 레이어에서 자체 주의 및 MLP 계산에 참여할 수 있는 토큰 수(k)를 제한하여 총 컴퓨팅 예산을 강제합니다. 처리할 토큰은 네트워크에서 상위 k 라우팅 메커니즘을 사용하여 결정합니다. k 는 선험적으로 정의되기 때문에 이 간단한 절차는 다른 조건부 계산 기법과 달리 텐서 크기가 알려진 정적 계산 그래프를 사용합니다. 그럼에도 불구하고 k 토큰의 신원이 유동적이기 때문에 이 방법은 시간 및 모델 깊이 차원에 걸쳐 FLOP을 비균일하게 소비할 수 있습니다. 따라서 컴퓨팅 소비는 총 합계에서는 완전히 예측 가능하지만 토큰 수준에서는 동적이며 상황에 따라 달라집니다. 이러한 방식으로 훈련된 모델은 컴퓨팅을 동적으로 할당하는 방법을 학습할 뿐만 아니라 효율적으로 할당합니다. 이러한 모델은 훈련에 필요한 동등한 FLOPS 및 월 클럭 시간에 대해 기준 성능과 일치하지만, 포워드 패스당 FLOPS의 일부만 필요하며, 훈련 후 샘플링 중에 50% 이상 더 빠르게 스텝을 밟을 수 있습니다.

링크: https://arxiv.org/abs/2404.02258?utm_source

List

Go comment

Write a comment

Write with WYSIWYG Close

Search

Notices

4월 1째 주 - 주요논문안내

1. 다발성 탈옥 / Many-shot Jailbreaking

2. MoD(Mixture-of-Depths): 트랜스포머 기반 언어 모델에서 컴퓨팅을 동적으로 할당하기 / Mixture-of-Depths: Dynamically allocating compute in transformer-based language models