단순한 유행일까, 판도를 바꿀 혁신일까? | 심층 분석

MMaximilian Schwarzmüller
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00몇 시간 전에 상당히 큰 발표가 있었습니다. 아니면 엄청난 언론 플레이일 수도 있겠네요.
00:00:06아직은 알 수 없고, 무의미한 언론 플레이일 가능성도 확실히 배제할 수는 없습니다.
00:00:13하지만 만약 사실이라면 정말 대단한 발표입니다. 저도 몰랐고 여러분도 아마 몰랐을
00:00:20알렉산더 웨딘(Alexander Wedin)이 LLM 지능의 주요 돌파구인 'sub-q'를 발표했기 때문입니다.
00:00:28sub-q는 'sub-quadratic(준이차)'의 약자로, 그가 여기서 발표한 것은
00:00:36롱컨텍스트 작업에 탁월하면서도 지능을 잃지 않는—적어도 본인 주장으로는—
00:00:45완전히 새로운 유형의 대형 언어 모델입니다. 모델이 토큰을 생성하며 지능을 갖추게 되는데,
00:00:52Opus 4.7, GPT 5.5 등 현재 최전선 모델에서 기대하는 수준의 지능을 잃지 않는다는 것이죠.
00:00:59그가 X(구 트위터)의 발표 게시물에서 언급한 내용과,
00:01:04더 자세한 기술 정보가 담긴 발표 블로그 포스트가 있으니 함께 살펴보겠습니다.
00:01:08이번 영상에서 깊이 있게 다뤄볼 예정인데요, 그가 여기서 발표한 모델은
00:01:16100만 토큰의 컨텍스트 작업에서 추론 속도가 훨씬 빠르고 비용도 대폭 절감된다고 합니다.
00:01:26Opus 비용의 5% 수준에 불과하죠. 또한 초기 모델이 1,200만 토큰의 컨텍스트 창을
00:01:35제공할 것이라 약속했는데, 이 수치가 어느 정도인지 감을 잡기 위해 말씀드리면
00:01:42거대한 코드베이스 전체를 컨텍스트 창에 다 넣을 수 있는 수준입니다. 대규모 법률 문서 여러 건도
00:01:49한 번에 넣을 수 있죠. 그래서 이런 모델이 실제로 존재하고 제대로 작동한다면
00:01:57엄청나게 유용하고 완전히 게임체인저가 될 것입니다. 다른 말로는 표현할 수 없겠네요.
00:02:02제대로 작동만 한다면 말이죠. 아직 세부 정보가 많지는 않아서 다시 설명해 드리겠지만,
00:02:08만약 작동한다면 현재 우리가 임시방편으로 사용하는 서브 에이전트나 RAG 같은 기술들,
00:02:15즉 모델이 처리해야 할 정보의 극히 일부만 볼 수 있어서 써야 했던 우회책들이 필요 없어집니다.
00:02:22코드베이스 작업을 할 때, 기존 최전선 모델들은 코드베이스의 크기에 따라 전체를 다 보지 못합니다.
00:02:28코드베이스 전체를 불러올 수 없기 때문이죠. 그래서 수정을 요청할 때,
00:02:33모델이 코드베이스에서 올바른 부분을 스스로 찾아내서 수정해 주기를 바라야만 합니다.
00:02:40작업하려는 문서의 양이나 코드베이스가 커질수록 이 문제는 점점 더 심각해집니다.
00:02:45따라서 1,200만 토큰의 컨텍스트 창을 우수한 품질로 안정적으로 사용할 수 있는 모델이 있다면
00:02:52그 자체로 엄청난 게임체인저가 될 것입니다.
00:02:59게임체인저 이야기가 나온 김에, 이번 영상과 제 모든 강좌에서 이 내용을 깊이 다룰 예정입니다.
00:03:06그러니 Claude Code, Codex, 기타 AI 작업이나 코딩, 혹은 이들의 조합을
00:03:13실무에서 어떻게 활용하는지 배우고 싶으시다면 제 강좌들을 살펴보시는 것도 좋습니다. 실용적이고
00:03:19직접 따라 해볼 수 있으며 깊이 있는 내용을 다룹니다. 개별 강좌를 수강하시거나
00:03:24월간 또는 연간 구독으로 모든 강좌를 이용하실 수도 있습니다. 링크는 아래에 있습니다.
00:03:31그럼 이제 좀 더 깊이 들어가 보겠습니다. 말씀드렸듯이 기술적 세부 사항이 포함된
00:03:36발표 블로그 포스트가 있지만, 솔직히 말씀드리면 정보가 아주 많지는 않습니다. 누락된 정보가 많고
00:03:43벤치마크 결과도 그리 많지 않습니다. 구체적으로는 딱 세 가지만 공개했는데요.
00:03:49단순한 '바늘 찾기(needle lookup)'를 넘어 정보 검색 및 추론 능력을 테스트하는 RULER 벤치마크가 있습니다.
00:03:56여기에는 다중 홉(multi-hop) 검색, 정보 종합, 변수 추적, 선택적 필터링 등이 포함됩니다.
00:04:01즉, 이 벤치마크는 모델이 비교적 큰 컨텍스트 창에서
00:04:06관련된 여러 정보 조각들을 얼마나 잘 찾아내느냐를 테스트하는 것입니다. 128,000 토큰 기준이라
00:04:15그들이 약속한 1,200만 토큰에 비하면 그리 크지 않지만, 그렇다고 5,000 토큰 수준으로 아주 작지도 않습니다.
00:04:22따라서 어느 정도 규모가 있는 컨텍스트 창이나 문서 집합에서 모델이 서로 다른 정보 조각들을
00:04:28얼마나 잘 찾아내고 조합하는지 테스트하는 것인데, 여기서 이들의 모델은
00:04:36Opus 4.6과 동등한 수준을 보여주었습니다. 또한 그 포스트에서는 또 다른 벤치마크인
00:04:45MRCRv2 벤치마크도 언급했습니다. 이 역시 롱컨텍스트 검색 작업을 테스트하는 것이며,
00:04:53그들의 설명에 따르면 Opus 4.6 범위에 있다고 합니다. 다만 다른 결과를 보면 확실히 성능이 더 떨어지긴 합니다.
00:05:00그들의 핵심 강점이 롱컨텍스트 검색이라는 점을 고려하면 참 흥미로운 대목입니다.
00:05:07하지만 한편으로는 극단적인 롱컨텍스트 창이 필요한 사용 사례에서
00:05:15다른 모델들은 전혀 사용할 수 없는 반면, 이들의 모델은 매우 훌륭한 결과를 내어주어
00:05:22아무것도 없는 것보다는 훨씬 나을 수 있다고 주장할 수도 있습니다. 그리고 당연히 이 모델들도
00:05:29시간이 흐르면서 계속 개선될 수 있습니다. 그러니 초기 모델에 대해 너무 나쁜 징조로 받아들일 필요는 없고
00:05:35그냥 참고할 만한 사실입니다. 또한 표에서 Gemini 3.1 Pro나 Opus 4.7보다
00:05:43성능이 훨씬 뛰어나다는 점도 주목할 만합니다. 그리고 그들이 공개한 벤치마크 중 흥미로웠던 것은
00:05:49코딩 관련 작업에 대한 것이었습니다. 물론 저는 이런 벤치마크들을
00:05:56그리 신뢰하지는 않습니다. 우리 모두 알다시피 벤치마크는 일종의 꼼수가 가능하고,
00:06:05의도적이든 의도치 않든 모델이 특정 벤치마크에서 점수가 잘 나오도록 미세조정되거나
00:06:12최적화될 수 있기 때문입니다. 과거에도 그런 사례가 많았죠.
00:06:20하지만 그럼에도 참고할 만한 지표는 됩니다. 이 소프트웨어 엔지니어링 벤치마크가
00:06:27흥미로운 이유는, 여기서 이들의 모델이 대략 Opus 모델들의
00:06:36범주에 들어오기 때문입니다. 이는 단순히 롱컨텍스트 창, 즉 수많은 문서나
00:06:42대규모 코드베이스에서 정보를 찾는 것뿐만 아니라, 그것을 유용하게 활용할 수도 있음을 보여줍니다.
00:06:50자체의 지능과 롱컨텍스트 창에서 검색한 데이터를 바탕으로 의미 있고 훌륭한 코드를
00:06:54생성해 낼 수 있다는 것이죠. 단순히 검색만 하는 게 아니라 유용한 작업을 수행할 수 있고,
00:07:00성능도 꽤 좋은 것 같습니다. 하지만 언급했듯이 그게 전부입니다. 더 깊이 있는 분석이나
00:07:09기술적 세부 사항은 아직 없습니다. 모델 카드도 공개되지 않았죠.
00:07:16따라서 우리가 가진 정보라고는 본질적으로 이 모델이 '밀집 어텐션(dense attention)' 대신
00:07:22'희소 어텐션(sparse attention)'을 사용하여 롱컨텍스트 작업을 수행하고
00:07:29롱컨텍스트 시나리오에서 효율적으로 작동하며 속도와 비용 효율성을 달성한다는 설명뿐입니다.
00:07:37더 빠르고 더 저렴하다고 발표했으니까요. 그렇다면 무슨 일이 일어나고 있는지 이해하기 위해
00:07:45밀집 어텐션과 희소 어텐션의 차이를 살펴보겠습니다. 우선 밀집 어텐션은
00:07:52현재의 최전선 모델들이 사용하는 방식입니다. GPT 5.5, Opus 4.7을 비롯한
00:07:58다른 모든 모델들이 밀집 모델에 해당합니다. 이는 기본적으로 토큰 D라는 새로운 토큰을
00:08:08생성하기 위해, 다른 모든 이전 토큰들을 평가하고
00:08:13그 토큰들 간의 연결 관계를 전부 계산해야 함을 의미합니다. 대형 언어 모델의 핵심 아이디어는
00:08:20이전 토큰들을 기반으로 다음에 올 토큰(단어 전체 또는 일부)을 유추하는 것이기 때문입니다.
00:08:28예를 들어 "계약은 언제든지...에 의해 해지될 수 있다"라는 문장이 있다면
00:08:35그 뒤에 올 다음 단어를 예측하고 싶을 것입니다. 사용자가 모델에게 "계약은 언제 해지할 수 있어?"라고 묻고
00:08:42계약서 내용을 PDF 문서나 일반 텍스트 형태로 프롬프트에 함께 입력했을 수 있습니다.
00:08:48그러면 모델이 결과물로 생성하고 있는 이 문장 앞의 프롬프트에는
00:08:57사용자의 질문과 함께 계약서 같은 추가 컨텍스트가 들어있게 됩니다.
00:09:03그리고 이 토큰을 생성하기 위해, 그리고 그 앞에 나왔던 각각의 토큰을
00:09:10생성하기 위해, 모델은 기본적으로 전체 대화와 그 안의 모든 토큰을 살펴보았습니다.
00:09:16여기에는 질문과 사용자가 입력한 추가 컨텍스트가 모두 포함됩니다.
00:09:23모델은 이를 여러 토큰으로 쪼갠 뒤, 이전 토큰들의 모든 조합을 바탕으로
00:09:30최종 가중치를 계산하거나 조합합니다. 예를 들어, 설명을 돕기 위해 의도적으로 아주 짧게 만든
00:09:38예시 대화가 있다면, GPT-5 모델 등에서는 이것이 다음과 같이 토큰으로 쪼개졌을 것입니다.
00:09:46어떤 토큰은 단어 하나이거나 앞에 공백이 포함된 단어이고, 어떤 토큰은 그냥 특수문자입니다.
00:09:51그리고 다음 토큰을 생성하기 위해, 결국 이전의 모든 토큰들이
00:09:58서로 조합되어 의미를 파악하게 됩니다. 당연히 물음표(?) 뒤에 올 다음 토큰의 의미와 영향은
00:10:05그 물음표 앞에 무엇이 왔느냐에 따라 완전히 달라지기 때문입니다.
00:10:11따라서 물음표는 이전의 모든 토큰과 결합됩니다. 그리고 마지막 토큰을 유추하기 위해
00:10:17이러한 조합들의 모든 연산 결과가 최종적으로 사용됩니다. 이것이 아주 거시적인 관점에서 본
00:10:22밀집 어텐션의 개념과 작동 방식입니다. 당연히 이 방식은
00:10:29매우 비효율적이지만, 출력의 지능과 품질 면에서는 현재 우리가 가진 최선의 방법입니다.
00:10:36하지만 이는 n x n으로 계산되기 때문에 '이차(quadratic)' 복잡도를 가집니다.
00:10:44새로운 토큰을 유추하기 위해 이전의 모든 토큰을 결합해야 하기 때문이죠. 물론
00:10:49과거에 계산된 가중치 결과를 캐싱해 두는 KV 캐싱 같은 최적화 메커니즘도 있습니다.
00:10:56덕분에 새로운 토큰을 처리할 때 이전의 모든 조합을 매번 처음부터
00:11:01다시 계산할 필요는 없지만, 여전히 이전의 모든 캐싱된 가중치와 비교하면서
00:11:08새로운 토큰을 계산해야 합니다. 따라서 여전히 이 '이차 복잡도' 상황에서 벗어나지 못합니다.
00:11:16이 때문에 현재의 최전선 모델들은 연산 속도가 느리고 컴퓨팅 자원을 많이 소모합니다.
00:11:24특히 더 큰 컨텍스트 창 영역으로 들어갈 때 더욱 그렇고, 컨텍스트 창 크기에
00:11:31엄격한 제한이 있는 것도 이 때문입니다. 이차 복잡도를 가지므로, 1,200만 토큰의
00:11:38컨텍스트 창 크기는 사실상 계산이 불가능합니다. 시간이 영원히 걸릴 수도 있고,
00:11:46컴퓨팅 시간뿐만 아니라 확보해야 하는 메모리 용량도 또 다른 큰 문제입니다. 요약하자면 이것이 밀집 모델의 작동 방식과 한계입니다.
00:11:54이제 어제 발표된 새로운 sub-q 모델이 사용하는 반대되는 방식,
00:12:00즉 대안적인 접근법인 희소 어텐션에 대해 알아보겠습니다.
00:12:06희소 어텐션은 어떻게 작동할까요? 핵심 아이디어는 새로운 토큰을 계산할 때
00:12:14이전의 모든 토큰을 살펴보거나 모든 조합을 고려하지 않고,
00:12:20선택된 몇 개의 토큰만 확인하는 것입니다. 예를 들어 토큰 D를 구하고자 할 때,
00:12:28A는 건너뛰고 B와 C만 살펴보는 식입니다. 물론 여기서 가장 중요한 질문은
00:12:33이전 토큰 중 어떤 것을 살펴볼지, 즉 새로운 토큰을 생성하는 데
00:12:40어떤 이전 토큰이 유용한지 어떻게 결정하느냐입니다. 과거에도 다양한 접근법이 사용되었습니다.
00:12:46이 새로운 모델이 최초의 희소 어텐션 모델은 아니기 때문입니다. 하지만 그동안 이 방식이
00:12:52크게 흥행하지 못한 이유는 심각한 한계점들이 있었기 때문입니다. 예를 들어,
00:12:59한 가지 방법은 '로컬 윈도우(local window)' 접근법을 사용하는 것입니다. 이게 무슨 뜻이냐 하면,
00:13:06새로운 토큰, 예컨대 시퀀스의 다섯 번째 토큰을 생성할 때
00:13:13바로 앞에 있는 토큰 두 개(예: 3번과 4번 토큰)만 살펴보는 방식입니다. 즉, 토큰을 따라 미끄러지듯 이동하는 슬라이딩 윈도우를 두고
00:13:22생성하려는 토큰의 바로 직전에 위치한 토큰들만 살펴보는 것이죠.
00:13:27짐작하시겠지만 이 방식은 심각한 한계가 있습니다. 마지막 몇 개의 토큰만 살펴본다면,
00:13:33예컨대 계약 해지 시점이 언제인지 묻는 질문에 대해
00:13:39관련 정보가 프롬프트에 넣은 추가 컨텍스트에 들어있더라도, 그 정보가 로컬 윈도우 범위를 벗어나면
00:13:45모델은 인지할 수 없게 됩니다. 따라서 예측하려는 다음 토큰은
00:13:50이전 컨텍스트에 무엇이 있었는지 전혀 모르게 됩니다. 그래서 무용지물이죠. 이 방식으로
00:13:55컨텍스트 창 크기를 무제한으로 늘릴 수는 있지만, 정작 그 컨텍스트 내용들은 전혀 반영되지 않습니다. 명백한 한계점이죠.
00:14:01또 다른 접근법은 이른바 '글로벌 토큰(global token)' 방식입니다. 여기서는
00:14:09글로벌 요약 토큰을 둔다는 개념입니다. 거시적으로 생각해보면, 토큰 시퀀스의 시작 부분에
00:14:16모델이 특별한 토큰을 삽입하고, 이 토큰이
00:14:20뒤따르는 토큰들을 요약해 주는 방식으로 이해하시면 됩니다.
00:14:27그리고 다음 토큰을 예측할 때 이 글로벌 토큰을 고려합니다. 계약서 텍스트를
00:14:34프롬프트로 입력했던 앞선 예시를 다시 생각해보면, 이 방식이 아주 잘 작동할 수도 있습니다.
00:14:40대화 내용에 대해 생성된 요약본에 계약 해지 조건 등이
00:14:46포함되어 있다면, 당연히 다음 토큰을 그 요약을 바탕으로 아주 잘 예측할 수 있을 것입니다.
00:14:53하지만 운이 나빠서 요약본에 그러한 세부 내용이 누락되어 있다면
00:15:00정보가 완전히 유실된 상태로 되돌아가게 되는 셈입니다.
00:15:04따라서 글로벌 토큰 방식도 작동은 하지만, 컨텍스트 창이 길어질수록
00:15:12요약 내용도 점점 더 무리하게 압축되어 일반적인 이야기만 남게 됩니다. 쉽게 상상하실 수 있을 겁니다.
00:15:16100페이지짜리 PDF 문서가 있을 때 이를 단 한두 문장으로 요약해야 한다면
00:15:22핵심 세부 사항이 다 빠지겠죠? 그러니 그 요약을 바탕으로 다음 토큰을 정확히 예측하기란 어렵습니다.
00:15:29또 다른 접근법은 '라우터(router)'를 사용하는 것입니다. 일종의 별도 신경망을
00:15:37추가하는 것이죠. 즉, 대형 언어 모델과 함께 작동하는 별도의
00:15:43라우팅 모델을 두는 것입니다. 이 라우팅 모델이 사용자의 프롬프트나
00:15:51생성될 다음 토큰의 컨텍스트를 살펴보고, 해당 토큰을
00:15:59관련이 있다고 판단되는 다른 토큰들로 라우팅해 줍니다. 하지만 이는 결국
00:16:04그 뒤에 오는 다른 모든 토큰을 추적해야 하는 라우팅 모델이 필요함을 의미하므로,
00:16:10다시 이차 복잡도 영역으로 회귀하거나, 연산이 흐릿해져서 라우터 성능에 크게 의존하게 됩니다.
00:16:17즉, 밀집 모델에 비해 이차 복잡도 측면에서 이득을 크게 보지 못하거나,
00:16:23그렇지 않으면 라우터 성능이 떨어져 정보 손실을 겪게 됩니다. 요약 방식과 마찬가지로
00:16:30라우터가 제 역할을 해내어 다음 토큰 예측에 꼭 필요한 올바른 토큰들을
00:16:37활성화해 주기를 바라야만 하는 것이죠. 이것이 바로 희소 어텐션이 흥미로우면서도
00:16:46지금껏 크게 도약하지 못한 이유입니다. 각각의 방식마다 뚜렷한 트레이드오프가 존재하며,
00:16:54제가 알기로는 아직까지 현재 최전선의 밀집 모델들과
00:17:00동등한 수준의 품질을 내면서도 거대한 컨텍스트 창에서 작동하는 희소 어텐션 모델은 없었습니다.
00:17:07그런데 이들이 이번 새로운 모델을 통해 이를 바꾸겠다고 약속한 것입니다. 발표 블로그 포스트를 보면
00:17:14그들의 모델은 '콘텐츠 의존적 선택(content-dependent selection)'을 수행한다고 언급되어 있습니다.
00:17:22매 쿼리마다 모델이 시퀀스에서 주목할 가치가 있는 부분을 선택하여 정확히 그 위치들에 대해서만 어텐션을 계산합니다.
00:17:28결국 라우팅 접근법으로 회귀한 셈이지만, 그들이 여기서 주장하고
00:17:35언급하는 바에 따르면 그들의 매커니즘은 다음 토큰 예측을 위해
00:17:43올바른 토큰들을 활성화하는 데 매우 효율적이라고 합니다. 밀집 어텐션은 모든 토큰 쌍이
00:17:49중요할 수 있다고 가정하여 모든 조합을 평가하지만, 실제로는 거의 대부분이 중요하지 않습니다.
00:17:55이들의 접근 방식인 SSA(sub-quadratic selective attention, 준이차 선택적 어텐션)는
00:18:01그러한 가정을 배제합니다. 어텐션을 근사화하는 것이 아니라, 실제로 유의미한 신호를 가진
00:18:08위치로만 어텐션을 제한하고 나머지는 건너뜁니다. 이것이 그들의 방식입니다.
00:18:14콘텐츠 의존적 라우팅을 수행하여 다음 토큰 예측에 올바른 토큰들을 활성화하고
00:18:21사용함으로써 효율성을 극대화하는 것이죠. 다만 이것이 실제로 얼마나 잘 작동할지는
00:18:30두고 봐야 합니다. 앞서 말씀드렸듯이 공개된 벤치마크 데이터가 매우 제한적이고,
00:18:36다른 벤치마크나 모델 카드가 전혀 없으며, 콘텐츠 의존적 선택이 정확히 어떻게 작동하는지에 대한
00:18:42세부 정보도 없기 때문에 아직은 의문점이 가득합니다.
00:18:49그리고 지난 몇 달, 혹은 몇 년 동안 우리가 확실히 배운 것이 하나 있다면
00:18:57AI는 분명 유용한 도구이며 저 역시 매일 사용하고 있고,
00:19:04여러분도 매일 사용하실 것이며, Codex나 Claude Code 같은 도구들이 매우 유용하다는 점입니다.
00:19:10그 점에 대해서는 의심의 여지가 없고 제 경험상으로도 그렇지만, 동시에 우리는 이 업계에
00:19:16엄청난 거품과 마케팅(hype)이 존재한다는 것도 배웠습니다. 지금은 과도기입니다. 많은 것이 변하고 있고
00:19:26곳곳에서 수많은 약속이 쏟아져 나오지만, 모든 약속이 실제로
00:19:35유용한 무언가로 실현되거나 구체화되는 것은 아닙니다. 예를 들어 Meta가 만든
00:19:42밀집 모델들을 보면, Llama 4 모델들은 벤치마크 점수는 대단했지만
00:19:49실제 성능은 그만큼 훌륭하지는 않았습니다. 이처럼 과장된 사례들이 많고,
00:19:56이것은 단지 하나의 예시일 뿐 다른 많은 사례들이 존재합니다.
00:20:05분명 조심스럽게 지켜볼 필요가 있습니다. 하지만 만약 이 모델들이 출시되고(현재 사전 신청을
00:20:13받고 있어서 저도 신청했지만 아직 권한을 얻지는 못했습니다), 이 모델들이 정말
00:20:19본인들의 약속대로 거대한 컨텍스트 창에서도 똑똑하고 유용하게 작동한다면
00:20:25당연히 많은 것이 바뀔 것입니다. 전 세계적으로 컴퓨팅 자원이
00:20:33턱없이 부족한 상황인데, 이러한 컴퓨팅 제약을 해결하는 데 큰 도움이 될 것입니다.
00:20:40데이터 센터, 칩, 전력 등 모든 것이 더 필요한 상황에서 훨씬 더 효율적인 모델이 나온다면
00:20:45돌파구가 될 수 있죠. 물론 효율이 좋아진 만큼 사용량이 더 늘어나서 부족 문제는 여전할지 모르지만
00:20:52그래도 활용 범위를 더 넓혀줄 것입니다. 그리고 당연히 완전히 새로운 사용 사례들이 열릴 것입니다.
00:21:00코드베이스 전체를 통째로 집어넣고 작업을 수행하는 것이 가능해집니다. 그러면 우리가
00:21:07지금 사용하고 있는 임시 우회책인 서브 에이전트나 RAG 시스템 등은 더 이상 필요 없게 될 것입니다.

Key Takeaway

준이차 선택적 어텐션(SSA) 방식을 사용하는 sub-q 모델은 기존 밀집 모델의 5% 비용으로 1,200만 토큰의 컨텍스트를 처리하여 AI 연산의 효율성과 범위를 획기적으로 개선할 잠재력을 지닙니다.

Highlights

  • 알렉산더 웨딘(Alexander Wedin)이 발표한 'sub-q' 모델은 기존 밀집 어텐션의 이차 복잡도를 해결하여 1,200만 토큰의 컨텍스트 창을 지원한다고 주장합니다.

  • sub-q 모델은 기존 Opus 모델 대비 5% 수준의 비용으로 롱컨텍스트 작업을 수행할 수 있습니다.

  • 이 모델은 콘텐츠 의존적 선택(content-dependent selection) 기술을 사용하여 필요한 토큰만 계산하는 희소 어텐션 방식을 채택했습니다.

  • RULER 벤치마크 결과, sub-q 모델은 Opus 4.6과 동등한 수준의 롱컨텍스트 검색 및 추론 능력을 보여주었습니다.

  • 이 기술이 실현될 경우, 코드베이스 전체를 컨텍스트 창에 직접 입력할 수 있어 현재의 RAG나 서브 에이전트 같은 우회책이 불필요해집니다.

Timeline

sub-q 모델 발표와 잠재적 변화

  • 알렉산더 웨딘이 준이차(sub-quadratic) 모델인 'sub-q'를 공개했습니다.
  • 해당 모델은 1,200만 토큰의 컨텍스트 창을 제공하며 Opus 비용의 5% 수준으로 운영됩니다.
  • 성공적으로 구현될 경우 RAG나 서브 에이전트 같은 기술적 우회책을 대체할 게임체인저가 될 것입니다.

기존 대형 언어 모델들은 컨텍스트 창의 크기와 연산 비용 면에서 명확한 한계를 지니고 있습니다. sub-q 모델은 전체 코드베이스나 대규모 법률 문서를 한 번에 입력할 수 있는 1,200만 토큰의 처리 능력을 약속합니다. 이는 모델이 필요한 정보를 스스로 찾기 위해 임시방편으로 사용하던 RAG 등 보조 기술의 필요성을 제거할 수 있는 혁신적인 시도입니다.

벤치마크 데이터와 성능 평가

  • RULER 및 MRCRv2 벤치마크에서 Opus 4.6과 동등한 성능을 기록했습니다.
  • 소프트웨어 엔지니어링 작업에서도 기존 최전선 모델군과 유사한 수준의 코드를 생성합니다.
  • 현재 구체적인 모델 카드나 상세 기술 사양은 공개되지 않은 상태입니다.

공개된 데이터는 제한적이지만, 다중 홉 검색 및 정보 종합 능력을 측정하는 RULER 벤치마크에서 유의미한 수치를 보였습니다. 단순히 컨텍스트 내에서 정보를 찾는 것을 넘어, 추출된 데이터를 바탕으로 의미 있는 코드를 생성하는 능력까지 갖추었습니다. 다만 벤치마크 최적화 가능성을 배제할 수 없으므로 신중한 접근이 필요합니다.

밀집 어텐션 대 희소 어텐션

  • 밀집 어텐션은 모든 토큰 간 관계를 계산하는 이차 복잡도를 가져 리소스 소모가 큽니다.
  • 희소 어텐션은 필요한 토큰만 선택적으로 계산하여 비효율성을 극복하려 합니다.
  • sub-q 모델은 SSA 기술을 통해 콘텐츠 의존적 라우팅을 수행하여 지능 손실을 최소화합니다.

기존 모델은 매 토큰 생성 시 이전의 모든 토큰 쌍을 평가해야 하는 이차 복잡도 문제로 인해 리소스가 제한됩니다. 희소 어텐션은 로컬 윈도우, 글로벌 토큰, 라우터 방식을 시도해 왔으나 정보 유실이나 성능 저하라는 트레이드오프가 존재했습니다. sub-q는 콘텐츠 의존적 선택을 통해 유의미한 위치에만 어텐션을 집중시키는 SSA 방식으로 이 한계를 넘어서려 합니다.

향후 전망과 주의점

  • AI 업계 내의 마케팅 과장 가능성을 경계해야 합니다.
  • 컴퓨팅 자원이 부족한 현 상황에서 효율적인 모델은 구조적 돌파구가 될 수 있습니다.
  • 실제 서비스 적용 시 기존의 우회적 도구들은 빠르게 도태될 가능성이 높습니다.

과거 많은 모델이 벤치마크 점수와 실제 성능의 괴리를 보여준 바 있기에, 이번 발표 역시 검증이 필요합니다. 만약 약속된 성능이 실현된다면 전 세계적인 컴퓨팅 자원 부족 문제를 완화하고, 더 복잡한 대규모 데이터 작업을 단순화할 수 있는 강력한 토대가 마련될 것입니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video