단순한 유행일까, 판도를 바꿀 혁신일까? | 심층 분석

한국어العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 Português Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00몇 시간 전에 상당히 큰 발표가 있었습니다. 아니면 엄청난 언론 플레이일 수도 있겠네요.

00:00:06아직은 알 수 없고, 무의미한 언론 플레이일 가능성도 확실히 배제할 수는 없습니다.

00:00:13하지만 만약 사실이라면 정말 대단한 발표입니다. 저도 몰랐고 여러분도 아마 몰랐을

00:00:20알렉산더 웨딘(Alexander Wedin)이 LLM 지능의 주요 돌파구인 'sub-q'를 발표했기 때문입니다.

00:00:28sub-q는 'sub-quadratic(준이차)'의 약자로, 그가 여기서 발표한 것은

00:00:36롱컨텍스트 작업에 탁월하면서도 지능을 잃지 않는—적어도 본인 주장으로는—

00:00:45완전히 새로운 유형의 대형 언어 모델입니다. 모델이 토큰을 생성하며 지능을 갖추게 되는데,

00:00:52Opus 4.7, GPT 5.5 등 현재 최전선 모델에서 기대하는 수준의 지능을 잃지 않는다는 것이죠.

00:00:59그가 X(구 트위터)의 발표 게시물에서 언급한 내용과,

00:01:04더 자세한 기술 정보가 담긴 발표 블로그 포스트가 있으니 함께 살펴보겠습니다.

00:01:08이번 영상에서 깊이 있게 다뤄볼 예정인데요, 그가 여기서 발표한 모델은

00:01:16100만 토큰의 컨텍스트 작업에서 추론 속도가 훨씬 빠르고 비용도 대폭 절감된다고 합니다.

00:01:26Opus 비용의 5% 수준에 불과하죠. 또한 초기 모델이 1,200만 토큰의 컨텍스트 창을

00:01:35제공할 것이라 약속했는데, 이 수치가 어느 정도인지 감을 잡기 위해 말씀드리면

00:01:42거대한 코드베이스 전체를 컨텍스트 창에 다 넣을 수 있는 수준입니다. 대규모 법률 문서 여러 건도

00:01:49한 번에 넣을 수 있죠. 그래서 이런 모델이 실제로 존재하고 제대로 작동한다면

00:01:57엄청나게 유용하고 완전히 게임체인저가 될 것입니다. 다른 말로는 표현할 수 없겠네요.

00:02:02제대로 작동만 한다면 말이죠. 아직 세부 정보가 많지는 않아서 다시 설명해 드리겠지만,

00:02:08만약 작동한다면 현재 우리가 임시방편으로 사용하는 서브 에이전트나 RAG 같은 기술들,

00:02:15즉 모델이 처리해야 할 정보의 극히 일부만 볼 수 있어서 써야 했던 우회책들이 필요 없어집니다.

00:02:22코드베이스 작업을 할 때, 기존 최전선 모델들은 코드베이스의 크기에 따라 전체를 다 보지 못합니다.

00:02:28코드베이스 전체를 불러올 수 없기 때문이죠. 그래서 수정을 요청할 때,

00:02:33모델이 코드베이스에서 올바른 부분을 스스로 찾아내서 수정해 주기를 바라야만 합니다.

00:02:40작업하려는 문서의 양이나 코드베이스가 커질수록 이 문제는 점점 더 심각해집니다.

00:02:45따라서 1,200만 토큰의 컨텍스트 창을 우수한 품질로 안정적으로 사용할 수 있는 모델이 있다면

00:02:52그 자체로 엄청난 게임체인저가 될 것입니다.

00:02:59게임체인저 이야기가 나온 김에, 이번 영상과 제 모든 강좌에서 이 내용을 깊이 다룰 예정입니다.

00:03:06그러니 Claude Code, Codex, 기타 AI 작업이나 코딩, 혹은 이들의 조합을

00:03:13실무에서 어떻게 활용하는지 배우고 싶으시다면 제 강좌들을 살펴보시는 것도 좋습니다. 실용적이고

00:03:19직접 따라 해볼 수 있으며 깊이 있는 내용을 다룹니다. 개별 강좌를 수강하시거나

00:03:24월간 또는 연간 구독으로 모든 강좌를 이용하실 수도 있습니다. 링크는 아래에 있습니다.

00:03:31그럼 이제 좀 더 깊이 들어가 보겠습니다. 말씀드렸듯이 기술적 세부 사항이 포함된

00:03:36발표 블로그 포스트가 있지만, 솔직히 말씀드리면 정보가 아주 많지는 않습니다. 누락된 정보가 많고

00:03:43벤치마크 결과도 그리 많지 않습니다. 구체적으로는 딱 세 가지만 공개했는데요.

00:03:49단순한 '바늘 찾기(needle lookup)'를 넘어 정보 검색 및 추론 능력을 테스트하는 RULER 벤치마크가 있습니다.

00:03:56여기에는 다중 홉(multi-hop) 검색, 정보 종합, 변수 추적, 선택적 필터링 등이 포함됩니다.

00:04:01즉, 이 벤치마크는 모델이 비교적 큰 컨텍스트 창에서

00:04:06관련된 여러 정보 조각들을 얼마나 잘 찾아내느냐를 테스트하는 것입니다. 128,000 토큰 기준이라

00:04:15그들이 약속한 1,200만 토큰에 비하면 그리 크지 않지만, 그렇다고 5,000 토큰 수준으로 아주 작지도 않습니다.

00:04:22따라서 어느 정도 규모가 있는 컨텍스트 창이나 문서 집합에서 모델이 서로 다른 정보 조각들을

00:04:28얼마나 잘 찾아내고 조합하는지 테스트하는 것인데, 여기서 이들의 모델은

00:04:36Opus 4.6과 동등한 수준을 보여주었습니다. 또한 그 포스트에서는 또 다른 벤치마크인

00:04:45MRCRv2 벤치마크도 언급했습니다. 이 역시 롱컨텍스트 검색 작업을 테스트하는 것이며,

00:04:53그들의 설명에 따르면 Opus 4.6 범위에 있다고 합니다. 다만 다른 결과를 보면 확실히 성능이 더 떨어지긴 합니다.

00:05:00그들의 핵심 강점이 롱컨텍스트 검색이라는 점을 고려하면 참 흥미로운 대목입니다.

00:05:07하지만 한편으로는 극단적인 롱컨텍스트 창이 필요한 사용 사례에서

00:05:15다른 모델들은 전혀 사용할 수 없는 반면, 이들의 모델은 매우 훌륭한 결과를 내어주어

00:05:22아무것도 없는 것보다는 훨씬 나을 수 있다고 주장할 수도 있습니다. 그리고 당연히 이 모델들도

00:05:29시간이 흐르면서 계속 개선될 수 있습니다. 그러니 초기 모델에 대해 너무 나쁜 징조로 받아들일 필요는 없고

00:05:35그냥 참고할 만한 사실입니다. 또한 표에서 Gemini 3.1 Pro나 Opus 4.7보다

00:05:43성능이 훨씬 뛰어나다는 점도 주목할 만합니다. 그리고 그들이 공개한 벤치마크 중 흥미로웠던 것은

00:05:49코딩 관련 작업에 대한 것이었습니다. 물론 저는 이런 벤치마크들을

00:05:56그리 신뢰하지는 않습니다. 우리 모두 알다시피 벤치마크는 일종의 꼼수가 가능하고,

00:06:05의도적이든 의도치 않든 모델이 특정 벤치마크에서 점수가 잘 나오도록 미세조정되거나

00:06:12최적화될 수 있기 때문입니다. 과거에도 그런 사례가 많았죠.

00:06:20하지만 그럼에도 참고할 만한 지표는 됩니다. 이 소프트웨어 엔지니어링 벤치마크가

00:06:27흥미로운 이유는, 여기서 이들의 모델이 대략 Opus 모델들의

00:06:36범주에 들어오기 때문입니다. 이는 단순히 롱컨텍스트 창, 즉 수많은 문서나

00:06:42대규모 코드베이스에서 정보를 찾는 것뿐만 아니라, 그것을 유용하게 활용할 수도 있음을 보여줍니다.

00:06:50자체의 지능과 롱컨텍스트 창에서 검색한 데이터를 바탕으로 의미 있고 훌륭한 코드를

00:06:54생성해 낼 수 있다는 것이죠. 단순히 검색만 하는 게 아니라 유용한 작업을 수행할 수 있고,

00:07:00성능도 꽤 좋은 것 같습니다. 하지만 언급했듯이 그게 전부입니다. 더 깊이 있는 분석이나

00:07:09기술적 세부 사항은 아직 없습니다. 모델 카드도 공개되지 않았죠.

00:07:16따라서 우리가 가진 정보라고는 본질적으로 이 모델이 '밀집 어텐션(dense attention)' 대신

00:07:22'희소 어텐션(sparse attention)'을 사용하여 롱컨텍스트 작업을 수행하고

00:07:29롱컨텍스트 시나리오에서 효율적으로 작동하며 속도와 비용 효율성을 달성한다는 설명뿐입니다.

00:07:37더 빠르고 더 저렴하다고 발표했으니까요. 그렇다면 무슨 일이 일어나고 있는지 이해하기 위해

00:07:45밀집 어텐션과 희소 어텐션의 차이를 살펴보겠습니다. 우선 밀집 어텐션은

00:07:52현재의 최전선 모델들이 사용하는 방식입니다. GPT 5.5, Opus 4.7을 비롯한

00:07:58다른 모든 모델들이 밀집 모델에 해당합니다. 이는 기본적으로 토큰 D라는 새로운 토큰을

00:08:08생성하기 위해, 다른 모든 이전 토큰들을 평가하고

00:08:13그 토큰들 간의 연결 관계를 전부 계산해야 함을 의미합니다. 대형 언어 모델의 핵심 아이디어는

00:08:20이전 토큰들을 기반으로 다음에 올 토큰(단어 전체 또는 일부)을 유추하는 것이기 때문입니다.

00:08:28예를 들어 "계약은 언제든지...에 의해 해지될 수 있다"라는 문장이 있다면

00:08:35그 뒤에 올 다음 단어를 예측하고 싶을 것입니다. 사용자가 모델에게 "계약은 언제 해지할 수 있어?"라고 묻고

00:08:42계약서 내용을 PDF 문서나 일반 텍스트 형태로 프롬프트에 함께 입력했을 수 있습니다.

00:08:48그러면 모델이 결과물로 생성하고 있는 이 문장 앞의 프롬프트에는

00:08:57사용자의 질문과 함께 계약서 같은 추가 컨텍스트가 들어있게 됩니다.

00:09:03그리고 이 토큰을 생성하기 위해, 그리고 그 앞에 나왔던 각각의 토큰을

00:09:10생성하기 위해, 모델은 기본적으로 전체 대화와 그 안의 모든 토큰을 살펴보았습니다.

00:09:16여기에는 질문과 사용자가 입력한 추가 컨텍스트가 모두 포함됩니다.

00:09:23모델은 이를 여러 토큰으로 쪼갠 뒤, 이전 토큰들의 모든 조합을 바탕으로

00:09:30최종 가중치를 계산하거나 조합합니다. 예를 들어, 설명을 돕기 위해 의도적으로 아주 짧게 만든

00:09:38예시 대화가 있다면, GPT-5 모델 등에서는 이것이 다음과 같이 토큰으로 쪼개졌을 것입니다.

00:09:46어떤 토큰은 단어 하나이거나 앞에 공백이 포함된 단어이고, 어떤 토큰은 그냥 특수문자입니다.

00:09:51그리고 다음 토큰을 생성하기 위해, 결국 이전의 모든 토큰들이

00:09:58서로 조합되어 의미를 파악하게 됩니다. 당연히 물음표(?) 뒤에 올 다음 토큰의 의미와 영향은

00:10:05그 물음표 앞에 무엇이 왔느냐에 따라 완전히 달라지기 때문입니다.

00:10:11따라서 물음표는 이전의 모든 토큰과 결합됩니다. 그리고 마지막 토큰을 유추하기 위해

00:10:17이러한 조합들의 모든 연산 결과가 최종적으로 사용됩니다. 이것이 아주 거시적인 관점에서 본

00:10:22밀집 어텐션의 개념과 작동 방식입니다. 당연히 이 방식은

00:10:29매우 비효율적이지만, 출력의 지능과 품질 면에서는 현재 우리가 가진 최선의 방법입니다.

00:10:36하지만 이는 n x n으로 계산되기 때문에 '이차(quadratic)' 복잡도를 가집니다.

00:10:44새로운 토큰을 유추하기 위해 이전의 모든 토큰을 결합해야 하기 때문이죠. 물론

00:10:49과거에 계산된 가중치 결과를 캐싱해 두는 KV 캐싱 같은 최적화 메커니즘도 있습니다.

00:10:56덕분에 새로운 토큰을 처리할 때 이전의 모든 조합을 매번 처음부터

00:11:01다시 계산할 필요는 없지만, 여전히 이전의 모든 캐싱된 가중치와 비교하면서

00:11:08새로운 토큰을 계산해야 합니다. 따라서 여전히 이 '이차 복잡도' 상황에서 벗어나지 못합니다.

00:11:16이 때문에 현재의 최전선 모델들은 연산 속도가 느리고 컴퓨팅 자원을 많이 소모합니다.

00:11:24특히 더 큰 컨텍스트 창 영역으로 들어갈 때 더욱 그렇고, 컨텍스트 창 크기에

00:11:31엄격한 제한이 있는 것도 이 때문입니다. 이차 복잡도를 가지므로, 1,200만 토큰의

00:11:38컨텍스트 창 크기는 사실상 계산이 불가능합니다. 시간이 영원히 걸릴 수도 있고,

00:11:46컴퓨팅 시간뿐만 아니라 확보해야 하는 메모리 용량도 또 다른 큰 문제입니다. 요약하자면 이것이 밀집 모델의 작동 방식과 한계입니다.

00:11:54이제 어제 발표된 새로운 sub-q 모델이 사용하는 반대되는 방식,

00:12:00즉 대안적인 접근법인 희소 어텐션에 대해 알아보겠습니다.

00:12:06희소 어텐션은 어떻게 작동할까요? 핵심 아이디어는 새로운 토큰을 계산할 때

00:12:14이전의 모든 토큰을 살펴보거나 모든 조합을 고려하지 않고,

00:12:20선택된 몇 개의 토큰만 확인하는 것입니다. 예를 들어 토큰 D를 구하고자 할 때,

00:12:28A는 건너뛰고 B와 C만 살펴보는 식입니다. 물론 여기서 가장 중요한 질문은

00:12:33이전 토큰 중 어떤 것을 살펴볼지, 즉 새로운 토큰을 생성하는 데

00:12:40어떤 이전 토큰이 유용한지 어떻게 결정하느냐입니다. 과거에도 다양한 접근법이 사용되었습니다.

00:12:46이 새로운 모델이 최초의 희소 어텐션 모델은 아니기 때문입니다. 하지만 그동안 이 방식이

00:12:52크게 흥행하지 못한 이유는 심각한 한계점들이 있었기 때문입니다. 예를 들어,

00:12:59한 가지 방법은 '로컬 윈도우(local window)' 접근법을 사용하는 것입니다. 이게 무슨 뜻이냐 하면,

00:13:06새로운 토큰, 예컨대 시퀀스의 다섯 번째 토큰을 생성할 때

00:13:13바로 앞에 있는 토큰 두 개(예: 3번과 4번 토큰)만 살펴보는 방식입니다. 즉, 토큰을 따라 미끄러지듯 이동하는 슬라이딩 윈도우를 두고

00:13:22생성하려는 토큰의 바로 직전에 위치한 토큰들만 살펴보는 것이죠.

00:13:27짐작하시겠지만 이 방식은 심각한 한계가 있습니다. 마지막 몇 개의 토큰만 살펴본다면,

00:13:33예컨대 계약 해지 시점이 언제인지 묻는 질문에 대해

00:13:39관련 정보가 프롬프트에 넣은 추가 컨텍스트에 들어있더라도, 그 정보가 로컬 윈도우 범위를 벗어나면

00:13:45모델은 인지할 수 없게 됩니다. 따라서 예측하려는 다음 토큰은

00:13:50이전 컨텍스트에 무엇이 있었는지 전혀 모르게 됩니다. 그래서 무용지물이죠. 이 방식으로

00:13:55컨텍스트 창 크기를 무제한으로 늘릴 수는 있지만, 정작 그 컨텍스트 내용들은 전혀 반영되지 않습니다. 명백한 한계점이죠.

00:14:01또 다른 접근법은 이른바 '글로벌 토큰(global token)' 방식입니다. 여기서는

00:14:09글로벌 요약 토큰을 둔다는 개념입니다. 거시적으로 생각해보면, 토큰 시퀀스의 시작 부분에

00:14:16모델이 특별한 토큰을 삽입하고, 이 토큰이

00:14:20뒤따르는 토큰들을 요약해 주는 방식으로 이해하시면 됩니다.

00:14:27그리고 다음 토큰을 예측할 때 이 글로벌 토큰을 고려합니다. 계약서 텍스트를

00:14:34프롬프트로 입력했던 앞선 예시를 다시 생각해보면, 이 방식이 아주 잘 작동할 수도 있습니다.

00:14:40대화 내용에 대해 생성된 요약본에 계약 해지 조건 등이

00:14:46포함되어 있다면, 당연히 다음 토큰을 그 요약을 바탕으로 아주 잘 예측할 수 있을 것입니다.

00:14:53하지만 운이 나빠서 요약본에 그러한 세부 내용이 누락되어 있다면

00:15:00정보가 완전히 유실된 상태로 되돌아가게 되는 셈입니다.

00:15:04따라서 글로벌 토큰 방식도 작동은 하지만, 컨텍스트 창이 길어질수록

00:15:12요약 내용도 점점 더 무리하게 압축되어 일반적인 이야기만 남게 됩니다. 쉽게 상상하실 수 있을 겁니다.

00:15:16100페이지짜리 PDF 문서가 있을 때 이를 단 한두 문장으로 요약해야 한다면

00:15:22핵심 세부 사항이 다 빠지겠죠? 그러니 그 요약을 바탕으로 다음 토큰을 정확히 예측하기란 어렵습니다.

00:15:29또 다른 접근법은 '라우터(router)'를 사용하는 것입니다. 일종의 별도 신경망을

00:15:37추가하는 것이죠. 즉, 대형 언어 모델과 함께 작동하는 별도의

00:15:43라우팅 모델을 두는 것입니다. 이 라우팅 모델이 사용자의 프롬프트나

00:15:51생성될 다음 토큰의 컨텍스트를 살펴보고, 해당 토큰을

00:15:59관련이 있다고 판단되는 다른 토큰들로 라우팅해 줍니다. 하지만 이는 결국

00:16:04그 뒤에 오는 다른 모든 토큰을 추적해야 하는 라우팅 모델이 필요함을 의미하므로,

00:16:10다시 이차 복잡도 영역으로 회귀하거나, 연산이 흐릿해져서 라우터 성능에 크게 의존하게 됩니다.

00:16:17즉, 밀집 모델에 비해 이차 복잡도 측면에서 이득을 크게 보지 못하거나,

00:16:23그렇지 않으면 라우터 성능이 떨어져 정보 손실을 겪게 됩니다. 요약 방식과 마찬가지로

00:16:30라우터가 제 역할을 해내어 다음 토큰 예측에 꼭 필요한 올바른 토큰들을

00:16:37활성화해 주기를 바라야만 하는 것이죠. 이것이 바로 희소 어텐션이 흥미로우면서도

00:16:46지금껏 크게 도약하지 못한 이유입니다. 각각의 방식마다 뚜렷한 트레이드오프가 존재하며,

00:16:54제가 알기로는 아직까지 현재 최전선의 밀집 모델들과

00:17:00동등한 수준의 품질을 내면서도 거대한 컨텍스트 창에서 작동하는 희소 어텐션 모델은 없었습니다.

00:17:07그런데 이들이 이번 새로운 모델을 통해 이를 바꾸겠다고 약속한 것입니다. 발표 블로그 포스트를 보면

00:17:14그들의 모델은 '콘텐츠 의존적 선택(content-dependent selection)'을 수행한다고 언급되어 있습니다.

00:17:22매 쿼리마다 모델이 시퀀스에서 주목할 가치가 있는 부분을 선택하여 정확히 그 위치들에 대해서만 어텐션을 계산합니다.

00:17:28결국 라우팅 접근법으로 회귀한 셈이지만, 그들이 여기서 주장하고

00:17:35언급하는 바에 따르면 그들의 매커니즘은 다음 토큰 예측을 위해

00:17:43올바른 토큰들을 활성화하는 데 매우 효율적이라고 합니다. 밀집 어텐션은 모든 토큰 쌍이

00:17:49중요할 수 있다고 가정하여 모든 조합을 평가하지만, 실제로는 거의 대부분이 중요하지 않습니다.

00:17:55이들의 접근 방식인 SSA(sub-quadratic selective attention, 준이차 선택적 어텐션)는

00:18:01그러한 가정을 배제합니다. 어텐션을 근사화하는 것이 아니라, 실제로 유의미한 신호를 가진

00:18:08위치로만 어텐션을 제한하고 나머지는 건너뜁니다. 이것이 그들의 방식입니다.

00:18:14콘텐츠 의존적 라우팅을 수행하여 다음 토큰 예측에 올바른 토큰들을 활성화하고

00:18:21사용함으로써 효율성을 극대화하는 것이죠. 다만 이것이 실제로 얼마나 잘 작동할지는

00:18:30두고 봐야 합니다. 앞서 말씀드렸듯이 공개된 벤치마크 데이터가 매우 제한적이고,

00:18:36다른 벤치마크나 모델 카드가 전혀 없으며, 콘텐츠 의존적 선택이 정확히 어떻게 작동하는지에 대한

00:18:42세부 정보도 없기 때문에 아직은 의문점이 가득합니다.

00:18:49그리고 지난 몇 달, 혹은 몇 년 동안 우리가 확실히 배운 것이 하나 있다면

00:18:57AI는 분명 유용한 도구이며 저 역시 매일 사용하고 있고,

00:19:04여러분도 매일 사용하실 것이며, Codex나 Claude Code 같은 도구들이 매우 유용하다는 점입니다.

00:19:10그 점에 대해서는 의심의 여지가 없고 제 경험상으로도 그렇지만, 동시에 우리는 이 업계에

00:19:16엄청난 거품과 마케팅(hype)이 존재한다는 것도 배웠습니다. 지금은 과도기입니다. 많은 것이 변하고 있고

00:19:26곳곳에서 수많은 약속이 쏟아져 나오지만, 모든 약속이 실제로

00:19:35유용한 무언가로 실현되거나 구체화되는 것은 아닙니다. 예를 들어 Meta가 만든

00:19:42밀집 모델들을 보면, Llama 4 모델들은 벤치마크 점수는 대단했지만

00:19:49실제 성능은 그만큼 훌륭하지는 않았습니다. 이처럼 과장된 사례들이 많고,

00:19:56이것은 단지 하나의 예시일 뿐 다른 많은 사례들이 존재합니다.

00:20:05분명 조심스럽게 지켜볼 필요가 있습니다. 하지만 만약 이 모델들이 출시되고(현재 사전 신청을

00:20:13받고 있어서 저도 신청했지만 아직 권한을 얻지는 못했습니다), 이 모델들이 정말

00:20:19본인들의 약속대로 거대한 컨텍스트 창에서도 똑똑하고 유용하게 작동한다면

00:20:25당연히 많은 것이 바뀔 것입니다. 전 세계적으로 컴퓨팅 자원이

00:20:33턱없이 부족한 상황인데, 이러한 컴퓨팅 제약을 해결하는 데 큰 도움이 될 것입니다.

00:20:40데이터 센터, 칩, 전력 등 모든 것이 더 필요한 상황에서 훨씬 더 효율적인 모델이 나온다면

00:20:45돌파구가 될 수 있죠. 물론 효율이 좋아진 만큼 사용량이 더 늘어나서 부족 문제는 여전할지 모르지만

00:20:52그래도 활용 범위를 더 넓혀줄 것입니다. 그리고 당연히 완전히 새로운 사용 사례들이 열릴 것입니다.

00:21:00코드베이스 전체를 통째로 집어넣고 작업을 수행하는 것이 가능해집니다. 그러면 우리가

00:21:07지금 사용하고 있는 임시 우회책인 서브 에이전트나 RAG 시스템 등은 더 이상 필요 없게 될 것입니다.

Key Takeaway

준이차 선택적 어텐션(SSA) 방식을 사용하는 sub-q 모델은 기존 밀집 모델의 5% 비용으로 1,200만 토큰의 컨텍스트를 처리하여 AI 연산의 효율성과 범위를 획기적으로 개선할 잠재력을 지닙니다.

Highlights

알렉산더 웨딘(Alexander Wedin)이 발표한 'sub-q' 모델은 기존 밀집 어텐션의 이차 복잡도를 해결하여 1,200만 토큰의 컨텍스트 창을 지원한다고 주장합니다.
sub-q 모델은 기존 Opus 모델 대비 5% 수준의 비용으로 롱컨텍스트 작업을 수행할 수 있습니다.
이 모델은 콘텐츠 의존적 선택(content-dependent selection) 기술을 사용하여 필요한 토큰만 계산하는 희소 어텐션 방식을 채택했습니다.
RULER 벤치마크 결과, sub-q 모델은 Opus 4.6과 동등한 수준의 롱컨텍스트 검색 및 추론 능력을 보여주었습니다.
이 기술이 실현될 경우, 코드베이스 전체를 컨텍스트 창에 직접 입력할 수 있어 현재의 RAG나 서브 에이전트 같은 우회책이 불필요해집니다.

Timeline

sub-q 모델 발표와 잠재적 변화

알렉산더 웨딘이 준이차(sub-quadratic) 모델인 'sub-q'를 공개했습니다.
해당 모델은 1,200만 토큰의 컨텍스트 창을 제공하며 Opus 비용의 5% 수준으로 운영됩니다.
성공적으로 구현될 경우 RAG나 서브 에이전트 같은 기술적 우회책을 대체할 게임체인저가 될 것입니다.

기존 대형 언어 모델들은 컨텍스트 창의 크기와 연산 비용 면에서 명확한 한계를 지니고 있습니다. sub-q 모델은 전체 코드베이스나 대규모 법률 문서를 한 번에 입력할 수 있는 1,200만 토큰의 처리 능력을 약속합니다. 이는 모델이 필요한 정보를 스스로 찾기 위해 임시방편으로 사용하던 RAG 등 보조 기술의 필요성을 제거할 수 있는 혁신적인 시도입니다.

벤치마크 데이터와 성능 평가

RULER 및 MRCRv2 벤치마크에서 Opus 4.6과 동등한 성능을 기록했습니다.
소프트웨어 엔지니어링 작업에서도 기존 최전선 모델군과 유사한 수준의 코드를 생성합니다.
현재 구체적인 모델 카드나 상세 기술 사양은 공개되지 않은 상태입니다.

공개된 데이터는 제한적이지만, 다중 홉 검색 및 정보 종합 능력을 측정하는 RULER 벤치마크에서 유의미한 수치를 보였습니다. 단순히 컨텍스트 내에서 정보를 찾는 것을 넘어, 추출된 데이터를 바탕으로 의미 있는 코드를 생성하는 능력까지 갖추었습니다. 다만 벤치마크 최적화 가능성을 배제할 수 없으므로 신중한 접근이 필요합니다.

밀집 어텐션 대 희소 어텐션

밀집 어텐션은 모든 토큰 간 관계를 계산하는 이차 복잡도를 가져 리소스 소모가 큽니다.
희소 어텐션은 필요한 토큰만 선택적으로 계산하여 비효율성을 극복하려 합니다.
sub-q 모델은 SSA 기술을 통해 콘텐츠 의존적 라우팅을 수행하여 지능 손실을 최소화합니다.

기존 모델은 매 토큰 생성 시 이전의 모든 토큰 쌍을 평가해야 하는 이차 복잡도 문제로 인해 리소스가 제한됩니다. 희소 어텐션은 로컬 윈도우, 글로벌 토큰, 라우터 방식을 시도해 왔으나 정보 유실이나 성능 저하라는 트레이드오프가 존재했습니다. sub-q는 콘텐츠 의존적 선택을 통해 유의미한 위치에만 어텐션을 집중시키는 SSA 방식으로 이 한계를 넘어서려 합니다.

향후 전망과 주의점

AI 업계 내의 마케팅 과장 가능성을 경계해야 합니다.
컴퓨팅 자원이 부족한 현 상황에서 효율적인 모델은 구조적 돌파구가 될 수 있습니다.
실제 서비스 적용 시 기존의 우회적 도구들은 빠르게 도태될 가능성이 높습니다.

과거 많은 모델이 벤치마크 점수와 실제 성능의 괴리를 보여준 바 있기에, 이번 발표 역시 검증이 필요합니다. 만약 약속된 성능이 실현된다면 전 세계적인 컴퓨팅 자원 부족 문제를 완화하고, 더 복잡한 대규모 데이터 작업을 단순화할 수 있는 강력한 토대가 마련될 것입니다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video