Qwen 3.5 35B vs Sonnet 4.5: 격차가 정말 줄어들고 있을까?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00이달 초 알리바바는 4,000억 개의 파라미터 모델인 Qwen 3.5와
00:00:05높은 사양을 요구하지만 Opus 4.5보다 더 나은 벤치마크를 기록했다는 Max Thinking 모델을 출시했습니다.
00:00:11로컬 환경에서 실행할 수 있는 모델이죠.
00:00:12그런데 바로 이번 주에 Max 모델만큼 강력하면서도
00:00:17최신 맥북 프로에서 로컬로 실행 가능한 Qwen 3.5 Medium 시리즈 모델을 출시했습니다.
00:00:22Sonnet 4.5보다 벤치마크가 더 좋다고 주장하는데, 저는 믿기지 않네요. 구독 버튼을 눌러주세요.
00:00:27이제 이 두 모델을 직접 테스트해 봅시다.
00:00:31대부분의 개발자들은 Sonnet 4.5가 Claude Code, Co-Work 등
00:00:35Anthropic 제품군과 잘 연동되어 프리미엄한 경험을 제공하는 훌륭한 모델이라는 점을 인정할 것입니다.
00:00:40하지만 온라인 상태여야만 작동하고 비용도 저렴하지 않죠.
00:00:44Qwen 3.5 Medium 시리즈는 Sonnet 4.5급의 모델을 로컬에서 실행할 수 있게 함으로써
00:00:49이 모든 상황을 바꾸려 하고 있고, 트위터 사람들은 열광하고 있습니다.
00:00:54하지만 저는 실제로 Sonnet 4.5만큼 좋을지 확신이 서지 않습니다.
00:00:58그래서 두 모델을 쉬움, 중간, 어려움 난이도의 작업으로 테스트하여
00:01:02어떤 모델이 더 성능이 좋은지 확인해 보려고 합니다.
00:01:04테스트에 들어가기 전에 솔직히 고백할 것이 하나 있습니다.
00:01:07제 초라한 M1 맥북 프로는 추론을 제대로 실행할 통합 메모리가 부족해서
00:01:12실제로 Qwen 3.5를 로컬에서 구동하지는 않을 것입니다.
00:01:15대신 OpenCode에 연결된 OpenRouter의 Qwen 3.5 35b 모델을 사용하고,
00:01:21Sonnet 4.5는 Claude Code의 클린 모드에서 실행하여 제 스킬이나 플러그인,
00:01:25MCP 도구들을 전혀 사용하지 않도록 하겠습니다.
00:01:27간단하게 시작해서 모델들에게 React와 Vite를 사용해 할 일 목록을 처음부터 만들어 달라고 요청해 보죠.
00:01:32Sonnet 4.5가 만든 결과물을 보면 AI 특유의 보라색 테마가 보입니다.
00:01:36할 일을 추가하고 완료 표시를 할 수 있으며, 삭제 기능도 있고
00:01:40로컬 스토리지를 사용했기 때문에 페이지를 새로고침해도 데이터가 유지됩니다.
00:01:44Qwen 3.5를 보면 두 모델의 스타일이 비슷하고
00:01:48Vite의 기본 스타일을 덮어쓰지 않았다는 것을 알 수 있습니다.
00:01:51하지만 여기서도 할 일을 추가할 수 있습니다.
00:01:53그리고 여기에는 몇 가지 옵션이 더 있네요.
00:01:54카테고리를 선택할 수 있고, 중요도나
00:01:59마감 기한 같은 것을 설정할 수 있는 것 같습니다.
00:02:02“쇼핑하기”라고 입력하면 마감일, 중요도, 카테고리가
00:02:06함께 표시되는데 정말 멋지네요.
00:02:08코드를 한번 살펴봅시다.
00:02:09이것은 Sonnet의 코드인데, 여기 아래쪽의 로컬 스토리지 처리를 위해
00:02:13useEffect를 사용하고 있습니다.
00:02:15뭐 괜찮긴 하지만, 저는 다른 방식을 더 선호합니다.
00:02:17addTodo 함수가 사용되고 있고 동작을 수행하기 위한 몇 가지 함수들이 여기 있습니다.
00:02:22할 일 토글 기능과 삭제 기능이 있네요.
00:02:25전부 괜찮아 보입니다.
00:02:26그런데 한 가지 좀 놀라운 점은 상단에 언급된 JSON 파싱 부분입니다.
00:02:32로컬 스토리지에 JSON으로 저장하고 이를 파싱하는 것 같은데,
00:02:35나중에 기능을 더 추가할 때 코드 상단이 지저분해지지 않도록
00:02:38이 코드를 별도의 함수로 분리했다면 더 좋았을 것 같습니다.
00:02:42이제 Qwen을 보면 카테고리들이 정의되어 있고, useEffect를
00:02:46사용하지 않는 것 같은데 이 점은 마음에 듭니다.
00:02:48아래로 스크롤하면 제가 선호하는 이름인 handleSubmit 함수가 있습니다.
00:02:51또한 handleUpdate, handleDelete, handleToggleCompleted 함수도 있네요.
00:02:55특히 좋았던 점은 할 일 항목들을 별도의 컴포넌트로 분리했다는 것입니다.
00:02:59메인 앱 컴포넌트를 복잡하게 만드는 대신 여기 새로운 컴포넌트를 만들어서
00:03:03항목이 여러 개인 앱 섹션 아래에서 사용하고 있습니다.
00:03:08더 많은 기능을 갖춘 목록을 만든 Qwen이 승리한 것 같네요.
00:03:13하지만 테스트 후에 Qwen이 OpenCode에서
00:03:18슈퍼파워 스킬이 활성화된 상태였다는 것을 깨달았습니다.
00:03:19그래서 스킬 없이 다시 실행해 봤더니 이런 결과가 나왔습니다.
00:03:23결국 이번 승리는 Sonnet에게 돌아가겠네요.
00:03:25두 번째 테스트로 넘어가 보죠. React, Vite, Three.js를 사용하여
00:03:29대화형 태양계를 구축하는 과제입니다.
00:03:31Claude가 한 번 만에 훨씬 더 잘해냈습니다.
00:03:33몇몇 행성이 빠져 있긴 하지만, 존재하는 행성들은 클릭할 수 있습니다.
00:03:37태양을 클릭하면 정보를 볼 수 있고,
00:03:39여기 아래에 있는 천왕성을 클릭해도 정보를 얻을 수 있습니다.
00:03:44사이트의 움직임도 완벽해서 화면 이동, 회전, 확대/축소 등이
00:03:48모두 가능합니다.
00:03:49그리고 이것이 Qwen이 만든 결과물입니다.
00:03:50네, 빈 페이지입니다.
00:03:51콘솔을 확인해 보니 에러가 있었고, Qwen에게 여러 번 고치라고 했지만
00:03:56해결하지 못했습니다.
00:03:58사실 이 프로젝트를 만드는 과정 자체가 꽤 번거로웠습니다.
00:04:01Qwen은 몇 번이나 멈춰서 다시 깨워야 했고,
00:04:05반복되는 에러를 수정하는 데에도 애를 먹었습니다.
00:04:06게다가 Qwen이 생성한 파일들을 보면 package.json, package-lock,
00:04:10node_modules 디렉토리가 있는데 전혀 사용되지 않았습니다.
00:04:15메인 프로젝트는 solar-system 디렉토리 안에 있고 그 안에 제대로 된
00:04:20package.json과 node_modules가 따로 있었기 때문이죠.
00:04:21그래서 두 번째 테스트도 Claude의 승리입니다.
00:04:23마지막 테스트는 사용자가 앱에 URL을 입력하면 트윗을
00:04:28스크린샷으로 찍어주는 기존 코드베이스를 수정하는 작업입니다.
00:04:32먼저 Claude부터 시작해 보죠. 여기 화면 페이지를 만들어냈네요.
00:04:35배경과 패딩을 변경할 수 있는 옵션을 제공합니다.
00:04:38처음 실행했을 때 에러가 났었지만 Claude에게 수정을 요청해서 해결했습니다.
00:04:42Jason의 트윗 URL을 복사해서 붙여넣고 캡처 버튼을 눌러보겠습니다.
00:04:47몇 초 후에 아래에 이미지가 생성되고 다운로드 옵션도 나타납니다.
00:04:51그리고 여기 화면 페이지가 있는 Qwen의 결과물입니다.
00:04:54마찬가지로 트윗 주소를 복사해서 붙여넣습니다.
00:04:56스크린샷 추출 대신 동영상 추출이라고 되어 있긴 하지만 캡처를 시작하는 모습이 유망해 보이네요.
00:05:01하지만 잠시 후 60초 타임아웃이 발생했는데, 이는 Sonnet에서 겪었던
00:05:06에러와 비슷했습니다.
00:05:07Qwen에게 수정을 요청했더니 제한 시간은 늘렸지만,
00:05:11애초에 문제를 일으킨 근본 원인은 해결하지 못했습니다.
00:05:13결국 Sonnet 4.5가 세 가지 테스트 모두에서 승리했습니다.
00:05:17서류상으로는 Qwen 3.5/35b가 Sonnet 4.5를 압도해야 하지만,
00:05:24실제 테스트 결과는 그렇지 않은 것 같습니다.
00:05:26물론 350억 개나 270억 개의 파라미터 모델을 최신 맥북에서
00:05:31로컬로 돌릴 수 있다는 점은 정말 인상적입니다.
00:05:34하지만 트위터에서 사람들이 뭐라고 하든, 아까 보신 테스트 결과처럼
00:05:38코딩 작업에서 Sonnet 4.5를 능가할 수는 없습니다.
00:05:42그렇다면 왜 벤치마크 결과는 그렇게 좋게 나오는 걸까요?
00:05:45Qwen 3.5가 SWE-bench Verified 같은 특정 벤치마크 문제들에
00:05:51좋은 성적을 내도록 사후 학습되었을 가능성이 매우 큽니다.
00:05:55반면 Sonnet 4.5 같은 모델은 훨씬 더 광범위하고 견고한 데이터셋으로 학습되어
00:06:01더 미묘하고 복잡한 작업들을 처리할 수 있는 것이죠.
00:06:03또한 제가 테스트한 Qwen 모델은 350억 개의 파라미터를 가졌지만 추론 시에는
00:06:0830억 개만 사용합니다.
00:06:09Anthropic은 수치를 공개하지 않지만 추정치에 따르면 Sonnet 3도
00:06:14700억 개의 파라미터로 학습되었을 것이고, Sonnet 4.5는 의심의 여지 없이
00:06:18그보다 훨씬 더 많을 것입니다.
00:06:19따라서 벤치마크만으로 이 모델들을 비교하는 것은 공정하지 않습니다.
00:06:23직접 조사하고 자신만의 평가를 실행해 보는 것이 항상 중요합니다.
00:06:26애초에 OpenCode Go의 모델 목록에 Qwen 3.5가 포함되지 않은 이유가 있겠죠.
00:06:31Qwen 이야기가 나온 김에 덧붙이자면, 최근 그들의 TTS 모델이 출시되었습니다.
00:06:35Joss가 목소리 복제, 감정 표현 등을 다룬 아주 좋은 영상을 올렸으니
00:06:39여기서 확인해 보세요.

Key Takeaway

Qwen 3.5가 벤치마크에서는 Sonnet 4.5를 능가한다고 주장하지만, 실제 복잡한 코딩 테스트에서는 Sonnet 4.5가 압도적인 안정성과 문제 해결 능력을 보여주었습니다.

Highlights

알리바바의 Qwen 3.5 35B 모델과 Anthropic의 Sonnet 4.5 모델 간의 실제 코딩 성능 비교

Qwen 3.5는 벤치마크상 Sonnet 4.5를 앞선다고 주장하지만 실제 작업에서는 격차가 존재함

React, Vite, Three.js 등을 활용한 세 가지 난이도별 코딩 테스트 수행 결과 Sonnet 4.5의 완승

Qwen 3.5는 복잡한 라이브러리(Three.js) 사용 시 에러 해결에 실패하고 파일 구조 생성에서 미숙함을 보임

벤치마크 점수와 실제 성능의 괴리는 특정 데이터셋에 맞춘 사후 학습(Post-training) 가능성 때문으로 분석됨

로컬 실행이 가능하다는 Qwen의 장점에도 불구하고 전문적인 코딩 작업에는 여전히 Sonnet 4.5가 우위임

Timeline

Qwen 3.5 출시 배경 및 모델 특징 소개

알리바바가 최근 출시한 Qwen 3.5 Medium 시리즈와 Max Thinking 모델에 대한 소개로 영상이 시작됩니다. 이 모델들은 최신 맥북 프로에서 로컬로 실행 가능할 만큼 효율적이면서도 Sonnet 4.5보다 높은 벤치마크 점수를 기록했다고 홍보되고 있습니다. 발표자는 이러한 수치상의 결과가 실제 사용 환경에서도 유효한지 검증하기 위해 직접 테스트를 기획했습니다. 테스트 환경은 공정성을 위해 OpenRouter를 통한 Qwen 3.5 35B 모델과 클린 모드의 Claude Sonnet 4.5를 비교하는 방식으로 설정되었습니다. 로컬 AI의 부상과 기존 클라우드 기반 모델 간의 대결 구도를 명확히 설정하며 시청자의 흥미를 유발합니다.

첫 번째 테스트: React와 Vite를 이용한 할 일 목록 앱 제작

기본적인 난이도의 작업으로 React와 Vite를 사용하여 로컬 스토리지가 연동되는 'To-Do List' 앱 제작을 요청했습니다. Sonnet 4.5는 깔끔한 UI와 표준적인 코드를 생성했으나, Qwen 3.5는 카테고리 설정 및 중요도 표시 등 더 풍부한 기능을 구현하여 초기에 더 좋은 인상을 주었습니다. 특히 Qwen은 컴포넌트를 분리하여 가독성을 높이는 등 구조적인 면에서도 우수한 모습을 보였습니다. 하지만 확인 결과 Qwen은 '슈퍼파워 스킬'이 활성화된 상태였으며, 이를 끄고 재테스트했을 때는 성능이 급격히 저하되었습니다. 결국 순수 모델 성능 면에서 안정적인 결과물을 낸 Sonnet 4.5가 첫 번째 라운드의 승자로 기록되었습니다.

두 번째 테스트: Three.js 기반의 대화형 태양계 구축

중간 난이도 테스트로 3D 그래픽 라이브러리인 Three.js를 활용하여 행성을 클릭하고 정보를 확인하는 태양계 모델 제작을 지시했습니다. Sonnet 4.5는 한 번의 시도만으로 상호작용이 가능한 완벽한 결과물을 만들어내며 뛰어난 코딩 능력을 입증했습니다. 반면 Qwen 3.5는 실행되지 않는 빈 페이지를 생성했으며, 발생한 에러를 수정하라는 지시에도 제대로 대응하지 못하는 한계를 보였습니다. 또한 Qwen은 프로젝트 구조 내에서 사용하지 않는 중복된 패키지 파일을 생성하는 등 정교함이 부족한 모습을 노출했습니다. 이 과정에서 Qwen의 추론 과정이 반복적으로 멈추는 현상이 발생하여 작업 효율성이 크게 떨어졌습니다.

세 번째 테스트: 트윗 스크린샷 캡처 도구 수정 및 최종 분석

마지막으로 기존 코드베이스를 수정하여 트위터 URL을 입력하면 스크린샷을 찍어주는 도구를 고도화하는 작업을 수행했습니다. Sonnet 4.5는 타임아웃 에러를 즉각적으로 수정하며 실제 작동하는 기능을 완성했지만, Qwen 3.5는 근본적인 원인을 해결하지 못해 실패했습니다. 모든 테스트를 마친 후 발표자는 벤치마크 점수가 높은 Qwen이 왜 실제 성능에서는 뒤처지는지에 대한 분석을 내놓습니다. Qwen은 특정 평가 지표에 최적화된 학습을 거쳤을 가능성이 크며, 실제 파라미터 규모와 데이터셋의 견고함에서 Sonnet 4.5가 훨씬 우위에 있다는 점을 강조합니다. 결론적으로 수치에 현혹되지 말고 자신의 사용 목적에 맞는 모델을 직접 평가하여 선택할 것을 권장하며 마무리됩니다.

Community Posts

View all posts