00:00:00이달 초 알리바바는 4,000억 개의 파라미터 모델인 Qwen 3.5와
00:00:05높은 사양을 요구하지만 Opus 4.5보다 더 나은 벤치마크를 기록했다는 Max Thinking 모델을 출시했습니다.
00:00:11로컬 환경에서 실행할 수 있는 모델이죠.
00:00:12그런데 바로 이번 주에 Max 모델만큼 강력하면서도
00:00:17최신 맥북 프로에서 로컬로 실행 가능한 Qwen 3.5 Medium 시리즈 모델을 출시했습니다.
00:00:22Sonnet 4.5보다 벤치마크가 더 좋다고 주장하는데, 저는 믿기지 않네요. 구독 버튼을 눌러주세요.
00:00:27이제 이 두 모델을 직접 테스트해 봅시다.
00:00:31대부분의 개발자들은 Sonnet 4.5가 Claude Code, Co-Work 등
00:00:35Anthropic 제품군과 잘 연동되어 프리미엄한 경험을 제공하는 훌륭한 모델이라는 점을 인정할 것입니다.
00:00:40하지만 온라인 상태여야만 작동하고 비용도 저렴하지 않죠.
00:00:44Qwen 3.5 Medium 시리즈는 Sonnet 4.5급의 모델을 로컬에서 실행할 수 있게 함으로써
00:00:49이 모든 상황을 바꾸려 하고 있고, 트위터 사람들은 열광하고 있습니다.
00:00:54하지만 저는 실제로 Sonnet 4.5만큼 좋을지 확신이 서지 않습니다.
00:00:58그래서 두 모델을 쉬움, 중간, 어려움 난이도의 작업으로 테스트하여
00:01:02어떤 모델이 더 성능이 좋은지 확인해 보려고 합니다.
00:01:04테스트에 들어가기 전에 솔직히 고백할 것이 하나 있습니다.
00:01:07제 초라한 M1 맥북 프로는 추론을 제대로 실행할 통합 메모리가 부족해서
00:01:12실제로 Qwen 3.5를 로컬에서 구동하지는 않을 것입니다.
00:01:15대신 OpenCode에 연결된 OpenRouter의 Qwen 3.5 35b 모델을 사용하고,
00:01:21Sonnet 4.5는 Claude Code의 클린 모드에서 실행하여 제 스킬이나 플러그인,
00:01:25MCP 도구들을 전혀 사용하지 않도록 하겠습니다.
00:01:27간단하게 시작해서 모델들에게 React와 Vite를 사용해 할 일 목록을 처음부터 만들어 달라고 요청해 보죠.
00:01:32Sonnet 4.5가 만든 결과물을 보면 AI 특유의 보라색 테마가 보입니다.
00:01:36할 일을 추가하고 완료 표시를 할 수 있으며, 삭제 기능도 있고
00:01:40로컬 스토리지를 사용했기 때문에 페이지를 새로고침해도 데이터가 유지됩니다.
00:01:44Qwen 3.5를 보면 두 모델의 스타일이 비슷하고
00:01:48Vite의 기본 스타일을 덮어쓰지 않았다는 것을 알 수 있습니다.
00:01:51하지만 여기서도 할 일을 추가할 수 있습니다.
00:01:53그리고 여기에는 몇 가지 옵션이 더 있네요.
00:01:54카테고리를 선택할 수 있고, 중요도나
00:01:59마감 기한 같은 것을 설정할 수 있는 것 같습니다.
00:02:02“쇼핑하기”라고 입력하면 마감일, 중요도, 카테고리가
00:02:06함께 표시되는데 정말 멋지네요.
00:02:08코드를 한번 살펴봅시다.
00:02:09이것은 Sonnet의 코드인데, 여기 아래쪽의 로컬 스토리지 처리를 위해
00:02:13useEffect를 사용하고 있습니다.
00:02:15뭐 괜찮긴 하지만, 저는 다른 방식을 더 선호합니다.
00:02:17addTodo 함수가 사용되고 있고 동작을 수행하기 위한 몇 가지 함수들이 여기 있습니다.
00:02:22할 일 토글 기능과 삭제 기능이 있네요.
00:02:25전부 괜찮아 보입니다.
00:02:26그런데 한 가지 좀 놀라운 점은 상단에 언급된 JSON 파싱 부분입니다.
00:02:32로컬 스토리지에 JSON으로 저장하고 이를 파싱하는 것 같은데,
00:02:35나중에 기능을 더 추가할 때 코드 상단이 지저분해지지 않도록
00:02:38이 코드를 별도의 함수로 분리했다면 더 좋았을 것 같습니다.
00:02:42이제 Qwen을 보면 카테고리들이 정의되어 있고, useEffect를
00:02:46사용하지 않는 것 같은데 이 점은 마음에 듭니다.
00:02:48아래로 스크롤하면 제가 선호하는 이름인 handleSubmit 함수가 있습니다.
00:02:51또한 handleUpdate, handleDelete, handleToggleCompleted 함수도 있네요.
00:02:55특히 좋았던 점은 할 일 항목들을 별도의 컴포넌트로 분리했다는 것입니다.
00:02:59메인 앱 컴포넌트를 복잡하게 만드는 대신 여기 새로운 컴포넌트를 만들어서
00:03:03항목이 여러 개인 앱 섹션 아래에서 사용하고 있습니다.
00:03:08더 많은 기능을 갖춘 목록을 만든 Qwen이 승리한 것 같네요.
00:03:13하지만 테스트 후에 Qwen이 OpenCode에서
00:03:18슈퍼파워 스킬이 활성화된 상태였다는 것을 깨달았습니다.
00:03:19그래서 스킬 없이 다시 실행해 봤더니 이런 결과가 나왔습니다.
00:03:23결국 이번 승리는 Sonnet에게 돌아가겠네요.
00:03:25두 번째 테스트로 넘어가 보죠. React, Vite, Three.js를 사용하여
00:03:29대화형 태양계를 구축하는 과제입니다.
00:03:31Claude가 한 번 만에 훨씬 더 잘해냈습니다.
00:03:33몇몇 행성이 빠져 있긴 하지만, 존재하는 행성들은 클릭할 수 있습니다.
00:03:37태양을 클릭하면 정보를 볼 수 있고,
00:03:39여기 아래에 있는 천왕성을 클릭해도 정보를 얻을 수 있습니다.
00:03:44사이트의 움직임도 완벽해서 화면 이동, 회전, 확대/축소 등이
00:03:48모두 가능합니다.
00:03:49그리고 이것이 Qwen이 만든 결과물입니다.
00:03:50네, 빈 페이지입니다.
00:03:51콘솔을 확인해 보니 에러가 있었고, Qwen에게 여러 번 고치라고 했지만
00:03:56해결하지 못했습니다.
00:03:58사실 이 프로젝트를 만드는 과정 자체가 꽤 번거로웠습니다.
00:04:01Qwen은 몇 번이나 멈춰서 다시 깨워야 했고,
00:04:05반복되는 에러를 수정하는 데에도 애를 먹었습니다.
00:04:06게다가 Qwen이 생성한 파일들을 보면 package.json, package-lock,
00:04:10node_modules 디렉토리가 있는데 전혀 사용되지 않았습니다.
00:04:15메인 프로젝트는 solar-system 디렉토리 안에 있고 그 안에 제대로 된
00:04:20package.json과 node_modules가 따로 있었기 때문이죠.
00:04:21그래서 두 번째 테스트도 Claude의 승리입니다.
00:04:23마지막 테스트는 사용자가 앱에 URL을 입력하면 트윗을
00:04:28스크린샷으로 찍어주는 기존 코드베이스를 수정하는 작업입니다.
00:04:32먼저 Claude부터 시작해 보죠. 여기 화면 페이지를 만들어냈네요.
00:04:35배경과 패딩을 변경할 수 있는 옵션을 제공합니다.
00:04:38처음 실행했을 때 에러가 났었지만 Claude에게 수정을 요청해서 해결했습니다.
00:04:42Jason의 트윗 URL을 복사해서 붙여넣고 캡처 버튼을 눌러보겠습니다.
00:04:47몇 초 후에 아래에 이미지가 생성되고 다운로드 옵션도 나타납니다.
00:04:51그리고 여기 화면 페이지가 있는 Qwen의 결과물입니다.
00:04:54마찬가지로 트윗 주소를 복사해서 붙여넣습니다.
00:04:56스크린샷 추출 대신 동영상 추출이라고 되어 있긴 하지만 캡처를 시작하는 모습이 유망해 보이네요.
00:05:01하지만 잠시 후 60초 타임아웃이 발생했는데, 이는 Sonnet에서 겪었던
00:05:06에러와 비슷했습니다.
00:05:07Qwen에게 수정을 요청했더니 제한 시간은 늘렸지만,
00:05:11애초에 문제를 일으킨 근본 원인은 해결하지 못했습니다.
00:05:13결국 Sonnet 4.5가 세 가지 테스트 모두에서 승리했습니다.
00:05:17서류상으로는 Qwen 3.5/35b가 Sonnet 4.5를 압도해야 하지만,
00:05:24실제 테스트 결과는 그렇지 않은 것 같습니다.
00:05:26물론 350억 개나 270억 개의 파라미터 모델을 최신 맥북에서
00:05:31로컬로 돌릴 수 있다는 점은 정말 인상적입니다.
00:05:34하지만 트위터에서 사람들이 뭐라고 하든, 아까 보신 테스트 결과처럼
00:05:38코딩 작업에서 Sonnet 4.5를 능가할 수는 없습니다.
00:05:42그렇다면 왜 벤치마크 결과는 그렇게 좋게 나오는 걸까요?
00:05:45Qwen 3.5가 SWE-bench Verified 같은 특정 벤치마크 문제들에
00:05:51좋은 성적을 내도록 사후 학습되었을 가능성이 매우 큽니다.
00:05:55반면 Sonnet 4.5 같은 모델은 훨씬 더 광범위하고 견고한 데이터셋으로 학습되어
00:06:01더 미묘하고 복잡한 작업들을 처리할 수 있는 것이죠.
00:06:03또한 제가 테스트한 Qwen 모델은 350억 개의 파라미터를 가졌지만 추론 시에는
00:06:0830억 개만 사용합니다.
00:06:09Anthropic은 수치를 공개하지 않지만 추정치에 따르면 Sonnet 3도
00:06:14700억 개의 파라미터로 학습되었을 것이고, Sonnet 4.5는 의심의 여지 없이
00:06:18그보다 훨씬 더 많을 것입니다.
00:06:19따라서 벤치마크만으로 이 모델들을 비교하는 것은 공정하지 않습니다.
00:06:23직접 조사하고 자신만의 평가를 실행해 보는 것이 항상 중요합니다.
00:06:26애초에 OpenCode Go의 모델 목록에 Qwen 3.5가 포함되지 않은 이유가 있겠죠.
00:06:31Qwen 이야기가 나온 김에 덧붙이자면, 최근 그들의 TTS 모델이 출시되었습니다.
00:06:35Joss가 목소리 복제, 감정 표현 등을 다룬 아주 좋은 영상을 올렸으니
00:06:39여기서 확인해 보세요.