00:00:00지금 인터넷이 난리가 났습니다. 이번 주인공은 바로 Qwen 3.5인데요,
00:00:05특히 소형 모델 시리즈가 화제입니다. 알리바바가 최근 Qwen 3.5의
00:00:10네이티브 멀티모달 버전을 출시했는데, 크기가 20억 개, 심지어 8억 개의 파라미터에 불과합니다.
00:00:17하지만 추론과 비전 성능에서는 자기보다 4배나 큰 모델들을 압도하죠.
00:00:22크기가 워낙 작아서 이제는 인터넷 연결 없이도 6년 된 노트북이나 스마트폰에서
00:00:28로컬로 실행할 수 있습니다. 이번 영상에서는 Qwen 3.5의 새로운
00:00:34소형 시리즈 모델인 0.8B와 2B 모델을 집중적으로 살펴보겠습니다.
00:00:40M2 맥북 프로와 아이폰 14 프로에서 직접 테스트하며 실제 성능이 어느 정도인지 확인해 보죠.
00:00:48아주 재미있을 것 같으니, 바로 시작해 보겠습니다.
00:00:55왜 다들 이 새로운 Qwen 3.5 모델에 열광하는 걸까요? 사실 소형 모델은
00:01:01이전에도 있었습니다. 저번 영상에서 다뤘던 IBM의 Granite 4.0 나노 모델은
00:01:08파라미터가 3억 개밖에 안 됐죠. 그렇다면 이번 Qwen 모델은 무엇이 그렇게 다를까요?
00:01:14핵심은 바로 '지능 밀도'입니다. 오랫동안 시각, 추론, 코딩 능력을
00:01:20모두 갖춘 모델은 반드시 거대해야 한다는 것이 정설이었습니다. 하지만 Qwen 3.5 소형 모델들은
00:01:27그럴 필요가 없다는 걸 증명했습니다. 거대 모델을 아주 작은 버전으로 압축하면서도
00:01:33통합 멀티모달 아키텍처를 그대로 유지해냈거든요. 즉,
00:01:390.8B 모델이 텍스트 응답뿐만 아니라 비전과 코딩 능력까지 갖추고 있다는 뜻입니다.
00:01:46벤치마크를 잠깐 살펴보면 꽤 흥미로운 점이 있습니다. 일반 지식과 추론을 측정하는
00:01:51MMLU 벤치마크에서 2B 모델은 66.5점을 기록했고,
00:01:570.8B 모델은 42.3점에 도달했습니다. 숫자가 낮아 보일 수도 있겠지만,
00:02:04참고로 2023년에 출시된 오리지널 Llama 2 7B 모델의
00:02:11동일 벤치마크 점수가 45.3점이었습니다. 파라미터 크기를 획기적으로 줄이면서도
00:02:17준수한 이해 능력을 유지했다는 증거죠. 하지만 진짜 놀라운 건
00:02:23멀티모달 성능입니다. OCRBench 같은 특화된 비전 테스트에서
00:02:292B 모델은 85.4점, 0.8B 모델은 79.1점을 기록했습니다. 이는
00:02:37복잡한 문서를 읽거나 텍스트가 포함된 이미지를 분석하는 작업에 매우 능숙하다는 뜻입니다.
00:02:43또한 두 모델 모두 262K라는 거대한 컨텍스트 창을 지원하여, PDF 전체를 입력하거나
00:02:51대규모 코드베이스를 분석하는 데 사용할 수 있습니다. 정말 대단하죠. 그럼 이제
00:02:56실제 성능을 살펴보겠습니다. 0.8B와 2B 모델 모두 최신 노트북이라면
00:03:02어디서든 로컬로 구동 가능하므로, 제 노트북에서 인터넷을 완전히 끄고 비행기 모드로 테스트하겠습니다.
00:03:08첫 번째 테스트로, LM Studio에서 로컬 서버를 실행하고
00:03:14VS Code의 CLINE과 연결해 이 작은 모델들이 실제 코딩 작업을 수행할 수 있는지 확인해 보겠습니다.
00:03:21먼저 모델 탭으로 가서 0.8B와 2B 파라미터 모델의
00:03:28GGUF 버전을 다운로드해야 합니다. 그리고 코딩 작업에 사용할 것이기 때문에
00:03:33사용 가능한 컨텍스트 길이를 상당히 늘려줄 필요가 있습니다. 설정이 끝나면
00:03:38서버를 시작합니다. 이제 CLINE으로 가보죠. 말씀드린 대로,
00:03:43완전한 오프라인 상태에서 테스트하기 위해 Wi-Fi를 끄겠습니다. 그런 다음 CLINE의 API 설정에서
00:03:50커스텀 LM Studio 서버 URL을 가리키도록 설정합니다. 그리고
00:03:560.8B 모델을 선택했는지 확인합니다. 프롬프트로는 모델에게
00:04:01작은 카페를 위한 간단한 회사 웹사이트를 만들어 달라고 요청하겠습니다. 참고로 특정 프레임워크를
00:04:07지정하지 않고 Qwen에게 맡기면, React를 설치하려고 시도하는데 이는
00:04:14오프라인 데모 환경에서는 작동하지 않습니다. 그래서 외부 라이브러리 없이 HTML, CSS, JavaScript만
00:04:20사용하도록 프롬프트를 수정했습니다. 테스트를 시작해 보죠. 모델이 작업을 마치는 데
00:04:25약 1분 정도 걸렸습니다. 최종 결과물은 이렇습니다. 보시다시피
00:04:32사이트가 매우 단조롭고 디자인이 심미적이지 않으며 텍스트가 너무 어둡습니다. 그리고
00:04:37CSS 코드를 보니 모델이 테마에 어울리는 특정 Unsplash 이미지를 하드코딩하려고 시도했더군요.
00:04:43흥미로운 관찰 결과입니다. 잠시 Wi-Fi를 켜서 확인해 보니,
00:04:48이미지 중 하나가 실제로 로드되었습니다. 그런데 휴대폰을 들고 있는 의사 이미지네요.
00:04:54좀 뜬금없죠? 다른 이미지들은 유효하지 않은 URL이었습니다. 깨진 텍스트를 수정하고
00:05:00다른 부분을 개선하라고 다시 요청해 봤지만, 제대로 수행하지 못했습니다. 종합적으로 봤을 때
00:05:06이 모델이 코딩과 도구 호출이 가능하긴 하지만, 파라미터 수가 너무 적어서
00:05:12실제 현업 시나리오에서 사용하기엔 무리가 있어 보입니다. 하지만 이번엔
00:05:17동일한 프롬프트로 2B 파라미터 모델을 테스트해서 얼마나 더 잘하는지 보죠.
00:05:23그런데 이 모델은 저를 꽤 고생시켰습니다. 똑같은 섹션을 반복해서 작성하는
00:05:28무한 루프에 자주 빠지더라고요. 그래서 작업을 멈추고 다시 시작해야 했습니다.
00:05:34이게 모델 자체의 문제인지, LM Studio의 서버 방식 문제인지, 아니면 CLINE이
00:05:40프롬프트를 처리하는 방식의 문제인지는 확실하지 않습니다. 하지만 이 설정에서는
00:05:45계속해서 어려움을 겪었습니다. 또 한 가지 특징은 0.8B 모델이 바로
00:05:51코딩에 들어간 것과 달리, 2B 모델은 먼저 계획을 세운 다음에
00:05:57실제 코딩을 진행하는 것을 선호했다는 점입니다. 2B 모델은 작업을 마치는 데 약 3분이 걸렸습니다.
00:06:02확실히 더 오래 걸렸죠. 최종 결과를 한번 볼까요? 보시다시피
00:06:08디자인이 훨씬 깔끔하고 카페 브랜드 이미지에 가까운 갈색 테마를 사용해서
00:06:14확실히 한 단계 발전한 모습입니다. 또한 Wi-Fi를 켜면
00:06:20외부 아이콘들을 불러와서 사이트가 훨씬 더 완성도 있어 보입니다.
00:06:24그리고 이 버전은 제가 처음에 요청했던 장바구니 기능도 구현하려고 시도했습니다.
00:06:29멋진 장바구니 사이드바가 생겼거든요. 다만 상품 카드에 '장바구니 담기' 버튼은
00:06:35보이지 않네요. 이 문제를 수정하라고 다시 요청했을 때, 또다시 모델이
00:06:41무한 루프에 빠지는 기술적 문제가 발생했습니다. 그래서 이건 LM Studio와 CLINE의
00:06:46호환성 문제일 수도 있겠다는 생각이 들었습니다. 솔직히 말해서
00:06:51복잡하고 진지한 코딩 작업에 이런 소형 모델을 쓸 사람은 없겠죠.
00:06:56저는 그저 이 정도로 적은 파라미터로도 코딩 작업에서 의미 있는 결과를
00:07:02낼 수 있는지 궁금해서 테스트해 본 것입니다. 자, 이제 더 흥미로운 걸 해보죠.
00:07:07아이폰 14 프로에서 이 모델들을 실행해 보겠습니다. 이를 위해 Swift와
00:07:14MLX Swift 프레임워크를 사용해 네이티브 iOS 앱을 만들었습니다. MLX는
00:07:22애플 실리콘의 통합 메모리 아키텍처에서 모델을 직접 실행할 수 있게 해주는 애플의 오픈 소스 라이브러리입니다.
00:07:29Metal GPU를 활용해 하드웨어 가속으로 Qwen 모델을 기기에서 바로 돌릴 수 있죠.
00:07:34여러분이 직접 다운로드해서 컴파일해 볼 수 있도록 설명란에 이 Swift 프로젝트 리포지토리 링크를 남겨두겠습니다.
00:07:40앱을 열자마자 0.8B 모델 다운로드가 시작됩니다.
00:07:46다운로드가 완료되면 이제 사용할 준비가 끝났습니다. 프롬프트를 입력하기 전에
00:07:52아이폰을 비행기 모드로 전환하겠습니다. 간단하게 “Hello”라고 시작해 보죠.
00:07:58웬일인지 자기 이름이 'Alex'라고 대답하네요. 좀 뜬금없지만 알겠습니다. 그런데
00:08:04응답이 출력되는 속도 보셨나요? 이 모델이 실시간으로 답변하는 속도에
00:08:10정말 깜짝 놀랐습니다. 이제 대부분의 모델이 자주 틀리는 유명한 '세차 테스트'를 해보죠.
00:08:17보세요, Qwen 3.5가 정답을 맞혔습니다. 벌써부터 인상적이네요.
00:08:23이 모델들의 가장 멋진 점은 비전 기능도 사용할 수 있다는 것입니다. 이제
00:08:29바나나 사진을 보여주겠습니다. 이게 무엇인지, 어떤 상태인지 이해하는지 보죠.
00:08:35바나나라는 것은 정확히 식별했는데, 'dog banana'라고 하네요.
00:08:40그런 용어는 들어본 적이 없는데 말이죠. Qwen이 대체 무슨 소리를 하는 걸까요?
00:08:47어쨌든 모델은 바나나가 너무 익었다고 생각합니다. 먹기에 안전하지 않을 수 있다고
00:08:52경고하는데, 사실이 아닙니다. 오늘 아침에 먹었는데 아주 맛있었거든요. 하지만
00:08:58프롬프트를 처리하고 응답을 내놓는 속도가 정말 빠르다는 점에 다시 한번 놀랐습니다.
00:09:04다른 사진도 해보죠. 사진 속 강아지의 품종을 맞힐 수 있는지
00:09:09확인해 보겠습니다. 여기서는 정확도가 좀 떨어지는데, 강아지가
00:09:15두 마리라고 생각하네요. 실제론 한 마리인데 말이죠. 품종도 언급하지 않았습니다. 그래서 무슨 품종인지
00:09:20다시 물어보니 골든 리트리버라고 대답합니다. 실제 모습과는 거리가 아주 멀죠.
00:09:27응답 중 일부가 정확하지 않거나 웃긴 답변들이 있긴 하지만,
00:09:34이렇게 작은 모델이 이미지 내용을 추론하고 아주 빠르게 결과물을 낸다는 점은
00:09:39여전히 감동적입니다. 마지막으로 테스트하고 싶은 것은 벤치마크에서 극찬했던
00:09:45OCR 능력입니다. 특히 이미지에 표시된 텍스트가 어떤 언어인지
00:09:50맞힐 수 있는지 보고 싶습니다. 배경 설명을 드리자면,
00:09:55제 고향인 라트비아의 언어, 즉 라트비아어입니다.
00:10:00안타깝게도 Qwen은 슬로베니아어라고 답하며 테스트에 실패했습니다. 라트비아어는
00:10:05슬로베니아어와 전혀 비슷하지 않거든요. 게다가 어떤 단어를
00:10:11실제 있지도 않은 단어로 아주 자신 있게 번역하는 모습이 웃기기까지 합니다.
00:10:19확실히 이 응답에는 심한 환각 현상이 있네요. 이제 2B 파라미터 모델로
00:10:25넘어가 보죠. 드롭다운을 바꾸면 먼저 다운로드를 시작합니다.
00:10:30완료되면 동일한 테스트를 진행해 성능이 얼마나 개선되었는지 보겠습니다.
00:10:36다시 가벼운 인사부터 해보죠. 적어도 이번엔 자기를 'Alex'라고 하진 않네요.
00:10:42시작이 좋습니다. 세차 테스트도 다시 해보겠습니다. 이번에도 역시
00:10:47무난하게 통과했습니다. 잘하네요. 이제 바나나 사진입니다.
00:10:53이번엔 더 의미 있는 답변이 나왔습니다. 바나나라는 것을 감지했고,
00:11:00상태에 대해서도 완전히 익어서 먹기에 적당하다고 답했습니다. 이건 정답이죠. 강아지 사진도
00:11:06다시 해볼까요? 이번엔 포메라니안이라고 하네요. 두 품종이
00:11:11비슷하지도 않은데 말이죠. 아쉽게도 2B 모델 역시 강아지 품종 식별은 잘 못합니다.
00:11:18마지막으로 텍스트 사진을 다시 보여주고 언어를 맞힐 수 있는지 보겠습니다.
00:11:22보세요! 2B 파라미터 모델은 이 텍스트가 라트비아어라는 것을
00:11:29정확히 맞혔습니다. 정말 멋지네요. 자, 지금까지 Qwen 3.5 소형 모델 시리즈를 살펴봤습니다.
00:11:36소소한 오류들은 있지만, 제가 사용해 본 소형 모델 중 단연 가장 강력합니다.
00:11:42오픈 소스 네이티브 멀티모달 LLM을 아이폰 14 프로에서 오프라인으로 실행하고,
00:11:49빠른 속도로 의미 있는 결과를 얻을 수 있다는 사실이 정말 놀랍습니다.
00:11:55Qwen 팀이 이번에 정말 큰 일을 해냈네요. 대단합니다. 그런데
00:12:01조금 씁쓸한 소식도 전해드려야 할 것 같습니다. 영상을 마무리하던 중 알리바바가
00:12:07Qwen 팀을 대대적으로 개편한다는 소식이 들려왔습니다. 핵심 리더들과
00:12:13주요 엔지니어들이 회사를 떠나 각자의 AI 스타트업을 세우기 위해 나갔다고 합니다.
00:12:18이 때문에 Qwen의 급격한 혁신이 멈추는 게 아니냐는 우려가 커지고 있습니다.
00:12:24그래서 이 모델들이 이 특정 팀이 내놓는 마지막 주요 릴리스가 될 수도 있어 더 각별하게 느껴지네요.
00:12:30이번 소형 모델 시리즈에 대해 어떻게 생각하시나요? 직접 써보셨나요? 아니면 써보실 계획인가요?
00:12:35댓글로 알려주세요. 여러분, 이런 방식의
00:12:39기술 분석 영상이 좋으셨다면 영상 하단의 좋아요 버튼을 꼭 눌러주세요.
00:12:45구독하는 것도 잊지 마시고요. 지금까지 Better Stack의 Andres였습니다.
00:12:50다음 영상에서 뵙겠습니다.