Qwen 3.5 소형 모델의 놀라운 성능! (온디바이스 0.8B & 2B 테스트)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스가전제품/카메라스마트폰/모바일

Transcript

00:00:00지금 인터넷이 난리가 났습니다. 이번 주인공은 바로 Qwen 3.5인데요,
00:00:05특히 소형 모델 시리즈가 화제입니다. 알리바바가 최근 Qwen 3.5의
00:00:10네이티브 멀티모달 버전을 출시했는데, 크기가 20억 개, 심지어 8억 개의 파라미터에 불과합니다.
00:00:17하지만 추론과 비전 성능에서는 자기보다 4배나 큰 모델들을 압도하죠.
00:00:22크기가 워낙 작아서 이제는 인터넷 연결 없이도 6년 된 노트북이나 스마트폰에서
00:00:28로컬로 실행할 수 있습니다. 이번 영상에서는 Qwen 3.5의 새로운
00:00:34소형 시리즈 모델인 0.8B와 2B 모델을 집중적으로 살펴보겠습니다.
00:00:40M2 맥북 프로와 아이폰 14 프로에서 직접 테스트하며 실제 성능이 어느 정도인지 확인해 보죠.
00:00:48아주 재미있을 것 같으니, 바로 시작해 보겠습니다.
00:00:55왜 다들 이 새로운 Qwen 3.5 모델에 열광하는 걸까요? 사실 소형 모델은
00:01:01이전에도 있었습니다. 저번 영상에서 다뤘던 IBM의 Granite 4.0 나노 모델은
00:01:08파라미터가 3억 개밖에 안 됐죠. 그렇다면 이번 Qwen 모델은 무엇이 그렇게 다를까요?
00:01:14핵심은 바로 '지능 밀도'입니다. 오랫동안 시각, 추론, 코딩 능력을
00:01:20모두 갖춘 모델은 반드시 거대해야 한다는 것이 정설이었습니다. 하지만 Qwen 3.5 소형 모델들은
00:01:27그럴 필요가 없다는 걸 증명했습니다. 거대 모델을 아주 작은 버전으로 압축하면서도
00:01:33통합 멀티모달 아키텍처를 그대로 유지해냈거든요. 즉,
00:01:390.8B 모델이 텍스트 응답뿐만 아니라 비전과 코딩 능력까지 갖추고 있다는 뜻입니다.
00:01:46벤치마크를 잠깐 살펴보면 꽤 흥미로운 점이 있습니다. 일반 지식과 추론을 측정하는
00:01:51MMLU 벤치마크에서 2B 모델은 66.5점을 기록했고,
00:01:570.8B 모델은 42.3점에 도달했습니다. 숫자가 낮아 보일 수도 있겠지만,
00:02:04참고로 2023년에 출시된 오리지널 Llama 2 7B 모델의
00:02:11동일 벤치마크 점수가 45.3점이었습니다. 파라미터 크기를 획기적으로 줄이면서도
00:02:17준수한 이해 능력을 유지했다는 증거죠. 하지만 진짜 놀라운 건
00:02:23멀티모달 성능입니다. OCRBench 같은 특화된 비전 테스트에서
00:02:292B 모델은 85.4점, 0.8B 모델은 79.1점을 기록했습니다. 이는
00:02:37복잡한 문서를 읽거나 텍스트가 포함된 이미지를 분석하는 작업에 매우 능숙하다는 뜻입니다.
00:02:43또한 두 모델 모두 262K라는 거대한 컨텍스트 창을 지원하여, PDF 전체를 입력하거나
00:02:51대규모 코드베이스를 분석하는 데 사용할 수 있습니다. 정말 대단하죠. 그럼 이제
00:02:56실제 성능을 살펴보겠습니다. 0.8B와 2B 모델 모두 최신 노트북이라면
00:03:02어디서든 로컬로 구동 가능하므로, 제 노트북에서 인터넷을 완전히 끄고 비행기 모드로 테스트하겠습니다.
00:03:08첫 번째 테스트로, LM Studio에서 로컬 서버를 실행하고
00:03:14VS Code의 CLINE과 연결해 이 작은 모델들이 실제 코딩 작업을 수행할 수 있는지 확인해 보겠습니다.
00:03:21먼저 모델 탭으로 가서 0.8B와 2B 파라미터 모델의
00:03:28GGUF 버전을 다운로드해야 합니다. 그리고 코딩 작업에 사용할 것이기 때문에
00:03:33사용 가능한 컨텍스트 길이를 상당히 늘려줄 필요가 있습니다. 설정이 끝나면
00:03:38서버를 시작합니다. 이제 CLINE으로 가보죠. 말씀드린 대로,
00:03:43완전한 오프라인 상태에서 테스트하기 위해 Wi-Fi를 끄겠습니다. 그런 다음 CLINE의 API 설정에서
00:03:50커스텀 LM Studio 서버 URL을 가리키도록 설정합니다. 그리고
00:03:560.8B 모델을 선택했는지 확인합니다. 프롬프트로는 모델에게
00:04:01작은 카페를 위한 간단한 회사 웹사이트를 만들어 달라고 요청하겠습니다. 참고로 특정 프레임워크를
00:04:07지정하지 않고 Qwen에게 맡기면, React를 설치하려고 시도하는데 이는
00:04:14오프라인 데모 환경에서는 작동하지 않습니다. 그래서 외부 라이브러리 없이 HTML, CSS, JavaScript만
00:04:20사용하도록 프롬프트를 수정했습니다. 테스트를 시작해 보죠. 모델이 작업을 마치는 데
00:04:25약 1분 정도 걸렸습니다. 최종 결과물은 이렇습니다. 보시다시피
00:04:32사이트가 매우 단조롭고 디자인이 심미적이지 않으며 텍스트가 너무 어둡습니다. 그리고
00:04:37CSS 코드를 보니 모델이 테마에 어울리는 특정 Unsplash 이미지를 하드코딩하려고 시도했더군요.
00:04:43흥미로운 관찰 결과입니다. 잠시 Wi-Fi를 켜서 확인해 보니,
00:04:48이미지 중 하나가 실제로 로드되었습니다. 그런데 휴대폰을 들고 있는 의사 이미지네요.
00:04:54좀 뜬금없죠? 다른 이미지들은 유효하지 않은 URL이었습니다. 깨진 텍스트를 수정하고
00:05:00다른 부분을 개선하라고 다시 요청해 봤지만, 제대로 수행하지 못했습니다. 종합적으로 봤을 때
00:05:06이 모델이 코딩과 도구 호출이 가능하긴 하지만, 파라미터 수가 너무 적어서
00:05:12실제 현업 시나리오에서 사용하기엔 무리가 있어 보입니다. 하지만 이번엔
00:05:17동일한 프롬프트로 2B 파라미터 모델을 테스트해서 얼마나 더 잘하는지 보죠.
00:05:23그런데 이 모델은 저를 꽤 고생시켰습니다. 똑같은 섹션을 반복해서 작성하는
00:05:28무한 루프에 자주 빠지더라고요. 그래서 작업을 멈추고 다시 시작해야 했습니다.
00:05:34이게 모델 자체의 문제인지, LM Studio의 서버 방식 문제인지, 아니면 CLINE이
00:05:40프롬프트를 처리하는 방식의 문제인지는 확실하지 않습니다. 하지만 이 설정에서는
00:05:45계속해서 어려움을 겪었습니다. 또 한 가지 특징은 0.8B 모델이 바로
00:05:51코딩에 들어간 것과 달리, 2B 모델은 먼저 계획을 세운 다음에
00:05:57실제 코딩을 진행하는 것을 선호했다는 점입니다. 2B 모델은 작업을 마치는 데 약 3분이 걸렸습니다.
00:06:02확실히 더 오래 걸렸죠. 최종 결과를 한번 볼까요? 보시다시피
00:06:08디자인이 훨씬 깔끔하고 카페 브랜드 이미지에 가까운 갈색 테마를 사용해서
00:06:14확실히 한 단계 발전한 모습입니다. 또한 Wi-Fi를 켜면
00:06:20외부 아이콘들을 불러와서 사이트가 훨씬 더 완성도 있어 보입니다.
00:06:24그리고 이 버전은 제가 처음에 요청했던 장바구니 기능도 구현하려고 시도했습니다.
00:06:29멋진 장바구니 사이드바가 생겼거든요. 다만 상품 카드에 '장바구니 담기' 버튼은
00:06:35보이지 않네요. 이 문제를 수정하라고 다시 요청했을 때, 또다시 모델이
00:06:41무한 루프에 빠지는 기술적 문제가 발생했습니다. 그래서 이건 LM Studio와 CLINE의
00:06:46호환성 문제일 수도 있겠다는 생각이 들었습니다. 솔직히 말해서
00:06:51복잡하고 진지한 코딩 작업에 이런 소형 모델을 쓸 사람은 없겠죠.
00:06:56저는 그저 이 정도로 적은 파라미터로도 코딩 작업에서 의미 있는 결과를
00:07:02낼 수 있는지 궁금해서 테스트해 본 것입니다. 자, 이제 더 흥미로운 걸 해보죠.
00:07:07아이폰 14 프로에서 이 모델들을 실행해 보겠습니다. 이를 위해 Swift와
00:07:14MLX Swift 프레임워크를 사용해 네이티브 iOS 앱을 만들었습니다. MLX는
00:07:22애플 실리콘의 통합 메모리 아키텍처에서 모델을 직접 실행할 수 있게 해주는 애플의 오픈 소스 라이브러리입니다.
00:07:29Metal GPU를 활용해 하드웨어 가속으로 Qwen 모델을 기기에서 바로 돌릴 수 있죠.
00:07:34여러분이 직접 다운로드해서 컴파일해 볼 수 있도록 설명란에 이 Swift 프로젝트 리포지토리 링크를 남겨두겠습니다.
00:07:40앱을 열자마자 0.8B 모델 다운로드가 시작됩니다.
00:07:46다운로드가 완료되면 이제 사용할 준비가 끝났습니다. 프롬프트를 입력하기 전에
00:07:52아이폰을 비행기 모드로 전환하겠습니다. 간단하게 “Hello”라고 시작해 보죠.
00:07:58웬일인지 자기 이름이 'Alex'라고 대답하네요. 좀 뜬금없지만 알겠습니다. 그런데
00:08:04응답이 출력되는 속도 보셨나요? 이 모델이 실시간으로 답변하는 속도에
00:08:10정말 깜짝 놀랐습니다. 이제 대부분의 모델이 자주 틀리는 유명한 '세차 테스트'를 해보죠.
00:08:17보세요, Qwen 3.5가 정답을 맞혔습니다. 벌써부터 인상적이네요.
00:08:23이 모델들의 가장 멋진 점은 비전 기능도 사용할 수 있다는 것입니다. 이제
00:08:29바나나 사진을 보여주겠습니다. 이게 무엇인지, 어떤 상태인지 이해하는지 보죠.
00:08:35바나나라는 것은 정확히 식별했는데, 'dog banana'라고 하네요.
00:08:40그런 용어는 들어본 적이 없는데 말이죠. Qwen이 대체 무슨 소리를 하는 걸까요?
00:08:47어쨌든 모델은 바나나가 너무 익었다고 생각합니다. 먹기에 안전하지 않을 수 있다고
00:08:52경고하는데, 사실이 아닙니다. 오늘 아침에 먹었는데 아주 맛있었거든요. 하지만
00:08:58프롬프트를 처리하고 응답을 내놓는 속도가 정말 빠르다는 점에 다시 한번 놀랐습니다.
00:09:04다른 사진도 해보죠. 사진 속 강아지의 품종을 맞힐 수 있는지
00:09:09확인해 보겠습니다. 여기서는 정확도가 좀 떨어지는데, 강아지가
00:09:15두 마리라고 생각하네요. 실제론 한 마리인데 말이죠. 품종도 언급하지 않았습니다. 그래서 무슨 품종인지
00:09:20다시 물어보니 골든 리트리버라고 대답합니다. 실제 모습과는 거리가 아주 멀죠.
00:09:27응답 중 일부가 정확하지 않거나 웃긴 답변들이 있긴 하지만,
00:09:34이렇게 작은 모델이 이미지 내용을 추론하고 아주 빠르게 결과물을 낸다는 점은
00:09:39여전히 감동적입니다. 마지막으로 테스트하고 싶은 것은 벤치마크에서 극찬했던
00:09:45OCR 능력입니다. 특히 이미지에 표시된 텍스트가 어떤 언어인지
00:09:50맞힐 수 있는지 보고 싶습니다. 배경 설명을 드리자면,
00:09:55제 고향인 라트비아의 언어, 즉 라트비아어입니다.
00:10:00안타깝게도 Qwen은 슬로베니아어라고 답하며 테스트에 실패했습니다. 라트비아어는
00:10:05슬로베니아어와 전혀 비슷하지 않거든요. 게다가 어떤 단어를
00:10:11실제 있지도 않은 단어로 아주 자신 있게 번역하는 모습이 웃기기까지 합니다.
00:10:19확실히 이 응답에는 심한 환각 현상이 있네요. 이제 2B 파라미터 모델로
00:10:25넘어가 보죠. 드롭다운을 바꾸면 먼저 다운로드를 시작합니다.
00:10:30완료되면 동일한 테스트를 진행해 성능이 얼마나 개선되었는지 보겠습니다.
00:10:36다시 가벼운 인사부터 해보죠. 적어도 이번엔 자기를 'Alex'라고 하진 않네요.
00:10:42시작이 좋습니다. 세차 테스트도 다시 해보겠습니다. 이번에도 역시
00:10:47무난하게 통과했습니다. 잘하네요. 이제 바나나 사진입니다.
00:10:53이번엔 더 의미 있는 답변이 나왔습니다. 바나나라는 것을 감지했고,
00:11:00상태에 대해서도 완전히 익어서 먹기에 적당하다고 답했습니다. 이건 정답이죠. 강아지 사진도
00:11:06다시 해볼까요? 이번엔 포메라니안이라고 하네요. 두 품종이
00:11:11비슷하지도 않은데 말이죠. 아쉽게도 2B 모델 역시 강아지 품종 식별은 잘 못합니다.
00:11:18마지막으로 텍스트 사진을 다시 보여주고 언어를 맞힐 수 있는지 보겠습니다.
00:11:22보세요! 2B 파라미터 모델은 이 텍스트가 라트비아어라는 것을
00:11:29정확히 맞혔습니다. 정말 멋지네요. 자, 지금까지 Qwen 3.5 소형 모델 시리즈를 살펴봤습니다.
00:11:36소소한 오류들은 있지만, 제가 사용해 본 소형 모델 중 단연 가장 강력합니다.
00:11:42오픈 소스 네이티브 멀티모달 LLM을 아이폰 14 프로에서 오프라인으로 실행하고,
00:11:49빠른 속도로 의미 있는 결과를 얻을 수 있다는 사실이 정말 놀랍습니다.
00:11:55Qwen 팀이 이번에 정말 큰 일을 해냈네요. 대단합니다. 그런데
00:12:01조금 씁쓸한 소식도 전해드려야 할 것 같습니다. 영상을 마무리하던 중 알리바바가
00:12:07Qwen 팀을 대대적으로 개편한다는 소식이 들려왔습니다. 핵심 리더들과
00:12:13주요 엔지니어들이 회사를 떠나 각자의 AI 스타트업을 세우기 위해 나갔다고 합니다.
00:12:18이 때문에 Qwen의 급격한 혁신이 멈추는 게 아니냐는 우려가 커지고 있습니다.
00:12:24그래서 이 모델들이 이 특정 팀이 내놓는 마지막 주요 릴리스가 될 수도 있어 더 각별하게 느껴지네요.
00:12:30이번 소형 모델 시리즈에 대해 어떻게 생각하시나요? 직접 써보셨나요? 아니면 써보실 계획인가요?
00:12:35댓글로 알려주세요. 여러분, 이런 방식의
00:12:39기술 분석 영상이 좋으셨다면 영상 하단의 좋아요 버튼을 꼭 눌러주세요.
00:12:45구독하는 것도 잊지 마시고요. 지금까지 Better Stack의 Andres였습니다.
00:12:50다음 영상에서 뵙겠습니다.

Key Takeaway

Qwen 3.5 소형 모델 시리즈는 파라미터 크기의 한계를 뛰어넘는 지능 밀도와 멀티모달 능력을 갖추어, 스마트폰과 구형 노트북에서도 강력한 로컬 AI 환경을 구현할 수 있음을 입증했습니다.

Highlights

알리바바의 Qwen 3.5 소형 모델(0.8B, 2B)은 높은 지능 밀도를 자랑하며 온디바이스 실행에 최적화됨

0.8B 모델은 2023년의 Llama 2 7B 모델에 필적하는 벤치마크 성능을 보여줌

262K의 거대한 컨텍스트 창을 지원하여 긴 문서나 대규모 코드 분석이 가능함

M2 맥북과 아이폰 14 프로에서 인터넷 연결 없이 로컬로 구동되는 멀티모달 성능 확인

코딩 테스트에서 2B 모델이 0.8B보다 디자인과 기능 구현 면에서 우수한 결과 도출

아이폰 앱을 통한 실시간 비전 테스트에서 사물 식별 및 OCR 능력의 가능성과 한계 노출

Qwen 개발 팀의 핵심 인력 이탈 소식으로 향후 모델 혁신 지속성에 대한 우려 제기

Timeline

Qwen 3.5 소형 모델의 특징과 등장 배경

최근 인터넷에서 큰 화제가 되고 있는 알리바바의 Qwen 3.5 소형 모델 시리즈를 소개합니다. 이 모델들은 0.8B와 2B라는 매우 작은 파라미터 크기에도 불구하고 네이티브 멀티모달 성능을 갖추고 있습니다. '지능 밀도'라는 개념을 핵심으로 하여, 과거에는 거대 모델만 가능했던 추론과 비전 작업을 소형 모델에서도 가능하게 만들었습니다. 이를 통해 6년 된 노트북이나 최신 스마트폰에서 인터넷 연결 없이 로컬로 AI를 실행할 수 있는 시대가 열렸습니다. 발표자는 이번 영상에서 M2 맥북 프로와 아이폰 14 프로를 활용한 직접적인 테스트를 예고하며 기대감을 높입니다.

벤치마크 점수 비교 및 주요 스펙 분석

모델의 객관적인 성능을 확인하기 위해 MMLU와 OCRBench 등 주요 벤치마크 데이터를 살펴봅니다. 놀랍게도 0.8B 모델은 과거 Llama 2 7B 모델과 비슷한 수준의 이해 능력을 보여주며 파라미터 대비 압도적인 효율성을 증명했습니다. 특히 비전 성능에서는 OCRBench 점수가 매우 높게 나타나 복잡한 문서 분석에 강점이 있음을 시사합니다. 또한 262K라는 방대한 컨텍스트 창을 지원한다는 점은 소형 모델로서는 매우 이례적이고 강력한 특징입니다. 이러한 스펙은 PDF 전체 분석이나 대규모 코드베이스 작업을 로컬 환경에서 수행할 수 있는 밑바탕이 됩니다.

로컬 코딩 테스트: 0.8B vs 2B 모델 비교

LM Studio와 VS Code의 CLINE을 연동하여 오프라인 상태에서 웹사이트 제작 테스트를 진행합니다. 0.8B 모델은 빠르게 결과물을 내놓았지만 디자인이 단조롭고 이미지 링크가 정확하지 않는 등 실제 업무에 쓰기에는 한계가 있었습니다. 반면 2B 모델은 작업을 시작하기 전 계획을 먼저 세우는 신중함을 보였으며, 결과물 또한 훨씬 깔끔한 디자인과 장바구니 기능을 포함했습니다. 다만 테스트 과정에서 무한 루프에 빠지는 등 기술적인 호환성 문제가 일부 발견되기도 했습니다. 이 실험은 아주 작은 모델로도 기본적인 코딩 구조를 생성할 수 있다는 가능성을 확인하는 데 큰 의의가 있습니다.

아이폰 14 프로에서의 온디바이스 실행 및 비전 테스트

애플의 MLX Swift 프레임워크를 사용하여 아이폰에서 Qwen 모델을 직접 구동하는 네이티브 앱 테스트를 수행합니다. 비행기 모드에서도 모델이 즉각적으로 응답하는 속도는 매우 인상적이며, 유명한 논리 퀴즈인 세차 테스트도 무난히 통과했습니다. 하지만 비전 기능에서는 0.8B 모델이 바나나 사진을 잘못 설명하거나 강아지 품종을 맞히지 못하는 등 '환각 현상'이 목격되었습니다. 특히 라트비아어를 슬로베니아어로 착각하는 등 소형 모델이 가진 지식의 한계가 명확히 드러나기도 했습니다. 실시간 속도는 놀랍지만 복잡한 시각적 추론에는 아직 개선의 여지가 있음을 보여주는 구간입니다.

2B 모델 성능 확인 및 Qwen 팀의 향후 전망

2B 모델로 동일한 테스트를 진행했을 때, 비전 식별 능력과 OCR 정확도가 현저히 개선되는 것을 확인할 수 있었습니다. 특히 0.8B 모델이 실패했던 라트비아어 텍스트 분석을 2B 모델은 정확하게 성공해내며 파라미터 증가에 따른 성능 향상을 입증했습니다. 영상의 마무리 부분에서는 알리바바 Qwen 팀의 핵심 인력들이 스타트업 창업을 위해 퇴사했다는 안타까운 소식을 전합니다. 이로 인해 Qwen의 혁신적인 업데이트가 이번 모델을 끝으로 주춤해질 수 있다는 우려가 커지고 있습니다. 발표자는 시청자들에게 소형 모델의 활용 가능성에 대한 의견을 물으며 영상을 마칩니다.

Community Posts

View all posts