Gemini 3.5 Flash는 그냥... 적당하네요

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Google이 방금 Gemini 3.5 Flash를 출시했고 꽤 대담한 주장을 내놓았습니다. 최첨단
00:00:04성능을 4배 더 빠른 속도로, 종종 절반 이하의 비용으로 제공한다는 것이죠. 모두
00:00:09들리기엔 놀랍지만, 실제로는 구글의 광고보다 훨씬 더 좋지 않습니다.
00:00:12그리고 그건 발표 내용의 절반일 뿐입니다. 그들은 또한 Anti-Gravity 2를 출시했는데,
00:00:16이는 그들의 새로운 독립형 에이전트 앱으로, 기본적으로 Codex에 대한 그들의 답변이며, 또한 Anti-Gravity
00:00:20CLI도 출시했습니다. 이건 사실 기존 Gemini CLI를 대체하는 것이라, 'Killed by Google' 리스트에 또 하나가 추가되겠네요.
00:00:30주요 스펙부터 시작해보죠. 이건 100만 토큰의 컨텍스트 윈도우와 64,000개의
00:00:34출력 토큰을 가지며, 텍스트, 이미지, 비디오, 오디오 및 PDF를 입력으로 받습니다. 구글은
00:00:39항상 이런 멀티모달 모델을 꽤 잘 만들어왔습니다.
00:00:42실제 성능에 관해서는, 구글 자체 벤치마크상 이 모델은 GPT 5.5와 대등한 수준이며,
00:00:46코딩에 있어서는 SWBench Pro와 Terminal
00:00:50Bench에서 불과 몇 퍼센트 뒤처져 있을 뿐입니다. 사실 Terminal Bench에서는 Opus 4.7을 10% 정도 앞서기도 하지만, Claude
00:00:56Opus는 SWBench Pro에서 다시 Gemini를 10% 정도 앞서며 반격합니다.
00:01:01에이전트 워크플로우의 경우, 이 모델은 MCP와 Toolathon 벤치마크 모두에서 실제로 이기고 있으며,
00:01:06전반적으로 이런 벤치마크 결과는 나쁘지 않지만, 이 모든 것은 구글의 주장일 뿐입니다.
00:01:11대신 'Artificial Analysis' 같은 제3자 벤치마크를 살펴보면, 그다지
00:01:15좋은 성적은 아닙니다. 해당 코딩 지수에서 Gemini 3.5 Flash는 45점을 기록했는데, 이는 실제로 Kimi K2.6 같은 모델보다도 낮으며,
00:01:21구글 자체 벤치마크에서는 모든 항목에서 앞섰던 Gemini 3.1 Pro조차 이기지 못하고 있습니다.
00:01:27심지어 기존 Gemini 3 Flash보다도 단 몇 점 앞서 있을 뿐입니다.
00:01:31그렇습니다.
00:01:32에이전트 성능을 보면 이야기가 조금 더 나아지긴 합니다. Gemini 3.1 Pro보다
00:01:35좋은 도약을 보여주었고, 네, 기술적으로는 최첨단 모델들과 경쟁할 만한 수준입니다.
00:01:41그렇죠.
00:01:42저희 벤치마크를 보면 시청자분들의 75%가 구독을 하지 않으셨더군요.
00:01:45부탁드리고 싶네요. 구독 부탁드립니다.
00:01:48이 모델의 핵심 장점은 단연 속도입니다. 초당 278토큰을
00:01:53뽑아내는데, 이는 Opus 4.7이나 GPT 5.5, 심지어 Haiku나 오픈 소스 OpenAI 모델들을
00:01:59압도하는 수준입니다. 그러니 지능 대 속도 측면에서 보면,
00:02:04이 모델이 단연 최고입니다.
00:02:06전반적으로 결과가 섞여 있습니다. 최고의 모델도 아니고 최악도 아니지만,
00:02:10정말 정말 빠릅니다. 다른 모델들의 절반 가격이라면 이 결과들을 감수하겠지만,
00:02:14바로 여기서 문제가 발생하기 시작합니다.
00:02:18이 모델의 가격은 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 9달러입니다.
00:02:23이건 Gemini 3 Flash보다 3배 더 비싼 수준입니다. 하지만 여전히
00:02:27Opus 4.7이나 GPT 5.5보다는 훨씬 저렴합니다. 적어도 서류상으로는 그렇다는 거죠.
00:02:32하지만 실제로 벤치마크를 돌려보면, Artificial Analysis는 Gemini 3.5 Flash의
00:02:36지능 지수 실행 비용이 1,552달러라는 것을 발견했습니다. 이는 Gemini 3 Flash보다
00:02:425.5배 더 비싸고, Gemini 3.1 Pro보다도 75% 더 비싼 금액입니다. 더 최악인 점은
00:02:48코딩 성능에서 Flash를 압도하는 GPT 5.5의 고성능 추론 비용보다도 비싸다는 겁니다.
00:02:54사실 코딩 성능 면에서 Flash보다 더 저렴하고 더 뛰어난 모델들을 이 차트에서
00:02:57전부 강조해서 보여드리고 싶을 정도입니다. 상황이 전혀 좋아 보이지 않으며,
00:03:02마케팅에서 주장한 절반 가격은 확실히 아닙니다.
00:03:06좀 더 깊이 파고들어 보면, 이 모델의 문제는 빠르긴 하지만
00:03:10토큰을 너무 많이 잡아먹는다는 점입니다. 에이전트 평가에서 작업당 평균 49번의 턴을 소모했는데,
00:03:15테스트한 모델 중 가장 높은 수준이었습니다. 입력 토큰을 정말 순식간에
00:03:19태워버립니다. 그래서 전반적으로 이게 우리에게 무엇을 의미하는지 잘 모르겠습니다. 이 모델은
00:03:23그냥 그저 그렇습니다. 속도는 정말 멋지니 다른 것보다 속도를 중요하게 생각한다면,
00:03:28이 모델을 써볼 만할지도 모릅니다. 멀티모달 기능이 뛰어나길 원한다면 똑같겠죠. 하지만
00:03:33코딩 성능은 제가 이 영상에서 테스트한 것보다 더 긴 시간 동안 고려해 볼 정도는 아니었습니다.
00:03:37그러니 이제 다른 큰 발표였던 Anti-Gravity 2와 새로운 CLI에 대해 이야기해보죠.
00:03:41이게 Anti-Gravity 2인가요? 아, 죄송합니다, 이건 T3 코드네요. 그럼 이건가? 아니요,
00:03:44이건 Codecs네요. 그럼 이건? 아니요, 이건 Cursor입니다. 이게 진짜 Anti-Gravity 2입니다. 제
00:03:50말이 무슨 뜻인지 아시겠죠. 기본적으로 이 모든 앱이 똑같이 생겨졌습니다.
00:03:55우리 데모 중 재밌는 부분은 개발자가 새 프로젝트를 만들려 할 때
00:03:59Codecs 폴더가 바로 보인다는 점입니다. 솔직히 말해서
00:04:03이 앱을 살펴보는 데 시간을 많이 쓰지는 않겠습니다. 다른 앱들과 완전히 똑같습니다. 왼쪽에
00:04:07대화 내용이 있고, 프로젝트, 예정된 작업들이 있으며, 여기 클릭하면
00:04:11Diff 뷰를 볼 수 있는 파일들을 확인할 수 있습니다. 유일하게 참고할 점은
00:04:15이게 더 이상 Anti-Gravity IDE가 아니라는 겁니다. 그냥 완전히 독립적인 앱입니다. 보고 계신 게
00:04:18전부입니다. 저는 몇 가지 테스트 프롬프트를 시도해 봤습니다. 그중 하나는
00:04:22풀스택 개인 금융 대시보드를 만드는 것이었고, 다른 하나는 훨씬 간단하게
00:04:26단일 index.html 파일로 카페 웹사이트를 만들어달라는 UI 테스트였습니다.
00:04:30이게 그 간단한 카페 프롬프트의 결과인데, 제가 보기엔 이 사이트가
00:04:35꽤 잘 만들어져서 3.5 Flash가 UI 디자인에 꽤 유능한 것 같네요.
00:04:39전반적으로 매우 훌륭한 사이트입니다. 여전히 AI 느낌이 살짝
00:04:44남아있긴 합니다. 요즘 AI가 좋아하는 카드와 그라데이션 스타일 때문인 것 같은데,
00:04:48사이트는 꽤 기능적이고 제가 예상한 대로 보입니다. 참고로,
00:04:53이건 제가 똑같은 프롬프트를 Opus 4.7에 줬을 때 나온 결과인데, Gemini 3.5
00:04:58Flash가 이 경우에는 이겼다고 생각합니다. 하지만 이건 일회성 테스트일 뿐이죠. 더 복잡한
00:05:03금융 대시보드 풀스택 애플리케이션 프롬프트의 경우, 실제로
00:05:07작동하는 애플리케이션을 만드는 데는 성공했지만, UI 디자인은 영 마음에 들지 않습니다.
00:05:11나쁘진 않지만, AI가 설계한 느낌이 너무 강하게 듭니다.
00:05:16그리고 이름을 'Aura Wealth'라고 지은 건 감점 요인입니다.
00:05:20Opus 4.7이 내놓은 결과와 비교해보면, 차이가 엄청납니다.
00:05:25Opus 4.7의 결과물은 정말 멋져서 솔직히 UI에서 고칠 점을 거의
00:05:29찾을 수가 없었습니다. Opus는 그 프롬프트에 20분을 썼는데 Gemini는
00:05:335분 걸렸죠. 빠르긴 하지만 15분을 더 투자해서 더 예쁘게 만들 수도 있었을 텐데요.
00:05:38그건 넘어가고, Anti-Gravity CLI도 나왔는데 이건 아마
00:05:42Gemini CLI를 종료한다고 해서 사람들을 화나게 할 것 같습니다. 올해 6월 18일 이후로는
00:05:46더 이상 사용할 수 없게 되니까요. 새 CLI는 기본적으로 현재와 동일한데,
00:05:51Go 언어로 재작성되었고, 지금은 클로즈드 소스가 되었습니다. 그건 좀 별로네요.
00:05:56전 이건 설치하지 않았습니다. 어차피 Gemini용 Claude Code일 뿐이니까요.
00:06:00보여드릴 새로운 건 없습니다. 제 생각을 요약하자면, 지금 3.5
00:06:05Flash는 에이전트용으로는 좋지만 비싸고 코딩 성능이 약해서 전체 패키지가 되긴 부족합니다.
00:06:10그래서 다음 달에 나온다는 Gemini 3.5 Pro에서 더 많은 걸 보여주길 기대합니다.
00:06:15하지만 당분간 구글이 코딩 분야의 선두가 될 것 같지는 않습니다. 솔직히
00:06:19꼭 그래야 할 필요도 없어 보이고요. 구글의 시장은 일반 사람들이
00:06:23Gmail, 검색, Workspace, Android 등 모든 경험에 이를 통합하는 것에
00:06:28가까운 것 같습니다. 그러니 개발자가 주 타겟이 아닐 수도 있겠네요. 아래 댓글로
00:06:33생각을 알려주시고, 구독도 부탁드립니다. 항상 그렇듯이,
00:06:36다음 영상에서 뵙겠습니다.

Key Takeaway

Gemini 3.5 Flash는 매우 빠른 처리 속도를 제공하지만, 실제 에이전트 워크플로우 실행 시 높은 비용과 비효율적인 토큰 소모 문제로 인해 개발자를 위한 코딩 도구로서의 경쟁력은 낮다.

Highlights

  • Gemini 3.5 Flash는 100만 토큰의 컨텍스트 윈도우와 64,000개의 출력 토큰을 지원한다.

  • Artificial Analysis 벤치마크 결과, Gemini 3.5 Flash의 지능 지수 실행 비용은 1,552달러로 Gemini 3 Flash 대비 5.5배 비싸다.

  • Gemini 3.5 Flash는 초당 278토큰을 생성하여 속도 측면에서 최상위 수준의 성능을 보인다.

  • 에이전트 작업 실행 시 작업당 평균 49번의 턴을 소모하며 입력 토큰을 빠르게 소진한다.

  • Anti-Gravity 2와 같은 새로운 CLI는 Go 언어로 재작성되어 기존 Gemini CLI를 대체하며 2026년 6월 18일 이후 기존 버전 지원이 종료된다.

Timeline

Gemini 3.5 Flash 스펙 및 벤치마크

  • Gemini 3.5 Flash는 텍스트, 이미지, 비디오, 오디오 및 PDF를 처리하는 멀티모달 모델이다.
  • 구글의 자체 벤치마크와 제3자 벤치마크인 Artificial Analysis 결과 사이에 상당한 성능 격차가 존재한다.
  • 해당 모델은 초당 278토큰의 출력 속도를 내며 지능 대비 속도 측면에서 우위를 점한다.
  • 입력 토큰 100만 개당 1.50달러, 출력 토큰 100만 개당 9달러의 가격 책정은 실제 실행 시 효율성이 떨어진다.

구글은 4배 빠른 속도와 절반의 비용을 주장하며 Gemini 3.5 Flash를 출시했으나, 제3자 데이터는 이를 뒷받침하지 못한다. 코딩 지수 벤치마크에서 45점을 기록하며 이전 버전인 Gemini 3.1 Pro보다 낮은 성적을 보였다. 특히 실제 추론 비용은 마케팅 문구와 달리 기존 모델들보다 높게 측정되었다.

에이전트 성능 분석 및 앱 경험

  • 에이전트 작업당 평균 49번의 턴을 사용하여 토큰 소비량이 지나치게 많다.
  • 간단한 UI 디자인 작업에는 준수한 성능을 보이나 복잡한 풀스택 애플리케이션 설계에는 한계가 있다.
  • 동일한 프롬프트 테스트에서 Claude Opus 4.7이 더 완성도 높은 UI 결과물을 산출했다.

Anti-Gravity 2 앱은 기존의 다른 AI 코딩 IDE들과 유사한 인터페이스를 갖추고 있다. 카페 웹사이트 같은 단순 UI 제작에는 효과적이었으나, 복잡한 개인 금융 대시보드 애플리케이션 생성 시에는 디자인의 품질이 낮았다. Opus 4.7이 더 긴 시간 동안 고품질 결과를 생성하는 반면, Flash는 속도는 빠르지만 결과물의 세련미가 부족하다.

신규 CLI 도구 및 향후 전망

  • 새로운 Anti-Gravity CLI는 Go 언어로 재작성된 클로즈드 소스 모델로 변경되었다.
  • 기존 Gemini CLI는 2026년 6월 18일부로 지원이 중단된다.
  • 구글은 개발자 타겟팅보다는 일반 사용자 대상 서비스 통합에 더 집중하고 있는 것으로 보인다.

기존 CLI 사용자를 대체하는 신규 도구의 출시와 함께 기존 서비스의 종료가 예고되었다. 코드의 비공개 전환은 사용자들의 부정적인 반응을 야기하고 있다. 전반적인 전략을 고려할 때, 구글의 AI 모델들은 개발자를 위한 전문 도구보다는 Gmail이나 Android 등 범용 서비스 경험 개선을 주 목적으로 한다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video