00:00:00강력한 비전 언어 모델을 실행하려면 고성능 GPU나
00:00:05유료 클라우드 서비스가 필요하다고 생각하는 분들이 많습니다.
00:00:08하지만 최근 Liquid AI가 웹 브라우저에서 완전히 실행되는
00:00:14최신 LFM 모델의 데모를 공개했습니다.
00:00:16WebGPU와 ONNX 런타임을 사용해 이미지와 영상을 로컬에서 처리하죠.
00:00:23즉, 데이터가 컴퓨터 외부로 유출되지 않으며 모델 캐싱 후에는
00:00:28인터넷 연결조차 필요하지 않다는 뜻입니다.
00:00:30정말 멋진 기술이라고 생각하는데요, 이번 영상에서는
00:00:34이 모델이 어떻게 작동하는지 테스트해 보며 광고만큼 강력한지
00:00:40직접 확인해 보겠습니다.
00:00:41재미있는 시간이 될 것 같으니 바로 시작해 보죠.
00:00:48먼저 LFM은 Liquid Foundation Model의 약자입니다.
00:00:52Liquid AI는 트랜스포머 구조에만 의존하지 않고 하이브리드 설계를 사용합니다.
00:00:58컨볼루션 블록과 "Grouped Query Attention"을 결합한 방식이죠.
00:01:0316억 개의 파라미터를 가진 이 모델은 비전과 언어 처리에 특화되었습니다.
00:01:0928조 개의 거대한 토큰 데이터셋으로 학습되어 체급 이상의
00:01:15성능을 보여줍니다.
00:01:16벤치마크에서는 크기가 두 배인 모델과 대등한 성능을 보이면서도,
00:01:21노트북이나 스마트폰 같은 에지 기기에서 훨씬 빠르게 작동합니다.
00:01:26그렇다면 어떻게 이 정도 수준의 지능을 1GB 미만의
00:01:31램(RAM)에서 돌아가는 패키지로 압축할 수 있었을까요?
00:01:34거대 클라우드 모델을 깎거나 압축한 다른 소형 모델들과 달리,
00:01:40Liquid AI는 "설계에 의한 효율성"이라는 철학을 따릅니다.
00:01:44이름 속 "Liquid"는 선형 입력 가변 아키텍처(LIV)를 의미합니다.
00:01:51기존 트랜스포머는 대화가 길어질수록 메모리 사용량이 늘어나지만,
00:01:56Liquid 모델은 적응형 컨볼루션 블록의 하이브리드 시스템을 사용합니다.
00:02:01이 블록들은 스마트 필터처럼 작동하여 가장 관련성 높은 지역 정보만 처리하고,
00:02:07모델을 통과하는 데이터를 효과적으로 압축합니다.
00:02:11덕분에 LFM은 기존 트랜스포머에서 나타나는 기하급수적인 속도 저하나
00:02:18메모리 급증 없이도 32,000토큰의 거대한 컨텍스트 창을 유지합니다.
00:02:23또한 이 모델을 돋보이게 하는 구체적인 기술적 세부 사항들이 있습니다.
00:02:28첫째로 네이티브 해상도를 지원합니다.
00:02:30최대 512x512 픽셀의 이미지를 왜곡이나 업스케일링 없이 처리하죠.
00:02:37더 큰 이미지는 타일링 전략을 사용해 패치로 나누면서도,
00:02:42전체 맥락 파악을 위한 썸네일 정보는 유지합니다.
00:02:46둘째로 매우 효율적입니다.
00:02:47하이브리드 구조 덕분에 메모리 점유율이 매우 낮아,
00:02:52종종 1GB 미만의 RAM 환경에서도 실행됩니다.
00:02:54하지만 가장 인상적인 것은 WebGPU 통합입니다.
00:02:58Hugging Face 스페이스 데모에서 실시간 웹캠 캡셔닝 기능을 보여줍니다.
00:03:04그럼 성능이 얼마나 좋은지 직접 확인해 볼까요?
00:03:08좋습니다, 실제로 어떻게 작동하는지 보죠.
00:03:11먼저 불러올 비전 모델을 선택해야 할 것 같네요.
00:03:15가장 강력한 FP16 모델을 시도해 보겠습니다.
00:03:18모델을 로드해 보죠.
00:03:20모델 다운로드에 꽤 시간이 걸리네요.
00:03:23이 모든 것이 현재 기기에 다운로드되고 있습니다.
00:03:25다음에 앱을 열 때는 모두 캐싱되어 있을 겁니다.
00:03:28좋습니다.
00:03:29이제 FP16 양자화 모델 다운로드가 끝났습니다.
00:03:34시작 버튼을 누르고 어떻게 작동하는지 보죠.
00:03:36오, 보세요.
00:03:38수염을 기르고 후드티를 입은 남자가 카메라를 보고 있다고 나옵니다.
00:03:40영상에 어떤 사물들이 있는지 감지해내는데,
00:03:45정말 멋지네요.
00:03:46객체 탐지 기능도 가능한지 보죠.
00:03:50핸드폰을 인식하는지 볼까요?
00:03:51네, 제가 검은색 케이스의 아이폰을 들고 있다는 걸 알아차렸습니다.
00:03:57대단하네요.
00:03:58보이시나요?
00:04:00정말 실시간으로 처리하고 있어요.
00:04:02감탄이 절로 나옵니다.
00:04:04이건 어떨까요?
00:04:05손으로 브이(peace sign)를 그리는 걸 인식할까요?
00:04:10정말 신기하네요.
00:04:12엄지척을 해보면요?
00:04:13네, 엄지척을 인식했습니다.
00:04:15모델이 제가 하는 모든 동작을 실시간으로 감지합니다.
00:04:18제 마이크도 인식하는지 확인해 보죠.
00:04:21오, 마이크에 'Rode'라고 적힌 것까지 인식하네요.
00:04:24와, 케이스에 적힌 텍스트까지 읽다니 정말 놀랍습니다.
00:04:29실시간으로 이런 캡션이 생성된다는 사실이
00:04:33이 모델의 강력함을 증명해 줍니다.
00:04:35인터넷 연결을 끊어도 작동하는지 테스트해 보겠습니다.
00:04:40이제 와이파이를 껐는데, 여전히 입력 결과가 잘 나옵니다.
00:04:50정말 굉장하네요.
00:04:51여기까지입니다.
00:04:52이것이 최신 Liquid Foundation Model의 핵심입니다.
00:04:56양자화 기술과 제 노트북 같은 에지 기기에서 모델을 돌리는 기술이
00:05:01얼마나 발전했는지 정말 인상 깊습니다.
00:05:05불과 2년 전만 해도 이런 게 현실이 될 거라 믿기 힘들었지만,
00:05:10이제 WebGPU에서 이런 모델을 돌리는 게 점점 흔해지고 있습니다.
00:05:14여러분은 Liquid Foundation Model에 대해 어떻게 생각하시나요?
00:05:16직접 사용해 보셨나요?
00:05:17앞으로 활용하실 계획인가요?
00:05:18이런 모델의 가장 좋은 활용 사례는 무엇일까요?
00:05:21아래 댓글 섹션에 여러분의 생각을 공유해 주세요.
00:05:23이런 기술 분석 영상이 좋으셨다면 영상 아래의
00:05:27'좋아요' 버튼을 눌러주시고 채널 구독도 잊지 마세요.
00:05:32지금까지 Better Stack의 Andris였으며, 다음 영상에서 뵙겠습니다.