내 노트북에서 가장 빠른 비전 모델 (Liquid AI LFM 2.5)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00강력한 비전 언어 모델을 실행하려면 고성능 GPU나
00:00:05유료 클라우드 서비스가 필요하다고 생각하는 분들이 많습니다.
00:00:08하지만 최근 Liquid AI가 웹 브라우저에서 완전히 실행되는
00:00:14최신 LFM 모델의 데모를 공개했습니다.
00:00:16WebGPU와 ONNX 런타임을 사용해 이미지와 영상을 로컬에서 처리하죠.
00:00:23즉, 데이터가 컴퓨터 외부로 유출되지 않으며 모델 캐싱 후에는
00:00:28인터넷 연결조차 필요하지 않다는 뜻입니다.
00:00:30정말 멋진 기술이라고 생각하는데요, 이번 영상에서는
00:00:34이 모델이 어떻게 작동하는지 테스트해 보며 광고만큼 강력한지
00:00:40직접 확인해 보겠습니다.
00:00:41재미있는 시간이 될 것 같으니 바로 시작해 보죠.
00:00:48먼저 LFM은 Liquid Foundation Model의 약자입니다.
00:00:52Liquid AI는 트랜스포머 구조에만 의존하지 않고 하이브리드 설계를 사용합니다.
00:00:58컨볼루션 블록과 "Grouped Query Attention"을 결합한 방식이죠.
00:01:0316억 개의 파라미터를 가진 이 모델은 비전과 언어 처리에 특화되었습니다.
00:01:0928조 개의 거대한 토큰 데이터셋으로 학습되어 체급 이상의
00:01:15성능을 보여줍니다.
00:01:16벤치마크에서는 크기가 두 배인 모델과 대등한 성능을 보이면서도,
00:01:21노트북이나 스마트폰 같은 에지 기기에서 훨씬 빠르게 작동합니다.
00:01:26그렇다면 어떻게 이 정도 수준의 지능을 1GB 미만의
00:01:31램(RAM)에서 돌아가는 패키지로 압축할 수 있었을까요?
00:01:34거대 클라우드 모델을 깎거나 압축한 다른 소형 모델들과 달리,
00:01:40Liquid AI는 "설계에 의한 효율성"이라는 철학을 따릅니다.
00:01:44이름 속 "Liquid"는 선형 입력 가변 아키텍처(LIV)를 의미합니다.
00:01:51기존 트랜스포머는 대화가 길어질수록 메모리 사용량이 늘어나지만,
00:01:56Liquid 모델은 적응형 컨볼루션 블록의 하이브리드 시스템을 사용합니다.
00:02:01이 블록들은 스마트 필터처럼 작동하여 가장 관련성 높은 지역 정보만 처리하고,
00:02:07모델을 통과하는 데이터를 효과적으로 압축합니다.
00:02:11덕분에 LFM은 기존 트랜스포머에서 나타나는 기하급수적인 속도 저하나
00:02:18메모리 급증 없이도 32,000토큰의 거대한 컨텍스트 창을 유지합니다.
00:02:23또한 이 모델을 돋보이게 하는 구체적인 기술적 세부 사항들이 있습니다.
00:02:28첫째로 네이티브 해상도를 지원합니다.
00:02:30최대 512x512 픽셀의 이미지를 왜곡이나 업스케일링 없이 처리하죠.
00:02:37더 큰 이미지는 타일링 전략을 사용해 패치로 나누면서도,
00:02:42전체 맥락 파악을 위한 썸네일 정보는 유지합니다.
00:02:46둘째로 매우 효율적입니다.
00:02:47하이브리드 구조 덕분에 메모리 점유율이 매우 낮아,
00:02:52종종 1GB 미만의 RAM 환경에서도 실행됩니다.
00:02:54하지만 가장 인상적인 것은 WebGPU 통합입니다.
00:02:58Hugging Face 스페이스 데모에서 실시간 웹캠 캡셔닝 기능을 보여줍니다.
00:03:04그럼 성능이 얼마나 좋은지 직접 확인해 볼까요?
00:03:08좋습니다, 실제로 어떻게 작동하는지 보죠.
00:03:11먼저 불러올 비전 모델을 선택해야 할 것 같네요.
00:03:15가장 강력한 FP16 모델을 시도해 보겠습니다.
00:03:18모델을 로드해 보죠.
00:03:20모델 다운로드에 꽤 시간이 걸리네요.
00:03:23이 모든 것이 현재 기기에 다운로드되고 있습니다.
00:03:25다음에 앱을 열 때는 모두 캐싱되어 있을 겁니다.
00:03:28좋습니다.
00:03:29이제 FP16 양자화 모델 다운로드가 끝났습니다.
00:03:34시작 버튼을 누르고 어떻게 작동하는지 보죠.
00:03:36오, 보세요.
00:03:38수염을 기르고 후드티를 입은 남자가 카메라를 보고 있다고 나옵니다.
00:03:40영상에 어떤 사물들이 있는지 감지해내는데,
00:03:45정말 멋지네요.
00:03:46객체 탐지 기능도 가능한지 보죠.
00:03:50핸드폰을 인식하는지 볼까요?
00:03:51네, 제가 검은색 케이스의 아이폰을 들고 있다는 걸 알아차렸습니다.
00:03:57대단하네요.
00:03:58보이시나요?
00:04:00정말 실시간으로 처리하고 있어요.
00:04:02감탄이 절로 나옵니다.
00:04:04이건 어떨까요?
00:04:05손으로 브이(peace sign)를 그리는 걸 인식할까요?
00:04:10정말 신기하네요.
00:04:12엄지척을 해보면요?
00:04:13네, 엄지척을 인식했습니다.
00:04:15모델이 제가 하는 모든 동작을 실시간으로 감지합니다.
00:04:18제 마이크도 인식하는지 확인해 보죠.
00:04:21오, 마이크에 'Rode'라고 적힌 것까지 인식하네요.
00:04:24와, 케이스에 적힌 텍스트까지 읽다니 정말 놀랍습니다.
00:04:29실시간으로 이런 캡션이 생성된다는 사실이
00:04:33이 모델의 강력함을 증명해 줍니다.
00:04:35인터넷 연결을 끊어도 작동하는지 테스트해 보겠습니다.
00:04:40이제 와이파이를 껐는데, 여전히 입력 결과가 잘 나옵니다.
00:04:50정말 굉장하네요.
00:04:51여기까지입니다.
00:04:52이것이 최신 Liquid Foundation Model의 핵심입니다.
00:04:56양자화 기술과 제 노트북 같은 에지 기기에서 모델을 돌리는 기술이
00:05:01얼마나 발전했는지 정말 인상 깊습니다.
00:05:05불과 2년 전만 해도 이런 게 현실이 될 거라 믿기 힘들었지만,
00:05:10이제 WebGPU에서 이런 모델을 돌리는 게 점점 흔해지고 있습니다.
00:05:14여러분은 Liquid Foundation Model에 대해 어떻게 생각하시나요?
00:05:16직접 사용해 보셨나요?
00:05:17앞으로 활용하실 계획인가요?
00:05:18이런 모델의 가장 좋은 활용 사례는 무엇일까요?
00:05:21아래 댓글 섹션에 여러분의 생각을 공유해 주세요.
00:05:23이런 기술 분석 영상이 좋으셨다면 영상 아래의
00:05:27'좋아요' 버튼을 눌러주시고 채널 구독도 잊지 마세요.
00:05:32지금까지 Better Stack의 Andris였으며, 다음 영상에서 뵙겠습니다.

Key Takeaway

Liquid AI의 LFM 2.5는 하이브리드 설계를 통해 저사양 에지 기기에서도 인터넷 연결 없이 강력한 실시간 비전 및 언어 처리 성능을 제공하는 혁신적인 모델입니다.

Highlights

Liquid AI가 공개한 LFM(Liquid Foundation Model) 2.5의 웹 브라우저 로컬 실행 성능 분석

WebGPU와 ONNX 런타임을 활용하여 외부 데이터 유출 없이 오프라인 환경에서도 작동

트랜스포머의 한계를 극복하기 위해 컨볼루션 블록과 Grouped Query Attention을 결합한 하이브리드 설계 채택

1.6B 파라미터 모델임에도 불구하고 28조 개의 토큰으로 학습되어 체급 이상의 성능 발휘

1GB 미만의 RAM 환경에서도 실행 가능하며 32,000토큰의 거대한 컨텍스트 창 유지

실시간 웹캠 테스트를 통해 객체 인식, 동작 감지, 텍스트 읽기 등 뛰어난 비전 성능 확인

인터넷 연결을 차단한 상태에서도 모델이 정상적으로 작동하는 강력한 로컬 처리 능력 입증

Timeline

로컬 실행 비전 모델 LFM 2.5 소개

고성능 GPU나 유료 클라우드 없이도 강력한 비전 언어 모델을 실행할 수 있는 Liquid AI의 신기술을 소개합니다. WebGPU와 ONNX 런타임을 사용하여 웹 브라우저 내에서 완전히 로컬로 실행되므로 데이터 유출 걱정이 없습니다. 모델 캐싱 이후에는 인터넷 연결조차 필요하지 않아 프라이버시와 편의성을 동시에 잡았습니다. 이번 영상에서는 이 모델이 실제로 광고만큼 강력한지 직접 테스트해보는 과정을 담고 있습니다. 사용자들에게 노트북만으로도 고성능 AI를 누릴 수 있다는 가능성을 제시하며 시작합니다.

LFM의 하이브리드 아키텍처와 효율성

LFM은 Liquid Foundation Model의 약자로, 기존 트랜스포머 구조에만 의존하지 않는 독특한 하이브리드 설계를 가집니다. 컨볼루션 블록과 Grouped Query Attention을 결합하여 16억 개의 파라미터로도 훨씬 큰 모델들과 대등한 성능을 보여줍니다. 특히 "설계에 의한 효율성"을 강조하며 1GB 미만의 RAM에서도 구동될 만큼 가벼운 패키징을 실현했습니다. 적응형 컨볼루션 블록은 스마트 필터처럼 작동하여 데이터 압축을 효과적으로 수행합니다. 덕분에 메모리 급증 없이도 32,000토큰이라는 광범위한 맥락 정보를 유지할 수 있는 것이 핵심입니다.

구체적인 기술적 세부 사항과 기능

모델의 구체적인 성능 지표로 최대 512x512 픽셀의 이미지를 왜곡 없이 처리하는 네이티브 해상도 지원 기능을 설명합니다. 더 큰 이미지는 타일링 전략을 통해 패치로 나누어 처리하면서도 전체 맥락을 위한 썸네일 정보를 보존합니다. 낮은 메모리 점유율 덕분에 저사양 기기에서도 원활하게 작동하며 WebGPU 통합을 통해 웹 환경에서의 접근성을 높였습니다. Hugging Face 스페이스 데모를 통해 실시간 웹캠 캡셔닝이 가능하다는 점을 강조합니다. 이는 복잡한 설정 없이 브라우저만으로 고수준의 비전 처리가 가능하다는 기술적 성취를 보여줍니다.

실시간 성능 테스트 및 객체 인식 확인

실제로 FP16 양자화 모델을 로드하여 사용자의 모습과 주변 환경을 실시간으로 분석하는 테스트를 진행합니다. 모델은 화면 속 인물의 외양뿐만 아니라 아이폰과 같은 특정 객체를 정확하게 식별해냅니다. 사용자의 손동작인 브이(Peace sign)나 엄지척을 즉각적으로 감지하며 놀라운 반응 속도를 보여줍니다. 특히 마이크 케이스에 적힌 'Rode'라는 작은 텍스트까지 읽어내는 고해상도 인식 능력을 입증합니다. 이러한 실시간 캡셔닝 기능은 모델이 실제 환경의 복잡한 데이터를 얼마나 정교하게 처리하는지 증명하는 사례입니다.

오프라인 작동 확인 및 기술의 미래

인터넷 와이파이 연결을 완전히 끊은 상태에서도 모델이 끊김 없이 작동하는 모습을 통해 진정한 로컬 AI의 가치를 보여줍니다. 화자는 불과 2년 전만 해도 상상하기 힘들었던 기술이 이제 노트북 브라우저에서 흔하게 구현되고 있음에 감탄합니다. 에지 기기에서 돌아가는 양자화 기술과 하이브리드 모델의 발전이 AI 대중화를 이끌고 있음을 시사합니다. 마지막으로 시청자들에게 이 모델의 활용 사례에 대한 의견을 물으며 기술 분석을 마무리합니다. 이는 단순한 기술 소개를 넘어 향후 AI 개발 방향에 대한 통찰을 제공하는 결론이라 할 수 있습니다.

Community Posts

View all posts