00:00:00이메일이나 PDF, 대화 스크립트를 구조화된 데이터로 바꾸려다가
00:00:04일이 금세 꼬여버린 경험, 다들 한 번쯤 있으실 겁니다.
00:00:07다들 앱을 만드는 게 어려운 부분이라고 생각하시죠.
00:00:09하지만 아닙니다.
00:00:10진짜 문제는 텍스트예요. 현실 데이터의 상당수는 비구조화되어 있고,
00:00:15대부분의 데이터 파이프라인이 바로 이 지점에서 무너집니다.
00:00:16보통은 인력을 늘리거나 NLP 기술을 더 투입하려 하겠지만,
00:00:21어떤 개발자들은 정반대의 길을 선택하고 있습니다.
00:00:22바로 'Lang Extract'입니다.
00:00:23조용히, 하지만 빠르게 성장 중인 구글의 무료 오픈소스 도구죠.
00:00:27저희는 관련 영상을 계속해서 올리고 있으니,
00:00:29구독하는 것 잊지 마세요.
00:00:32자, Lang Extract라고 하면 흔한 추출 라이브러리처럼 들릴 수도 있고,
00:00:40언뜻 보면 실제로 그렇기도 합니다. 하지만 차이점은 여기서 나옵니다.
00:00:43Lang Extract는 Gemini나 GPT 같은 LLM을 활용해서
00:00:49복잡한 텍스트에서 구조화된 데이터를 뽑아내는 파이썬 라이브러리입니다.
00:00:51개체, 속성, 관계 등을 추출해 JSON이나 심지어
00:00:57대화형 HTML 같은 깔끔한 결과물로 만들어주죠.
00:00:58개발자들이 열광하는 결정적인 이유는 모든 추출 결과가
00:01:02정확히 어떤 텍스트 구간에서 왔는지 근거를 제시한다는 점입니다.
00:01:04모델이 단순히 “나만 믿어”라고 하는 게 아니라, “내가 참고한 문장은
00:01:09바로 이거야”라고 말해주는 셈이죠.
00:01:10이게 바로 핵심적인 변화입니다.
00:01:11기본적인 워크플로우는 프롬프트를 입력하면 추출이 진행되고,
00:01:15검증 가능한 구조화된 결과물을 얻는 방식입니다.
00:01:19개발자들이 왜 기존 NLP 대신 이걸 선택하는지 설명하기 전에,
00:01:24작동 방식을 먼저 보여드릴 테니 직접 한 번 따라 해보세요.
00:01:27자, 간단한 예시를 준비했습니다.
00:01:29화면을 보시면 임의로 가져온 임상 기록 데이터가 있는데,
00:01:33지금은 그냥 가공되지 않은 텍스트일 뿐입니다.
00:01:34텍스트 파일 형태죠.
00:01:36사람은 읽고 중요한 부분을 골라낼 수 있지만, 컴퓨터에겐 그저 외계어일 뿐입니다.
00:01:41우선 Git 저장소를 복제하고 필요한 패키지들을 설치했습니다. 그다음,
00:01:45env 파일에 저장해 둔 Gemini API 키도 준비했고요.
00:01:49이제 이 파이썬 스크립트를 작성해서 실행하고, 프롬프트에
00:01:54추출하고 싶은 내용을 설명해 줍니다.
00:01:56이 단계 때문에 파이썬에 대한 어느 정도의 이해가 필요합니다.
00:01:58추출할 모든 개체와 속성, 관계를 프롬프트로 작성했습니다.
00:02:02학습 데이터도, 모델 튜닝도 전혀 필요 없습니다.
00:02:05이제 Lang Extract를 실행하면 구조화된 JSON 결과가 나옵니다.
00:02:09자, 여기서 주목해야 할 부분이 바로 이 도구의 핵심입니다.
00:02:12추출된 모든 필드가 JSON 내에서 원본 텍스트의
00:02:18정확히 어떤 문장에서 왔는지 링크되어 있습니다.
00:02:19결과를 검토하거나 디버깅하고, 누군가에게 설명할 때 더 이상 추측할 필요가 없죠.
00:02:23가장 인상적이었던 기능 중 하나는 자동으로 생성되는 대화형 HTML 페이지입니다.
00:02:29추출된 개체를 클릭하면 원본 텍스트에서 해당 부분이 강조 표시되어,
00:02:33목표로 했던 단어들을 시각적으로 빠르게 훑어볼 수 있습니다.
00:02:38그래서 디버깅이나 감사, 검토 작업에 엄청난 강점이 있습니다.
00:02:42대규모 작업이 필요하다면 배치 모드를 통해 수천 개의 문서를
00:02:46훨씬 효율적으로 처리할 수도 있습니다.
00:02:48정말 훌륭해 보이죠.
00:02:50특히 HTML 기능이 아주 매력적이더라고요.
00:02:52그럼 왜 개발자들이 기존 NLP 방식을 버리고 이걸 쓰는 걸까요?
00:02:56정리 안 된 텍스트는 단순히 성가신 존재가 아니기 때문입니다.
00:02:59성가신 건 물론이고, 비용도 많이 듭니다.
00:03:01시간을 낭비하게 만들고 시스템을 고장 내기도 하죠.
00:03:03그래서 정확성과 추적 가능성이 중요한 분야에서 Lang Extract가 쓰이고 있습니다.
00:03:08임상 기록에서 구조화된 데이터를 추출하면서도,
00:03:12그 근거를 언제든 확인할 수 있다는 건 엄청난 이점입니다.
00:03:13대단한 일이죠.
00:03:14혹은 고객 피드백이나 지원 티켓을 거대한 CSV 파일로 두는 대신
00:03:18지식 그래프로 변환하는 데 활용할 수도 있습니다.
00:03:20이런 스타일의 도구들이 주는 장점도 많지만, 단점도 존재합니다.
00:03:24도구 사용 여부를 결정할 때 이 점들을 고려해야 합니다.
00:03:26장점부터 살펴보면 정말 많습니다.
00:03:27설정이 아주 간단하죠?
00:03:29설치하고 프롬프트만 쓰면 바로 시작입니다.
00:03:31근거가 명확한 출력 덕분에 LLM의 신뢰성 문제가 줄어들고,
00:03:36특정 모델에 종속되지도 않습니다.
00:03:37로컬이나 클라우드 어디서든 작동하죠.
00:03:39둘 다 잘 돌아가고, 다른 도구보다 긴 문서 처리 능력도 뛰어납니다.
00:03:43무료 오픈소스이며 발전 속도도 매우 빠릅니다.
00:03:45하지만 대규모 작업 시 여전히 LLM 비용이 발생한다는 단점이 있습니다.
00:03:51너무 노이즈가 심한 텍스트는 추출이 불완전할 수 있고요.
00:03:53파이썬 기반이라 파이썬을 모른다면 학습 곡선이 좀 있을 수 있지만,
00:03:57파이썬은 배우기에 아주 좋은 언어입니다.
00:03:58또한 지연 시간이 극도로 짧아야 하는 실시간 앱에는 적합하지 않습니다.
00:04:01왜 이 도구에 관심을 가져야 할까요?
00:04:02커스텀 모델이나 복잡한 파이프라인을 구축하지 않고도
00:04:07비구조화 데이터를 다루는 장벽을 낮춰주기 때문입니다.
00:04:09추출 근거를 명확히 제시함으로써 LLM의 결과물을 실제 서비스에서 신뢰할 수 있게 해줍니다.
00:04:14특히 금융, 의료, 컴플라이언스처럼 데이터의 정확성이
00:04:19매우 중요한 분야에서는 더욱 그렇죠.
00:04:21또한 RAG, 검색, 지식 그래프, 분석 등 현대적인 기술 스택과도 잘 어우러집니다.
00:04:26여러분이 무엇을 만들고 있든 말이죠.
00:04:27비구조화 데이터 때문에 골치 아프시다면, 이 도구가 큰 힘이 될 것입니다.
00:04:31데이터 관련 업무를 하신다면 한 번쯤 확인해 볼 가치가 충분합니다.
00:04:35그럼 다음 영상에서 뵙겠습니다.