00:00:00من المحتمل أنك حاولت من قبل تحويل رسائل البريد الإلكتروني أو ملفات PDF أو النصوص
00:00:04إلى بيانات منظمة، لكن الأمور تعقدت معك بسرعة.
00:00:07يعتقد الجميع أن الجزء الصعب هو بناء التطبيق نفسه.
00:00:09لكن الأمر ليس كذلك.
00:00:10الصعوبة تكمن في النصوص، لأن جزءاً ضخماً من بيانات الواقع غالباً ما يكون غير منظم،
00:00:15وهنا تنهار معظم خطوط معالجة البيانات.
00:00:16قد تتوقع أن الحل يكمن في توظيف المزيد من الأشخاص أو استخدام المزيد من معالجة اللغات الطبيعية،
00:00:21لكن بعض المطورين يفعلون العكس تماماً.
00:00:22هذا هو “Lang Extract”.
00:00:23وهي أداة مجانية مفتوحة المصدر من جوجل تنمو بصمت وبسرعة كبيرة.
00:00:27لدينا فيديوهات جديدة تصدر باستمرار.
00:00:29لذا تأكد من الاشتراك في القناة.
00:00:32حسناً، قد يبدو Lang Extract مجرد مكتبة استخراج بيانات أخرى،
00:00:40وهي كذلك للوهلة الأولى، ولكن إليك ما يميزها.
00:00:43Lang Extract هي مكتبة بايثون تستخدم النماذج اللغوية الكبيرة مثل Gemini أو GPT
00:00:49لاستخلاص بيانات منظمة من نصوص فوضوية.
00:00:51نعم، تحول الكيانات والسمات والعلاقات إلى مخرجات نظيفة مثل JSON
00:00:57أو حتى صفحات HTML تفاعلية.
00:00:58السبب الأخير لاهتمام المطورين بها هو أن كل معلومة مستخرجة مرتبطة تماماً
00:01:02بالنص الأصلي الذي جاءت منه.
00:01:04بمعنى أنه بدلاً من أن يقول لك النموذج “ثق بي”، فإنه يقول:
00:01:09“إليك الجملة الدقيقة التي استخدمتها”.
00:01:10وهذا هو التغيير الجوهري هنا.
00:01:11آلية العمل هنا ببساطة هي إدخال الأمر، ثم تبدأ عملية الاستخراج،
00:01:15وبعد ذلك تحصل على مخرجات منظمة يمكنك التحقق منها فعلياً.
00:01:19قبل أن أجيب على السؤال الكبير: لماذا يتخلى المطورون عن الأساليب التقليدية؟
00:01:24دعني أريك كيف يعمل كل هذا أولاً لتتمكن من تجربته بنفسك.
00:01:27حسناً، إليك مثالاً بسيطاً.
00:01:29تظهر على الشاشة نصوص غير منظمة وجدتها في بعض الملاحظات السريرية،
00:01:33وحالياً هي مجرد نص عادي.
00:01:34موجودة في ملف نصي.
00:01:36يمكن للإنسان قراءتها واستخراج الأجزاء المهمة، لكن الكمبيوتر يراها مجرد طلاسم.
00:01:41في البداية، قمت بنسخ مستودع Git وتثبيت المتطلبات،
00:01:45ثم احتجت أيضاً للحصول على مفتاح Gemini API الخاص بي، والذي وضعته في ملف ENV.
00:01:49بعد ذلك كتبت سكريبت البايثون هذا لتشغيل الأداة ووصف ما أريد استخراجه
00:01:54في خانة الأوامر.
00:01:56وهذا هو السبب في حاجتك لبعض المعرفة بلغة بايثون.
00:01:58كل الكيانات والسمات والعلاقات مكتوبة في هذا الأمر.
00:02:02لا توجد بيانات تدريب، ولا يوجد ضبط للنماذج.
00:02:05ثم يعمل Lang Extract وأحصل على مخرجات JSON منظمة.
00:02:09الآن، أريدك أن تلاحظ هذا الجزء لأنه جوهر الموضوع.
00:02:12كل حقل مستخرج هنا مرتبط بنفس الجملة التي جاء منها
00:02:18داخل ملف الـ JSON.
00:02:19لذا إذا كنت تراجع البيانات، أو تصلح الأخطاء، أو تشرحها لشخص آخر، فلن تضطر للتخمين بعد الآن.
00:02:23لكن من أروع الميزات التي وجدتها هي صفحة HTML التفاعلية التي يتم إنشاؤها تلقائياً.
00:02:29هنا يمكنك النقر فوق أي كيان لرؤيته مظللاً في النص الأصلي،
00:02:33والمرور عليه لرؤية بصرية سريعة لكل الكلمات المستهدفة التي كنت تبحث عنها.
00:02:38لهذا السبب هي أداة ضخمة لتصحيح الأخطاء، والتدقيق، والمراجعات، وما شابه.
00:02:42وإذا كنت بحاجة للقيام بذلك على نطاق واسع، فإن وضع المعالجة بالدفعة (Batch mode)
00:02:46يتيح لك تشغيلها عبر آلاف المستندات بكفاءة أكبر.
00:02:48لذا، يبدو هذا رائعاً حقاً.
00:02:50كان هذا مذهلاً أيضاً، خاصة جزء الـ HTML.
00:02:52حسناً، لماذا يتخلى المطورون عن معالجة اللغات الطبيعية القديمة لصالح هذا؟
00:02:56لأن النصوص الفوضوية ليست مجرد أمر مزعج، أليس كذلك؟
00:02:59هي مزعجة بالفعل، لكنها مكلفة أيضاً.
00:03:01فهي تستهلك الوقت وتتسبب في تعطل الأنظمة.
00:03:03لهذا السبب نرى Lang Extract يظهر في الأماكن التي تهم فيها الدقة وإمكانية التتبع.
00:03:08مثل استخراج بيانات منظمة من ملاحظات سريرية مع القدرة على
00:03:12تدقيق مصدرها.
00:03:13هذا أمر هائل.
00:03:14أو ربما تحويل الملاحظات وتذاكر الدعم الفني إلى رسوم بيانية معرفية (Knowledge graphs)
00:03:18بدلاً من ملفات CSV الضخمة.
00:03:20مع كل الإيجابيات التي نحصل عليها من هذه الأدوات، هناك أيضاً بعض السلبيات.
00:03:24وهي ستؤثر على قرارك في كيفية استخدامها.
00:03:26بالنسبة للمزايا، لدينا الكثير هنا.
00:03:27الإعداد بسيط للغاية، صح؟
00:03:29ثبّت المكتبة، اكتب الأمر، وانطلق.
00:03:31المخرجات الموثقة تقلل من مشاكل الثقة في النماذج اللغوية لأنك تستطيع التحقق من كل شيء،
00:03:36كما أنك لست مقيداً بنموذج واحد.
00:03:37تعمل محلياً أو سحابياً.
00:03:39كلاهما سيعمل، وهي تتعامل مع المستندات الطويلة بشكل أفضل من معظم الأدوات.
00:03:43إنها مجانية، مفتوحة المصدر، وتتطور بسرعة.
00:03:45هناك بعض العيوب هنا قد تشعر بها، لأنك ستظل تدفع تكاليف النماذج اللغوية عند الاستخدام الواسع.
00:03:51النصوص المشوشة جداً قد تؤدي إلى استخراجات غير مكتملة.
00:03:53تعتمد على بايثون أولاً، لذا إذا كنت لا تعرف بايثون، فقد تواجه منحنى تعلم بسيط،
00:03:57لكن بايثون لغة رائعة.
00:03:58كما أنها ليست مثالية للتطبيقات التي تتطلب استجابة فورية وفائقة السرعة.
00:04:01لماذا يجب أن تهتم؟
00:04:02لأن Lang Extract يخفض الحواجز أمام التعامل مع البيانات غير المنظمة
00:04:07دون الحاجة لبناء نماذج مخصصة أو خطوط معالجة هشة.
00:04:09إنه يجعل مخرجات النماذج اللغوية شيئاً يمكنك الوثوق به فعلياً في مرحلة الإنتاج
00:04:14لأنها مرتبطة بمصدرها، خاصة في قطاعات مثل المالية، والرعاية الصحية، والامتثال،
00:04:19تلك المجالات التي يكون فيها الأمر مهماً حقاً.
00:04:21بالإضافة إلى ذلك، فهي تتناسب تماماً مع التقنيات الحديثة مثل RAG والبحث والرسوم البيانية المعرفية والتحليلات.
00:04:26أياً كان ما تبنيه.
00:04:27إذا كانت البيانات غير المنظمة تبطئ عملك، فهذه الأداة يمكنها حقاً رفع مستواك.
00:04:31إذا كانت البيانات جزءاً من عملك -ولنكن واقعيين، هي كذلك غالباً- فهي تستحق التجربة.
00:04:35نراكم في فيديو آخر.