هذه الأداة من جوجل تحول النصوص العشوائية إلى بيانات منظمة

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00من المحتمل أنك حاولت من قبل تحويل رسائل البريد الإلكتروني أو ملفات PDF أو النصوص
00:00:04إلى بيانات منظمة، لكن الأمور تعقدت معك بسرعة.
00:00:07يعتقد الجميع أن الجزء الصعب هو بناء التطبيق نفسه.
00:00:09لكن الأمر ليس كذلك.
00:00:10الصعوبة تكمن في النصوص، لأن جزءاً ضخماً من بيانات الواقع غالباً ما يكون غير منظم،
00:00:15وهنا تنهار معظم خطوط معالجة البيانات.
00:00:16قد تتوقع أن الحل يكمن في توظيف المزيد من الأشخاص أو استخدام المزيد من معالجة اللغات الطبيعية،
00:00:21لكن بعض المطورين يفعلون العكس تماماً.
00:00:22هذا هو “Lang Extract”.
00:00:23وهي أداة مجانية مفتوحة المصدر من جوجل تنمو بصمت وبسرعة كبيرة.
00:00:27لدينا فيديوهات جديدة تصدر باستمرار.
00:00:29لذا تأكد من الاشتراك في القناة.
00:00:32حسناً، قد يبدو Lang Extract مجرد مكتبة استخراج بيانات أخرى،
00:00:40وهي كذلك للوهلة الأولى، ولكن إليك ما يميزها.
00:00:43Lang Extract هي مكتبة بايثون تستخدم النماذج اللغوية الكبيرة مثل Gemini أو GPT
00:00:49لاستخلاص بيانات منظمة من نصوص فوضوية.
00:00:51نعم، تحول الكيانات والسمات والعلاقات إلى مخرجات نظيفة مثل JSON
00:00:57أو حتى صفحات HTML تفاعلية.
00:00:58السبب الأخير لاهتمام المطورين بها هو أن كل معلومة مستخرجة مرتبطة تماماً
00:01:02بالنص الأصلي الذي جاءت منه.
00:01:04بمعنى أنه بدلاً من أن يقول لك النموذج “ثق بي”، فإنه يقول:
00:01:09“إليك الجملة الدقيقة التي استخدمتها”.
00:01:10وهذا هو التغيير الجوهري هنا.
00:01:11آلية العمل هنا ببساطة هي إدخال الأمر، ثم تبدأ عملية الاستخراج،
00:01:15وبعد ذلك تحصل على مخرجات منظمة يمكنك التحقق منها فعلياً.
00:01:19قبل أن أجيب على السؤال الكبير: لماذا يتخلى المطورون عن الأساليب التقليدية؟
00:01:24دعني أريك كيف يعمل كل هذا أولاً لتتمكن من تجربته بنفسك.
00:01:27حسناً، إليك مثالاً بسيطاً.
00:01:29تظهر على الشاشة نصوص غير منظمة وجدتها في بعض الملاحظات السريرية،
00:01:33وحالياً هي مجرد نص عادي.
00:01:34موجودة في ملف نصي.
00:01:36يمكن للإنسان قراءتها واستخراج الأجزاء المهمة، لكن الكمبيوتر يراها مجرد طلاسم.
00:01:41في البداية، قمت بنسخ مستودع Git وتثبيت المتطلبات،
00:01:45ثم احتجت أيضاً للحصول على مفتاح Gemini API الخاص بي، والذي وضعته في ملف ENV.
00:01:49بعد ذلك كتبت سكريبت البايثون هذا لتشغيل الأداة ووصف ما أريد استخراجه
00:01:54في خانة الأوامر.
00:01:56وهذا هو السبب في حاجتك لبعض المعرفة بلغة بايثون.
00:01:58كل الكيانات والسمات والعلاقات مكتوبة في هذا الأمر.
00:02:02لا توجد بيانات تدريب، ولا يوجد ضبط للنماذج.
00:02:05ثم يعمل Lang Extract وأحصل على مخرجات JSON منظمة.
00:02:09الآن، أريدك أن تلاحظ هذا الجزء لأنه جوهر الموضوع.
00:02:12كل حقل مستخرج هنا مرتبط بنفس الجملة التي جاء منها
00:02:18داخل ملف الـ JSON.
00:02:19لذا إذا كنت تراجع البيانات، أو تصلح الأخطاء، أو تشرحها لشخص آخر، فلن تضطر للتخمين بعد الآن.
00:02:23لكن من أروع الميزات التي وجدتها هي صفحة HTML التفاعلية التي يتم إنشاؤها تلقائياً.
00:02:29هنا يمكنك النقر فوق أي كيان لرؤيته مظللاً في النص الأصلي،
00:02:33والمرور عليه لرؤية بصرية سريعة لكل الكلمات المستهدفة التي كنت تبحث عنها.
00:02:38لهذا السبب هي أداة ضخمة لتصحيح الأخطاء، والتدقيق، والمراجعات، وما شابه.
00:02:42وإذا كنت بحاجة للقيام بذلك على نطاق واسع، فإن وضع المعالجة بالدفعة (Batch mode)
00:02:46يتيح لك تشغيلها عبر آلاف المستندات بكفاءة أكبر.
00:02:48لذا، يبدو هذا رائعاً حقاً.
00:02:50كان هذا مذهلاً أيضاً، خاصة جزء الـ HTML.
00:02:52حسناً، لماذا يتخلى المطورون عن معالجة اللغات الطبيعية القديمة لصالح هذا؟
00:02:56لأن النصوص الفوضوية ليست مجرد أمر مزعج، أليس كذلك؟
00:02:59هي مزعجة بالفعل، لكنها مكلفة أيضاً.
00:03:01فهي تستهلك الوقت وتتسبب في تعطل الأنظمة.
00:03:03لهذا السبب نرى Lang Extract يظهر في الأماكن التي تهم فيها الدقة وإمكانية التتبع.
00:03:08مثل استخراج بيانات منظمة من ملاحظات سريرية مع القدرة على
00:03:12تدقيق مصدرها.
00:03:13هذا أمر هائل.
00:03:14أو ربما تحويل الملاحظات وتذاكر الدعم الفني إلى رسوم بيانية معرفية (Knowledge graphs)
00:03:18بدلاً من ملفات CSV الضخمة.
00:03:20مع كل الإيجابيات التي نحصل عليها من هذه الأدوات، هناك أيضاً بعض السلبيات.
00:03:24وهي ستؤثر على قرارك في كيفية استخدامها.
00:03:26بالنسبة للمزايا، لدينا الكثير هنا.
00:03:27الإعداد بسيط للغاية، صح؟
00:03:29ثبّت المكتبة، اكتب الأمر، وانطلق.
00:03:31المخرجات الموثقة تقلل من مشاكل الثقة في النماذج اللغوية لأنك تستطيع التحقق من كل شيء،
00:03:36كما أنك لست مقيداً بنموذج واحد.
00:03:37تعمل محلياً أو سحابياً.
00:03:39كلاهما سيعمل، وهي تتعامل مع المستندات الطويلة بشكل أفضل من معظم الأدوات.
00:03:43إنها مجانية، مفتوحة المصدر، وتتطور بسرعة.
00:03:45هناك بعض العيوب هنا قد تشعر بها، لأنك ستظل تدفع تكاليف النماذج اللغوية عند الاستخدام الواسع.
00:03:51النصوص المشوشة جداً قد تؤدي إلى استخراجات غير مكتملة.
00:03:53تعتمد على بايثون أولاً، لذا إذا كنت لا تعرف بايثون، فقد تواجه منحنى تعلم بسيط،
00:03:57لكن بايثون لغة رائعة.
00:03:58كما أنها ليست مثالية للتطبيقات التي تتطلب استجابة فورية وفائقة السرعة.
00:04:01لماذا يجب أن تهتم؟
00:04:02لأن Lang Extract يخفض الحواجز أمام التعامل مع البيانات غير المنظمة
00:04:07دون الحاجة لبناء نماذج مخصصة أو خطوط معالجة هشة.
00:04:09إنه يجعل مخرجات النماذج اللغوية شيئاً يمكنك الوثوق به فعلياً في مرحلة الإنتاج
00:04:14لأنها مرتبطة بمصدرها، خاصة في قطاعات مثل المالية، والرعاية الصحية، والامتثال،
00:04:19تلك المجالات التي يكون فيها الأمر مهماً حقاً.
00:04:21بالإضافة إلى ذلك، فهي تتناسب تماماً مع التقنيات الحديثة مثل RAG والبحث والرسوم البيانية المعرفية والتحليلات.
00:04:26أياً كان ما تبنيه.
00:04:27إذا كانت البيانات غير المنظمة تبطئ عملك، فهذه الأداة يمكنها حقاً رفع مستواك.
00:04:31إذا كانت البيانات جزءاً من عملك -ولنكن واقعيين، هي كذلك غالباً- فهي تستحق التجربة.
00:04:35نراكم في فيديو آخر.

Key Takeaway

تعتبر أداة Lang Extract نقلة نوعية في معالجة البيانات غير المنظمة، حيث تمكن المطورين من استخراج بيانات موثوقة وقابلة للتدقيق باستخدام النماذج اللغوية دون الحاجة لبناء نماذج مخصصة ومعقدة.

Highlights

تعد أداة "Lang Extract" مكتبة بايثون مفتوحة المصدر من جوجل لتحويل النصوص غير المنظمة إلى بيانات منظمة.

تعتمد الأداة على النماذج اللغوية الكبيرة (LLMs) مثل Gemini وGPT لاستخراج الكيانات والعلاقات بدقة عالية.

تتميز الأداة بخاصية "إمكانية التتبع" حيث يتم ربط كل معلومة مستخرجة بمصدرها الأصلي في النص.

توفر الأداة واجهة HTML تفاعلية تتيح للمستخدمين مراجعة البيانات وتصحيحها عبر تظليل النصوص المرتبطة.

تدعم الأداة وضع المعالجة بالدفعة (Batch mode) للتعامل مع آلاف المستندات بكفاءة وسرعة.

تعتبر الأداة حلاً مثالياً للقطاعات الحساسة مثل الطب والمالية التي تتطلب دقة وتوثيقاً للمصادر.

Timeline

تحدي البيانات غير المنظمة ومدخل إلى Lang Extract

يبدأ المتحدث بتوضيح المشكلة الكبرى التي تواجه المطورين وهي تعقد عملية تحويل النصوص العشوائية مثل البريد الإلكتروني وPDF إلى بيانات منظمة. يشير الفيديو إلى أن الصعوبة الحقيقية تكمن في طبيعة النصوص غير المنظمة التي تتسبب في انهيار خطوط معالجة البيانات التقليدية. يتم تقديم أداة "Lang Extract" كحل مجاني ومفتوح المصدر من جوجل يعالج هذه الفوضى باستخدام نماذج Gemini وGPT. يركز هذا القسم على ميزة تحويل العلاقات والكيانات إلى مخرجات JSON أو HTML نظيفة. كما يؤكد المتحدث على أهمية ربط المعلومة بمصدرها الأصلي لتعزيز الثقة في النتائج بدلاً من الاعتماد الكلي على تخمين النموذج.

الجانب التطبيقي: كيفية إعداد وتشغيل الأداة

يستعرض هذا الجزء مثالاً عملياً لاستخراج بيانات من ملاحظات سريرية طبية كانت تبدو للكمبيوتر كمجرد نصوص مبهمة. يشرح المتحدث خطوات الإعداد التي تشمل نسخ مستودع Git وتثبيت المتطلبات البرمجية وإعداد مفتاح Gemini API في ملف ENV. يتطلب العمل على الأداة معرفة بسيطة بلغة بايثون لكتابة السكريبت ووصف الكيانات المطلوبة في خانة الأوامر. اللافت للنظر هو عدم الحاجة لبيانات تدريبية أو ضبط معقد للنماذج للحصول على مخرجات JSON دقيقة. ينتهي القسم بتسليط الضوء على ميزة صفحة HTML التفاعلية التي تظلل الكيانات المستهدفة لتسهيل عمليات التدقيق والمراجعة البصرية.

لماذا يفضل المطورون الأساليب الحديثة؟

يناقش هذا القسم الأسباب الاقتصادية والتقنية التي تدفع المطورين للتخلي عن أساليب معالجة اللغات الطبيعية القديمة. يوضح الفيديو أن النصوص الفوضوية ليست مزعجة فحسب، بل هي مكلفة وتستهلك الوقت وتتسبب في تعطل الأنظمة البرمجية. تبرز أهمية Lang Extract في المجالات التي تتطلب دقة عالية مثل تحويل تذاكر الدعم الفني إلى رسوم بيانية معرفية (Knowledge graphs). يسرد المتحدث مزايا الأداة مثل سهولة الإعداد، ومرونة العمل محلياً أو سحابياً، والقدرة على التعامل مع المستندات الطويلة. ومع ذلك، يتم ذكر بعض العيوب مثل تكاليف استهلاك الـ API والحاجة لمهارات برمجية في بايثون، مما يجعلها غير مناسبة للتطبيقات التي تتطلب سرعة استجابة فورية جداً.

أهمية الأداة في قطاعات الأعمال والمستقبل

يختتم الفيديو بشرح الأسباب التي تجعل Lang Extract أداة ضرورية في بيئة العمل الحالية، خاصة في قطاعات المالية والرعاية الصحية والامتثال. تعمل الأداة على خفض الحواجز أمام التعامل مع البيانات الضخمة دون الحاجة لبناء خطوط معالجة هشة أو نماذج مخصصة ومكلفة. يوضح المتحدث كيف تتكامل هذه التقنية مع أنظمة البحث الحديثة وتقنيات RAG والتحليلات المتقدمة لرفع مستوى العمليات البرمجية. يتم التأكيد على أن ربط المخرجات بمصادرها يجعلها قابلة للاستخدام الفعلي في مرحلة الإنتاج (Production) بثقة تامة. ينصح الفيديو في النهاية بتجربة الأداة لكل من يواجه بطءً في عمله بسبب البيانات غير المنظمة.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video