00:00:00نقضي وقتًا أطول بكثير في معالجة المستندات بدلاً من بناء تطبيقات الذكاء الاصطناعي الخاصة بنا.
00:00:05نربط مكتبات متعددة، ونحصل أخيرًا على ملف PDF في خط المعالجة، ومع ذلك يعطينا النموذج إجابات سيئة.
00:00:11ليس لأن النموذج سيء، بل لأن ملف ماركداون (Markdown) هو السيء.
00:00:14هذا هو ماركداون (Markdown).
00:00:16أداة من مايكروسوفت انتشرت بشكل كبير وحصلت على أكثر من 110,000 نجمة على GitHub،
00:00:21وهي تصلح خط المعالجة بالكامل في سطر واحد من الكود تقريبًا.
00:00:24سأريكم كيف يعمل كل هذا في بضع دقائق فقط.
00:00:30[موسيقى]
00:00:33حسنًا، الآن يبدأ كل مشروع ذكاء اصطناعي بنفس الطريقة تقريبًا.
00:00:36لديك ملفات في كل مكان، مستندات Word، شرائح عرض، جداول بيانات، لقطات شاشة PDF، وربما حتى ملفات صوتية.
00:00:43ثم يأتي الجزء الرائع الذي نحبه نحن المطورين.
00:00:46يمكننا البدء فعليًا في تكديس الأدوات.
00:00:49لذا سيكون لدينا أداة لملفات PDF، وأداة لملفات Excel، وأخرى لملفات Word، أليس كذلك؟
00:00:54كل هذه المكتبات التي نربطها معًا لمساعدتنا في بناء خط المعالجة هذا.
00:00:59في البداية يبدو الأمر جيدًا، وهو يعمل بالتأكيد.
00:01:02ثم تبدأ الأمور في التفكك.
00:01:04تفقد الجداول هيكلها، وتختفي العناوين، ومن الواضح أن استخدام الرموز (Tokens) يبدأ في الارتفاع بجنون.
00:01:10والآن أصبح خط معالجة الاسترجاع (RAG) يسحب بيانات غير مفيدة والوكيل يعطينا إجابات سيئة.
00:01:16ونحن نقوم بتصحيح أخطاء الاستيعاب بدلاً من الإطلاق الفعلي للمشروع.
00:01:19وفي الحقيقة، ما الذي يفعله هذا؟
00:01:21إنه مجرد إضاعة للوقت.
00:01:22ليس دقائق، بل ساعات كل أسبوع.
00:01:25لذا بدلاً من إصلاح نموذجك، تحتاج في الواقع إلى إصلاح مدخلاتك.
00:01:29دعوني أريكم كيف يبدو ذلك في الواقع.
00:01:31إذا كنت تستمتع بالأدوات التي تسرع سير عملك، تأكد من الاشتراك.
00:01:35لدينا مقاطع فيديو تصدر طوال الوقت.
00:01:37حسنًا، دعوني أستعرض هذا بسرعة.
00:01:39إنه كله بلغة بايثون، لذا فهو بسيط جدًا.
00:01:42أولاً، أقوم بتثبيت كل شيء عبر pip في بيئتي الافتراضية.
00:01:45لدي ملف PDF هنا، مجرد مستند PDF.
00:01:48ويمكنني تشغيل هذا في جهازي الطرفي (Terminal).
00:01:50سأقوم بتشغيل "markitdown"، مستند PDF، والمخرجات بصيغة MD.
00:01:55هذا كل شيء.
00:01:56إنه ينشئ لي ملفًا تلقائيًا.
00:01:58يمكننا فتح ذلك الملف وبداخله نوع مما نأمل في توقعه هنا.
00:02:03العناوين نظيفة، والجداول تبدو كجداول حقيقية، والهيكل لا يزال موجودًا.
00:02:08والآن عندما نكتب بعض الكود في بايثون لهذا، يمكننا القيام بأكثر من ذلك به.
00:02:13لذا مع استيراداتي واستخدام OpenAI، يمكنني إنشاء عميل ثم كائن ماركداون.
00:02:20سأقوم بتمرير مفتاح API الخاص بي والنموذج الذي نريد تشغيله.
00:02:25عندما أقوم بتشغيل الكود، يتم إنشاء المخرجات في جهازي الطرفي، لذا فهي نظيفة للغاية.
00:02:29والأفضل من ذلك، ما هو رائع حقًا هو أنه يمكنني الحصول على صورة PNG.
00:02:33لهذا، حصلت على مخطط من NVIDIA.
00:02:35هنا صورتي مع بعض البيانات عليها.
00:02:39الآن يمكنني تحويل المخطط إلى ماركداون.
00:02:42لذا يمكنني ترك "markitdown" يقوم بعمله، فقط باستخدام وظيفة التحويل مرة أخرى.
00:02:47هذه المرة نعطيها صورتنا، ملف PNG الخاص بنا.
00:02:50وهنا الآن نحصل على ملخص لماهية ذلك المخطط وما يمكننا استخراجه واستخدامه لـ RAG.
00:02:56هذا أمر ضخم، لأنه يسمح لنا الآن باستخراج ما نحتاجه بشكل أسرع مباشرة هنا في الكود الخاص بنا
00:03:01حتى نتمكن من مواصلة العمل دون التنقل بين مجموعة من علامات التبويب المختلفة.
00:03:05إذًا ما هو ماركداون حقًا؟
00:03:07إنها أداة بايثون مفتوحة المصدر من مايكروسوفت للأبحاث.
00:03:11إنها مرخصة بموجب MIT، ومبنية خصيصًا لسير عمل نماذج اللغة الكبيرة (LLM).
00:03:16وظيفتها هي أخذ الملفات الفوضوية وتحويلها إلى ماركداون نظيف.
00:03:19حتى تتمكن النماذج من فهمها فعليًا.
00:03:22إنها تدعم أكثر بكثير مما نتوقع في الواقع.
00:03:25Word، PowerPoint، Excel، PDF، صوت، صور، وأيضًا أشياء مثل الروابط، حقًا أي شيء، سمِّ ما شئت.
00:03:32حتى أن لديها خادم MCP الآن، لذا يمكنك توصيلها مباشرة بأدوات مثل Claude Desktop أو حتى وكيلك الخاص.
00:03:40بالإضافة إلى الإضافات (Plugins).
00:03:41لذا بدلاً من بناء خطوط معالجة الاستيعاب، نحن الآن نكتفي بطلب أداة واحدة.
00:03:47لم يكن المطورون يعانون مع النماذج، بل كانوا يعانون مع المدخلات.
00:03:51وكان التوقع هو، حسنًا، فقط استخدم نماذج أفضل.
00:03:55لكن الحقيقة الكاملة لهذا هي أن المدخلات الأفضل تساوي مخرجات أفضل.
00:04:00لذا الآن بدلاً من كتابة نصوص برمجية تتعطل، يستخدم الناس الآن أداة واحدة لكل شيء، وهي "markitdown".
00:04:06خطوط معالجة RAG، الوكلاء، مجموعات بيانات الضبط الدقيق، قواعد المعرفة، تحليل المستندات، كل هذه الأشياء التي نقوم بها بالفعل.
00:04:13والتفصيل الرئيسي الذي يفوته معظم الناس هو أنها تنتج ماركداون منظمًا وفعالًا من حيث استهلاك الرموز.
00:04:20لذا هناك ضوضاء أقل تدخل في هذا، لكننا نحصل على إجابات أفضل، ومخرجات أفضل.
00:04:24لكن هذا لا يعني أنها مثالية.
00:04:26الآن دعونا نقارن هذا بما تستخدمه ربما بالفعل أو رأيته في مكان ما.
00:04:31لدينا أداة تسمى "Pandoc"، لذا تتوقع أن تفوز Pandoc هنا، حسنًا؟
00:04:36لكنها تحل مشكلة مختلفة عن "markitdown".
00:04:40Pandoc مخصصة للبشر، لذا للنشر، والتنسيق، وLaTeX.
00:04:44"markitdown" مخصصة للآلات، نماذج اللغة الكبيرة، خطوط المعالجة، والأتمتة.
00:04:48إنها نفس الفكرة نوعًا ما، لكن الهدف مختلف.
00:04:51ثم لدينا أشياء مثل "Unstructured" أو "Docling".
00:04:55هذه أدوات رائعة، لكنها ثقيلة جدًا أيضًا.
00:04:58إنها تستخدم نماذج تعلم آلي، وتتطلب المزيد من الإعداد، وهي أفضل للمستندات المعقدة حقًا.
00:05:03"markitdown" تتبع النهج المعاكس لكل هذا.
00:05:05هناك إعداد أقل، وسهولة فائقة، ونتائج أسرع، وهي جيدة بما يكفي لمعظم الملفات.
00:05:11إذًا إليكم المقايضة الحقيقية.
00:05:12هل تريد استخراجًا مثاليًا، أم تريد شيئًا يعمل بسرعة وموثوقية كبيرة؟
00:05:18بالنسبة لمعظمنا، ستفوز السرعة.
00:05:20الآن، بالطبع، الجوانب السلبية، ملفات PDF المعقدة ستظل تكسرها، أليس كذلك؟
00:05:24خاصة الجداول الكثيفة أو التخطيطات الغريبة.
00:05:27إذا كنت تتعامل مع مستندات فوضوية كل يوم، فإن أدوات مثل Docling أو Unstructured ستؤدي أداءً أفضل بكثير.
00:05:32ولكن إذا كنت تريد وصفًا للصور، فستحتاج إلى توصيل نموذج لغة كبير.
00:05:36لذا فهي ليست مثالية، لكنها أداة رائعة جدًا تحل مشكلة حقيقية.
00:05:41إذًا هل تستحق الاستخدام؟
00:05:43نعم، بالنسبة لمعظم الناس، بالتأكيد.
00:05:45إذا كنت تبني تطبيقات ذكاء اصطناعي الآن، فمن المحتمل أن يكون هذا هو ما يجب أن تبدو عليه طبقة الاستيعاب الخاصة بك.
00:05:50يجب أن تحاول استخدام "markitdown".
00:05:52فقط جربها إذا كنت تريد مدخلات نظيفة لـ RAG أو الوكلاء.
00:05:56أنت تتعامل مع أنواع ملفات مختلطة.
00:05:58إنها جيدة حقًا لتلك الأشياء.
00:05:59وأنت لا تريد صيانة مجموعة من النصوص البرمجية الهشة التي قد تتعطل، أليس كذلك؟
00:06:03تخطها أو ادمجها إذا كنت تعمل مع ملفات PDF معقدة للغاية كل يوم.
00:06:08هناك أدوات أخرى موجودة هناك.
00:06:09إذا كنت تستمتع بالأدوات مفتوحة المصدر ونصائح البرمجة مثل هذه، تأكد من الاشتراك في قناة Better Stack.
00:06:15سنراك في فيديو آخر.