توقف عن بناء مسارات RAG بهذه الطريقة... استخدم MarkItDown بدلاً من ذلك

BBetter Stack
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00نقضي وقتًا أطول بكثير في معالجة المستندات بدلاً من بناء تطبيقات الذكاء الاصطناعي الخاصة بنا.
00:00:05نربط مكتبات متعددة، ونحصل أخيرًا على ملف PDF في خط المعالجة، ومع ذلك يعطينا النموذج إجابات سيئة.
00:00:11ليس لأن النموذج سيء، بل لأن ملف ماركداون (Markdown) هو السيء.
00:00:14هذا هو ماركداون (Markdown).
00:00:16أداة من مايكروسوفت انتشرت بشكل كبير وحصلت على أكثر من 110,000 نجمة على GitHub،
00:00:21وهي تصلح خط المعالجة بالكامل في سطر واحد من الكود تقريبًا.
00:00:24سأريكم كيف يعمل كل هذا في بضع دقائق فقط.
00:00:30[موسيقى]
00:00:33حسنًا، الآن يبدأ كل مشروع ذكاء اصطناعي بنفس الطريقة تقريبًا.
00:00:36لديك ملفات في كل مكان، مستندات Word، شرائح عرض، جداول بيانات، لقطات شاشة PDF، وربما حتى ملفات صوتية.
00:00:43ثم يأتي الجزء الرائع الذي نحبه نحن المطورين.
00:00:46يمكننا البدء فعليًا في تكديس الأدوات.
00:00:49لذا سيكون لدينا أداة لملفات PDF، وأداة لملفات Excel، وأخرى لملفات Word، أليس كذلك؟
00:00:54كل هذه المكتبات التي نربطها معًا لمساعدتنا في بناء خط المعالجة هذا.
00:00:59في البداية يبدو الأمر جيدًا، وهو يعمل بالتأكيد.
00:01:02ثم تبدأ الأمور في التفكك.
00:01:04تفقد الجداول هيكلها، وتختفي العناوين، ومن الواضح أن استخدام الرموز (Tokens) يبدأ في الارتفاع بجنون.
00:01:10والآن أصبح خط معالجة الاسترجاع (RAG) يسحب بيانات غير مفيدة والوكيل يعطينا إجابات سيئة.
00:01:16ونحن نقوم بتصحيح أخطاء الاستيعاب بدلاً من الإطلاق الفعلي للمشروع.
00:01:19وفي الحقيقة، ما الذي يفعله هذا؟
00:01:21إنه مجرد إضاعة للوقت.
00:01:22ليس دقائق، بل ساعات كل أسبوع.
00:01:25لذا بدلاً من إصلاح نموذجك، تحتاج في الواقع إلى إصلاح مدخلاتك.
00:01:29دعوني أريكم كيف يبدو ذلك في الواقع.
00:01:31إذا كنت تستمتع بالأدوات التي تسرع سير عملك، تأكد من الاشتراك.
00:01:35لدينا مقاطع فيديو تصدر طوال الوقت.
00:01:37حسنًا، دعوني أستعرض هذا بسرعة.
00:01:39إنه كله بلغة بايثون، لذا فهو بسيط جدًا.
00:01:42أولاً، أقوم بتثبيت كل شيء عبر pip في بيئتي الافتراضية.
00:01:45لدي ملف PDF هنا، مجرد مستند PDF.
00:01:48ويمكنني تشغيل هذا في جهازي الطرفي (Terminal).
00:01:50سأقوم بتشغيل "markitdown"، مستند PDF، والمخرجات بصيغة MD.
00:01:55هذا كل شيء.
00:01:56إنه ينشئ لي ملفًا تلقائيًا.
00:01:58يمكننا فتح ذلك الملف وبداخله نوع مما نأمل في توقعه هنا.
00:02:03العناوين نظيفة، والجداول تبدو كجداول حقيقية، والهيكل لا يزال موجودًا.
00:02:08والآن عندما نكتب بعض الكود في بايثون لهذا، يمكننا القيام بأكثر من ذلك به.
00:02:13لذا مع استيراداتي واستخدام OpenAI، يمكنني إنشاء عميل ثم كائن ماركداون.
00:02:20سأقوم بتمرير مفتاح API الخاص بي والنموذج الذي نريد تشغيله.
00:02:25عندما أقوم بتشغيل الكود، يتم إنشاء المخرجات في جهازي الطرفي، لذا فهي نظيفة للغاية.
00:02:29والأفضل من ذلك، ما هو رائع حقًا هو أنه يمكنني الحصول على صورة PNG.
00:02:33لهذا، حصلت على مخطط من NVIDIA.
00:02:35هنا صورتي مع بعض البيانات عليها.
00:02:39الآن يمكنني تحويل المخطط إلى ماركداون.
00:02:42لذا يمكنني ترك "markitdown" يقوم بعمله، فقط باستخدام وظيفة التحويل مرة أخرى.
00:02:47هذه المرة نعطيها صورتنا، ملف PNG الخاص بنا.
00:02:50وهنا الآن نحصل على ملخص لماهية ذلك المخطط وما يمكننا استخراجه واستخدامه لـ RAG.
00:02:56هذا أمر ضخم، لأنه يسمح لنا الآن باستخراج ما نحتاجه بشكل أسرع مباشرة هنا في الكود الخاص بنا
00:03:01حتى نتمكن من مواصلة العمل دون التنقل بين مجموعة من علامات التبويب المختلفة.
00:03:05إذًا ما هو ماركداون حقًا؟
00:03:07إنها أداة بايثون مفتوحة المصدر من مايكروسوفت للأبحاث.
00:03:11إنها مرخصة بموجب MIT، ومبنية خصيصًا لسير عمل نماذج اللغة الكبيرة (LLM).
00:03:16وظيفتها هي أخذ الملفات الفوضوية وتحويلها إلى ماركداون نظيف.
00:03:19حتى تتمكن النماذج من فهمها فعليًا.
00:03:22إنها تدعم أكثر بكثير مما نتوقع في الواقع.
00:03:25Word، PowerPoint، Excel، PDF، صوت، صور، وأيضًا أشياء مثل الروابط، حقًا أي شيء، سمِّ ما شئت.
00:03:32حتى أن لديها خادم MCP الآن، لذا يمكنك توصيلها مباشرة بأدوات مثل Claude Desktop أو حتى وكيلك الخاص.
00:03:40بالإضافة إلى الإضافات (Plugins).
00:03:41لذا بدلاً من بناء خطوط معالجة الاستيعاب، نحن الآن نكتفي بطلب أداة واحدة.
00:03:47لم يكن المطورون يعانون مع النماذج، بل كانوا يعانون مع المدخلات.
00:03:51وكان التوقع هو، حسنًا، فقط استخدم نماذج أفضل.
00:03:55لكن الحقيقة الكاملة لهذا هي أن المدخلات الأفضل تساوي مخرجات أفضل.
00:04:00لذا الآن بدلاً من كتابة نصوص برمجية تتعطل، يستخدم الناس الآن أداة واحدة لكل شيء، وهي "markitdown".
00:04:06خطوط معالجة RAG، الوكلاء، مجموعات بيانات الضبط الدقيق، قواعد المعرفة، تحليل المستندات، كل هذه الأشياء التي نقوم بها بالفعل.
00:04:13والتفصيل الرئيسي الذي يفوته معظم الناس هو أنها تنتج ماركداون منظمًا وفعالًا من حيث استهلاك الرموز.
00:04:20لذا هناك ضوضاء أقل تدخل في هذا، لكننا نحصل على إجابات أفضل، ومخرجات أفضل.
00:04:24لكن هذا لا يعني أنها مثالية.
00:04:26الآن دعونا نقارن هذا بما تستخدمه ربما بالفعل أو رأيته في مكان ما.
00:04:31لدينا أداة تسمى "Pandoc"، لذا تتوقع أن تفوز Pandoc هنا، حسنًا؟
00:04:36لكنها تحل مشكلة مختلفة عن "markitdown".
00:04:40Pandoc مخصصة للبشر، لذا للنشر، والتنسيق، وLaTeX.
00:04:44"markitdown" مخصصة للآلات، نماذج اللغة الكبيرة، خطوط المعالجة، والأتمتة.
00:04:48إنها نفس الفكرة نوعًا ما، لكن الهدف مختلف.
00:04:51ثم لدينا أشياء مثل "Unstructured" أو "Docling".
00:04:55هذه أدوات رائعة، لكنها ثقيلة جدًا أيضًا.
00:04:58إنها تستخدم نماذج تعلم آلي، وتتطلب المزيد من الإعداد، وهي أفضل للمستندات المعقدة حقًا.
00:05:03"markitdown" تتبع النهج المعاكس لكل هذا.
00:05:05هناك إعداد أقل، وسهولة فائقة، ونتائج أسرع، وهي جيدة بما يكفي لمعظم الملفات.
00:05:11إذًا إليكم المقايضة الحقيقية.
00:05:12هل تريد استخراجًا مثاليًا، أم تريد شيئًا يعمل بسرعة وموثوقية كبيرة؟
00:05:18بالنسبة لمعظمنا، ستفوز السرعة.
00:05:20الآن، بالطبع، الجوانب السلبية، ملفات PDF المعقدة ستظل تكسرها، أليس كذلك؟
00:05:24خاصة الجداول الكثيفة أو التخطيطات الغريبة.
00:05:27إذا كنت تتعامل مع مستندات فوضوية كل يوم، فإن أدوات مثل Docling أو Unstructured ستؤدي أداءً أفضل بكثير.
00:05:32ولكن إذا كنت تريد وصفًا للصور، فستحتاج إلى توصيل نموذج لغة كبير.
00:05:36لذا فهي ليست مثالية، لكنها أداة رائعة جدًا تحل مشكلة حقيقية.
00:05:41إذًا هل تستحق الاستخدام؟
00:05:43نعم، بالنسبة لمعظم الناس، بالتأكيد.
00:05:45إذا كنت تبني تطبيقات ذكاء اصطناعي الآن، فمن المحتمل أن يكون هذا هو ما يجب أن تبدو عليه طبقة الاستيعاب الخاصة بك.
00:05:50يجب أن تحاول استخدام "markitdown".
00:05:52فقط جربها إذا كنت تريد مدخلات نظيفة لـ RAG أو الوكلاء.
00:05:56أنت تتعامل مع أنواع ملفات مختلطة.
00:05:58إنها جيدة حقًا لتلك الأشياء.
00:05:59وأنت لا تريد صيانة مجموعة من النصوص البرمجية الهشة التي قد تتعطل، أليس كذلك؟
00:06:03تخطها أو ادمجها إذا كنت تعمل مع ملفات PDF معقدة للغاية كل يوم.
00:06:08هناك أدوات أخرى موجودة هناك.
00:06:09إذا كنت تستمتع بالأدوات مفتوحة المصدر ونصائح البرمجة مثل هذه، تأكد من الاشتراك في قناة Better Stack.
00:06:15سنراك في فيديو آخر.

Key Takeaway

استخدام أداة MarkItDown من مايكروسوفت يوفر طبقة استيعاب موثوقة وعالية الكفاءة عبر تحويل المستندات والوسائط المتعددة إلى تنسيق Markdown نظيف، مما يحسن مخرجات نماذج اللغة الكبيرة في خطوط معالجة RAG.

Highlights

تتسبب أدوات معالجة المستندات التقليدية في فقدان الهياكل الجدولية والعناوين، مما يؤدي إلى استرجاع بيانات غير دقيقة في خطوط معالجة RAG.

تعد أداة MarkItDown مكتبة مفتوحة المصدر من مايكروسوفت مرخصة بموجب MIT ومصممة خصيصاً لتهيئة المدخلات لنماذج اللغة الكبيرة.

تتمكن MarkItDown من معالجة مجموعة واسعة من الملفات بما في ذلك Word وPowerPoint وExcel وPDF والصوت والصور في خطوة واحدة تقريباً.

تنتج الأداة مخرجات بصيغة Markdown منظمة، مما يقلل من استهلاك الرموز (Tokens) ويحسن جودة استجابات النماذج.

تتضمن الأداة وظائف لتحليل الصور والمخططات، مثل تحويل مخطط PNG من NVIDIA إلى ملخص نصي دقيق قابل للاستخدام في تطبيقات الذكاء الاصطناعي.

تتفوق MarkItDown في سرعة الإعداد والموثوقية مقارنة بأدوات مثل Pandoc المخصصة للنشر البشري، أو أدوات مثل Docling وUnstructured التي تتطلب إعدادات معقدة.

Timeline

مشاكل خطوط معالجة RAG الحالية

  • تستنزف معالجة المستندات وقتاً طويلاً من المطورين بدلاً من التركيز على بناء تطبيقات الذكاء الاصطناعي.
  • تؤدي المكتبات المتعددة غير المتوافقة إلى تفكك بنية الجداول وضياع العناوين في ملفات المخرجات.
  • ينتج عن المدخلات السيئة استرجاع بيانات غير مفيدة تؤثر سلباً على دقة إجابات النموذج.

يركز المطورون غالباً على تكديس أدوات منفصلة لكل نوع من الملفات مثل PDF وExcel. يؤدي هذا التشتت إلى زيادة غير مبررة في استهلاك الرموز (Tokens) ويجبر المطورين على تصحيح أخطاء الاستيعاب بدلاً من الإطلاق الفعلي للمشاريع.

آلية عمل MarkItDown ومرونتها

  • تتم عملية التحويل في MarkItDown من خلال أمر واحد بسيط عبر واجهة الأوامر (Terminal).
  • تحافظ الأداة على الهيكل النظيف للمستندات، بما في ذلك الجداول والعناوين.
  • تدعم الأداة استخراج البيانات من الصور والمخططات وتحويلها إلى ماركداون.

تستخدم الأداة بايثون لتبسيط معالجة الملفات. عند تمرير ملف PDF أو صورة PNG، تقوم المكتبة بإنشاء مخرجات منظمة تلقائياً، مما يسمح للمطورين بالتعامل مع البيانات مباشرة داخل الكود دون الحاجة للتنقل بين تطبيقات متعددة.

المقارنة مع الأدوات الأخرى

  • تتخصص MarkItDown في سير عمل نماذج اللغة الكبيرة (LLM) بدلاً من النشر البشري.
  • تتطلب الأداة إعدادات أقل بكثير مقارنة بأدوات مثل Docling أو Unstructured.
  • تعتمد المفاضلة على السرعة والموثوقية مقابل الحاجة إلى دقة فائقة في المستندات فائقة التعقيد.

بينما تستهدف Pandoc التنسيق البشري وLaTeX، تستهدف MarkItDown أتمتة الآلات. وعلى الرغم من فعاليتها العالية، قد تحتاج المستندات ذات الجداول الكثيفة جداً إلى أدوات متخصصة، لكنها تظل الخيار الأمثل لمعظم تطبيقات الذكاء الاصطناعي الحديثة.

Community Posts

View all posts