Claude Code + RAG-Anything = قدرات بلا حدود

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00يعاني كل نظام RAG تقريبًا من نفس المشكلة تمامًا.
00:00:04لا يمكنهم التعامل إلا مع المستندات النصية.
00:00:06لذا إذا حاولت تزويده بصور، أو مخططات، أو رسوم بيانية، أو أي شيء،
00:00:10فإن معظم أنظمة RAG ببساطة لا تستطيع التعامل معها.
00:00:12وعندما عرضت لكم Light RAG بالأمس،
00:00:13كان يعاني من نفس المشكلة تمامًا.
00:00:16لكن اليوم سأريكم الحل.
00:00:19وهذا الحل هو RAG Anything.
00:00:20يحل RAG Anything مشكلة المستندات هذه بالنسبة لنا.
00:00:23يمكنه التعامل مع الصور.
00:00:24يمكنه التعامل مع المخططات.
00:00:25يمكنه التعامل مع الرسوم البيانية.
00:00:25ويسمح لنا بإنشاء نظام RAG
00:00:28يتعامل فعليًا مع المستندات التي تستخدمها.
00:00:31RAG Anything من نفس الفريق الذي صمم Light RAG.
00:00:34وهو يتصل مباشرة بنظام Light RAG
00:00:36الذي قمنا ببنائه بالأمس بالفعل.
00:00:37لذا فمن السهل جدًا إدخال هذا في مجموعة أدواتنا.
00:00:40واليوم سأوضح لكم بالضبط كيفية إعداده
00:00:43وكيف يعمل في جوهره.
00:00:44حتى تتمكن من البدء في استخدام واحد من أقوى
00:00:46أنظمة RAG المتوفرة حاليًا.
00:00:48لذا، إذا لم يكن الأمر واضحًا بما يكفي من المقدمة،
00:00:50سأفترض أنك شاهدت بالفعل
00:00:52فيديو Light RAG الخاص بالأمس.
00:00:54سأضع رابطًا في الأعلى إذا لم تكن قد فعلت ذلك بعد،
00:00:56لأنني اليوم سأفترض أنك قمت بالفعل بإعداد
00:00:58خادم Light RAG الخاص بك.
00:00:59أنت تفهم كيف يعمل الـ RAG وتفهم
00:01:02موضوع الرسم البياني للمعرفة هذا بالكامل.
00:01:03لأن RAG Anything سيكون في الأساس غلافًا
00:01:06حول Light RAG.
00:01:07سنظل نملك نفس واجهة مستخدم ويب Light RAG
00:01:10مع بعض الاختلافات،
00:01:11ولكن كل ما يتم إدخاله في RAG Anything،
00:01:13كما تعلمون، هذه المستندات غير النصية،
00:01:15تجد طريقها في النهاية إلى نفس الرسم البياني للمعرفة.
00:01:17سنطرح عليه نفس الأسئلة.
00:01:19وسنستخدم نفس واجهة برمجة التطبيقات للاستعلام عنه
00:01:22من خلال Claude Code كما فعلنا بالأمس.
00:01:24والوظائف التي سنضيفها اليوم
00:01:26كبيرة ومهمة.
00:01:28لا يكفي بناء نظام RAG يعتمد على النصوص فقط.
00:01:30فنحن لا نعمل في عالم يتكون من نصوص فقط.
00:01:32كم منكم حصل على مستند PDF
00:01:34ليس نصيًا من الناحية التقنية، بل هو مجرد صورة ممسوحة ضوئيًا.
00:01:36لا يمكن لـ Light RAG التعامل مع ذلك حقًا، بينما يمكن لـ RAG Anything فعل ذلك.
00:01:39الآن سنتعمق قليلاً في الجوانب التقنية اليوم.
00:01:40سندخل في التفاصيل وسأشرح بالضبط
00:01:43كيف يعمل هذا النظام بالكامل.
00:01:44ولكن بالصورة الكبيرة، ماذا يفعل؟
00:01:46RAG Anything ينظر فقط إلى المستندات
00:01:49التي ليست نصوصًا.
00:01:50إنه يفعل تمامًا ما يفعله Light RAG،
00:01:52باستثناء هذه المستندات غير النصية.
00:01:55وبعد أن ينشئ الرسم البياني للمعرفة الخاص به
00:01:56وقاعدة بيانات المتجهات الخاصة به،
00:01:58يقوم بدمجها مع قاعدة بيانات Light RAG،
00:02:00وهذا هو السبب في أن كل شيء ينتهي به المطاف في مكان واحد
00:02:04منظم ومرتب لنطرح الأسئلة حوله.
00:02:06الآن، العيوب الوحيدة في RAG Anything
00:02:08هي أنه أثقل قليلاً.
00:02:09يتعين علينا تنزيل بعض النماذج التي تعمل على أجهزة الكمبيوتر الخاصة بنا
00:02:12والتي تساعد في تحليل بعض هذه المستندات غير النصية.
00:02:14وعندما يتعلق الأمر فعليًا باستيعاب المستندات غير النصية،
00:02:18لا يمكننا القيام بذلك حقًا من خلال واجهة مستخدم Light RAG.
00:02:22علينا استخدام نص برمجي.
00:02:23لحسن الحظ، هنا يأتي دور Claude Code.
00:02:25لذلك بالنسبة لك، كمستخدم، بعد إعداد كل هذا،
00:02:28كل ما عليك فعله لاستيعاب المستندات غير النصية
00:02:31هو إخبار Claude Code، مرحبًا، اذهب،
00:02:33واستخدم مهارة RAG Anything واستوعب هذا المستند.
00:02:36الأمر بهذه البساطة.
00:02:37وتطرح الأسئلة بنفس الطريقة التي فعلتها من قبل.
00:02:39لذا فالأمر ليس سيئًا حقًا.
00:02:40ومرة أخرى، تحصل على كل هذه الوظائف بمجرد القيام بذلك.
00:02:43الآن، قبل أن ندخل في كيفية عمل RAG Anything فعليًا،
00:02:46أريد فقط أن أعلن سريعًا عن دورة Claude Code الاحترافية الخاصة بي
00:02:49التي صدرت قبل بضعة أسابيع،
00:02:50وهي المكان الأول للانتقال من الصفر إلى مطور ذكاء اصطناعي،
00:02:53خاصة إذا لم تكن قادمًا من خلفية تقنية.
00:02:55أنا أقوم بتحديث هذه الدورة حرفيًا كل أسبوع.
00:02:57هناك تحديث جديد قادم غدًا.
00:02:59لذا إذا كنت شخصًا يحاول حقًا إتقان
00:03:01Claude Code ولا يملك أدنى فكرة من أين يبدأ،
00:03:03حسنًا، هذا لك.
00:03:05يوجد رابط لذلك في التعليقات.
00:03:07إنه داخل Chase AI Plus.
00:03:09لدي أيضًا مجتمع Chase AI المجاني.
00:03:11إذا كان هذا أكثر من اللازم بالنسبة لك،
00:03:12وكنت قد بدأت للتو.
00:03:14الرابط الخاص به في الوصف.
00:03:15هذا هو المكان الذي ستجد فيه أيضًا الأوامر والمهارات
00:03:19التي سأتحدث عنها اليوم.
00:03:20لذا تأكد من مراجعة ذلك بغض النظر عن أي شيء.
00:03:22الآن دعونا نتحدث عن RAG Anything
00:03:23وكيف يعمل هذا الشيء فعليًا.
00:03:25بصراحة، إنه بسيط للغاية، وواضح بحد ذاته.
00:03:28لذلك حتى لا أضيع وقتكم،
00:03:29سأبقي هذه الصورة معروضة لمدة 10 ثوانٍ تقريبًا،
00:03:32ثم ننتقل إلى الشيء التالي.
00:03:34حسنا، هذا جيد جدا.
00:03:39حسنا، لننتقل.
00:03:41أنا أمزح فقط.
00:03:42هناك في الواقع الكثير مما يحدث.
00:03:44هذه الصورة تجعل الأمر يبدو أكثر تعقيدًا مما هو عليه في الواقع.
00:03:46وإذا كنت تفهم ما فعلناه في ذلك اليوم مع Light RAG،
00:03:50تذكر كل هذا النقاش، فستكون بخير.
00:03:52RAG Anything يعمل بطريقة مماثلة،
00:03:55فقط مع بضع خطوات إضافية.
00:03:56وأريد أن أمر عليها،
00:03:57لأنني أعتقد أنه من المهم أن نفهم
00:03:58كيف تعمل هذه الأشياء.
00:04:00أعتقد في مجال الذكاء الاصطناعي بشكل عام،
00:04:01من السهل أن يصبح التركيز عمليًا للغاية.
00:04:04مثل: "أريد فقط أن أعرف كيف أقوم بتثبيته يا Chase،
00:04:05ثم كيف أستخدمه."
00:04:06هذا جيد، يمكنك القفز للأمام إذا كنت من هؤلاء.
00:04:08لكنني أعتقد أنه إذا كنت تريد أن تصبح مطور ذكاء اصطناعي أكثر نضجًا
00:04:11وتريد نوعًا ما أن تميز نفسك
00:04:13عن مجرد شخص يمكنني استبداله بآلة،
00:04:15يضغط فقط على "قبول، قبول، قبول"، وينسخ
00:04:17الأوامر والمهارات،
00:04:18فأعتقد أنه من المهم أن يكون لديك بعض، كما تعلمون،
00:04:21الفهم للبنية البرمجية،
00:04:22لأن هذا هو ما سيميزك
00:04:23عن الأشخاص الآخرين.
00:04:24وليس فقط من حيث كيفية استخدام نظام RAG هذا،
00:04:27ولكن في مشاريع أكبر وذات مستوى أعلى، أليس كذلك؟
00:04:30هذه هي الطريقة التي تبدأ بها في إنشاء مهاراتك الخاصة،
00:04:34وتصبح بارعًا حقًا في هذه الأمور.
00:04:35لذا فلنتحدث عنها.
00:04:37إذن، RAG Anything.
00:04:38دعونا نتحدث عن المشكلة، أليس كذلك؟
00:04:40المشكلة هي أن لدي ملف PDF وهو نسخة ممسوحة ضوئيًا
00:04:44وهو ليس نصيًا في الواقع،
00:04:45ومع ذلك أحتاج لوضعه في نظام RAG الخاص بي.
00:04:46نظام Light RAG لا يمكنه التعامل معه.
00:04:48لذا يأتي دور RAG Anything، أليس كذلك؟
00:04:51بشعار اللاما الرائع ذو النظارات الستة.
00:04:53إذن، أول شيء يحدث
00:04:56هو أنني سأقوم باستيعاب هذا المستند في RAG Anything.
00:05:00وأول شيء سيفعله
00:05:02هو أنه سيستخدم برنامجًا يسمى MinerU،
00:05:05الذي يعمل على جهاز الكمبيوتر الخاص بك محليًا تمامًا ومجانًا.
00:05:08وسيقوم أساسًا بتفكيك هذا المستند
00:05:11إلى أجزائه المكونة.
00:05:12MinerU هو مشروع مفتوح المصدر.
00:05:14مرة أخرى، هو في الأساس محلل مستندات
00:05:16يتضمن مجموعة من النماذج المتخصصة الصغيرة.
00:05:19كل ما تحتاج إلى معرفته هو، إذا كنت تخشى هذا،
00:05:21فهو مفتوح المصدر.
00:05:22سأضع رابطًا له بالأسفل.
00:05:23ومرة أخرى، هذا هو ما سيعمل
00:05:25ويقوم بمعظم العمل لنا اليوم.
00:05:26لذا فإن MinerU ينظر إلى هذا المستند ويقول،
00:05:29"حسنًا، هذا ترويسة (header)."
00:05:32ويقوم بإنشاء مربع حول الترويسة.
00:05:33ويقول، "هذا نص."
00:05:36ويقول، "هذا مخطط."
00:05:39ويقول، "هذه صورة لمخطط بياني شريطي."
00:05:41ويقول، "هذه معادلة مكتوبة بلغة لاتكس (latex)."
00:05:44ما فعله هو أنه نظر إلى المستند
00:05:47وقام بتفكيكه، حسنًا، إلى أجزائه الخاصة.
00:05:50MinerU لا يفهم ما يوجد بالداخل هنا.
00:05:52MinerU لا يقرأ النص.
00:05:53إنه لا يستوعب النص.
00:05:55إنه لا يفهم عن ماذا يتحدث المخطط.
00:05:56إنه يعرف فقط: مخطط، نص، صورة، حسنًا؟
00:06:01من هناك، سيقوم بإرسال هذه الأجزاء المكونة
00:06:05إلى نماذج متخصصة فردية كجزء من MinerU.
00:06:10لذا فكل هذا غير مرئي بالنسبة لك.
00:06:12كل هذا يحدث تلقائيًا خلف الكواليس.
00:06:15لذلك النموذج، أحد النماذج يسمى PaddleOCR.
00:06:20هذا هو ما سينظر في النص.
00:06:21لذا فإن MinerU يرسل كتلة النص هذه إلى PaddleOCR
00:06:24على جهاز الكمبيوتر الخاص بك، وسيقوم باستخراج النص، حسنًا؟
00:06:28الآن بدلاً من أن يكون نصًا مصورًا،
00:06:30أصبح نصًا حقيقيًا يقرأ: أبلغت الشركة X عن نتائج قوية للربع الثالث من عام 23.
00:06:34النتائج مع نمو الإيرادات، وما إلى ذلك، وما إلى ذلك.
00:06:36صحيح؟ نفس الشيء بالنسبة لهذا النص.
00:06:40نفس الشيء بالنسبة للمخطط، أليس كذلك؟
00:06:41سيقوم أيضًا بتحويله إلى نص، أليس كذلك؟
00:06:43شيء يمكن لنموذج لغوي كبير التعامل معه.
00:06:45نفس الشيء مع معادلات لاتكس.
00:06:47لديه نموذج كامل يتعامل مع ذلك، أليس كذلك؟
00:06:48هذا الآن لم يعد لاتكس، بل أصبح نصًا بالفعل.
00:06:52باستثناء الصور.
00:06:54لذا سواء كان هذا مخططًا شريطيًا أو مجرد،
00:06:57إنه حقًا أي شيء لا يمكنه تحويله إلى نص.
00:07:00ما سيفعله بدلاً من ذلك
00:07:01هو أنه سيأخذ لقطة شاشة له،
00:07:03وهذا أمر مهم، حسنًا؟
00:07:05إذن الآن أصبحت هذه لقطة شاشة.
00:07:07إنها صورة، لقطة شاشة. أحب ذلك.
00:07:11إذن ماذا لدينا؟
00:07:13لقد أدخلنا مستندًا غير نصي.
00:07:16تم التعرف عليه وتقسيمه إلى أجزائه المكونة،
00:07:18وقد أخذنا تلك الأجزاء المكونة
00:07:20وقمنا بتقسيمها إلى فئتين، أليس كذلك؟
00:07:22لدينا وعاء للنصوص ووعاء للصور.
00:07:26من المهم إدراك ذلك.
00:07:28هناك مساران يمكن المضي فيهما، صورة أو نص.
00:07:31حسناً، هل أنتم معي؟
00:07:32إذاً ما سيفعله الآن
00:07:34هو أننا انتهينا من استخدام هذه النماذج الداخلية.
00:07:36الآن نحتاج لإحضار النماذج القوية.
00:07:37الآن نحتاج لإحضار شيء مثل GPT 5.4 Mini.
00:07:40وتجدر الإشارة إلى أن هذا ليس هو الحال بالضرورة.
00:07:42يمكنك إبقاء كل هذا محلياً إذا أردت.
00:07:44يمكنك القيام بشيء مثل Ollama.
00:07:45لذا الآن آخذ وعاء النصوص وأدفعه إلى GPT 5.4 Mini.
00:07:50وأقوم بتضمين مطالبة تقول،
00:07:52أريدك أن تقسم هذا النص لشيئين.
00:07:55أريدك أن تأخذ ذلك النص
00:07:57وتقسمه إلى كيانات وعلاقات.
00:08:01هل تتذكرون الكيانات والعلاقات؟
00:08:03هل تتذكرون رسمنا البياني للمعرفة؟
00:08:05كيان، كيان، ونوع العلاقة بينهما.
00:08:09حسناً، وأريدك أن تقسمه
00:08:13إلى ما سيكون تضمينات لقاعدة بيانات متجهة.
00:08:17لذا تضمينات، تضمين،
00:08:21وبعد ذلك سأقول فقط كيانات بالإضافة إلى علاقات.
00:08:26الآن، بالتفكير مسبقاً، ماذا سيحدث هناك؟
00:08:29حسناً، التضمينات ستصبح تضمينات
00:08:32في قاعدة بيانات متجهة، والكيانات والعلاقات
00:08:35ستصبح رسماً بيانياً للمعرفة،
00:08:37تماماً كما فعلنا مع LightRag، أليس كذلك؟
00:08:39نفس الشيء تماماً، إلا أنه الآن،
00:08:42الآن هو من وعاء النصوص.
00:08:44ولكن ماذا عن تلك الصور التي كانت لدينا؟
00:08:47ماذا سنفعل بهذه الصور؟
00:08:48نفس الشيء، سيتم دفع هذا إلى 5.4 أيضاً،
00:08:52ولكن سيكون كلقطة شاشة، كتعرف ضوئي على الحروف (OCR).
00:08:55لذا نحن نخبر GPT 5.4، ألقِ نظرة على لقطة الشاشة هذه
00:08:59وقسمها إلى شيئين، صحيح؟
00:09:02تضمينات وأيضاً كيانات بالإضافة إلى علاقات.
00:09:06الآن، لماذا نفعل ذلك؟
00:09:07لماذا لا نحشر كل شيء في نفس المطالبة بالضبط
00:09:09ونجعلها تقوم بالتعرف الضوئي على هذا الشيء بالكامل؟
00:09:12لماذا لا نعامل هذا الشيء بالكامل كلقطة شاشة؟
00:09:14لأن ذلك مكلف وبطيء.
00:09:16ما قرر نظام RAG-anything فعله،
00:09:17وأعتقد أنه ذكي نوعاً ما،
00:09:19هو أنه يستخدم مبضعاً جراحياً لهذا على جهاز الكمبيوتر الخاص بك
00:09:21على المستوى المحلي، حيث يقسمه إلى نصوص،
00:09:24ويقسمه إلى لقطات شاشة.
00:09:25لذا عندما نمر بهذين المسارين،
00:09:27فإنك توفر الكثير من المال والوقت.
00:09:29لأنك لو تخيلت أنك تحاول جعل ChatGPT
00:09:31ينظر إلى 10,000 لقطة شاشة ثم يستخرج كل النصوص
00:09:34ومن النصوص، يقسمها إلى تضمينات
00:09:36وكيانات وعلاقات.
00:09:37سيستغرق ذلك الكثير من الوقت والمال.
00:09:38هذا أذكى.
00:09:40لذا الكيانات والعلاقات من جانب الصور،
00:09:44هي نفس الشيء تماماً.
00:09:45تحصل أيضاً على قاعدة بيانات متجهة
00:09:49وتحصل أيضاً على رسم بياني للمعرفة.
00:09:52ماذا يعني ذلك؟
00:09:53هذا يعني أنه من وثيقة واحدة،
00:09:55أنشأنا الآن أربعة أشياء، أليس كذلك؟
00:09:59لدينا قاعدتا بيانات متجهتان
00:10:02ولدينا رسمان بيانيان للمعرفة
00:10:04من وثيقتنا الواحدة غير النصية.
00:10:08هل أنتم معي؟
00:10:09الآن، ما الذي علينا فعله؟
00:10:10حسناً، الأمر بديهي نوعاً ما.
00:10:11نحن بحاجة لدمج هذه الأشياء.
00:10:12لذا سيأخذ هذه الأشياء الأربعة
00:10:15ويدمجها معاً، صحيح؟
00:10:18سوف تتراكب فوق بعضها البعض تقريباً.
00:10:19سيقوم بمطابقتها بناءً على الكيانات، أساساً.
00:10:22وستحصل في النهاية على،
00:10:27قاعدة بيانات متجهة واحدة ورسم بياني معرفي واحد.
00:10:31تقريباً نفس الشيء
00:10:32الذي فعلناه هنا مع LightRag.
00:10:34بسيط بما فيه الكفاية.
00:10:35إذا كنا نستخدم RAG-anything فقط،
00:10:38سيكون هذا هو المدى الذي نصل إليه.
00:10:40ولكن، تذكروا أننا نحاول وضع RAG-anything
00:10:44فوق نظام LightRag.
00:10:46أريد كل قوة LightRag
00:10:48وأريد كل قوة RAG-anything.
00:10:50إذاً ماذا يحدث الآن؟
00:10:52حسناً، ما يحدث هو مجرد تكرار لما رأيتموه للتو.
00:10:54لذا دعونا ننزل بهذا قليلاً.
00:10:55الآن لدينا مجموعة RAG-anything الخاصة بنا
00:11:00مع قاعدة بيانات متجهة ورسم بياني للمعرفة
00:11:05ولدينا مجموعة LightRag الخاصة بنا.
00:11:06إذاً ماذا نفعل؟
00:11:07نحن فقط نقوم بدمجهما معاً.
00:11:09ثم ما يحدث هو أننا نحصل على RAG-everything
00:11:13ونظام LightRag مدمجين،
00:11:15مما يعطينا أخيراً قاعدة بيانات متجهة واحدة
00:11:20ورسم بياني معرفي واحد.
00:11:21ومن هناك، يصبح الأمر كما كان من قبل
00:11:24مع LightRag بمفرده، أليس كذلك؟
00:11:27تطرح سؤالاً حول أي شيء،
00:11:31يتم تحويل هذا السؤال إلى متجه هنا.
00:11:33فيسحب المتجهات ذات الصلة
00:11:35ثم يذهب أيضاً إلى الأسفل هنا،
00:11:37يجد الكيان الصحيح
00:11:39ثم يلقي نظرة على ما هو قريب منه، حسناً؟
00:11:43ربما كان ذلك مربكاً بعض الشيء.
00:11:44آمل أنني شرحت ذلك بشكل جيد.
00:11:46خلاصة القول لأربككم أكثر.
00:11:51ماذا يحدث عندما أضيف وثيقة لا يمكن أن تكون نصاً؟
00:11:54تذهب إلى نظام RAG-anything.
00:11:56يقوم RAG-anything باستخراج ما يمكنه من نصوص
00:11:58ثم يستخرج ما يمكنه من صور أيضاً.
00:12:00ويرسل كلاهما إلى ChatGPT
00:12:02أو أي نظام ذكاء اصطناعي تريده.
00:12:05فيقسم ذلك إلى تضمينات،
00:12:07كيانات وعلاقات.
00:12:09يتم تحويلها إلى رسوم بيانية معرفية وقواعد بيانات متجهة.
00:12:13ثم ندمجها معاً.
00:12:15لدينا الآن قاعدة بيانات متجهة واحدة
00:12:17ورسم بياني معرفي واحد لنظام RAG-anything.
00:12:19وبما أننا كنا نقوم بتشغيل هذا بالفعل في LightRag،
00:12:22أو إذا أضفت أي مستندات أخرى فوق ذلك،
00:12:24فسيكون لديك قاعدة بيانات متجهة موجودة
00:12:27ورسم بياني معرفي موجود.
00:12:29لحل ذلك، نقوم ببساطة بدمجهما.
00:12:32وفي النهاية، لن تلاحظ أي شيء على الإطلاق.
00:12:35مرة أخرى، كمستخدم، كل هذا غير مرئي بالنسبة لك، حسناً؟
00:12:39لا شيء من هذا يهمك حقاً.
00:12:41الشيء الوحيد الذي قد يهمك
00:12:42هو ما يحدث هنا مع GPT 5.4
00:12:45لأنه سيكلفك بعض المال.
00:12:47ولكن لأغراض تعليمية،
00:12:50هذه هي الطريقة التي يتكامل بها نظام RAG-anything
00:12:53مع نظام LightRag.
00:12:55وفي نهاية المطاف،
00:12:57هذا يعني فقط أن لديك نظام RAG
00:12:58يمكنه التعامل مع الوثائق غير النصية.
00:13:00وإذا كنتم لا تزالون هنا بعد كل ذلك،
00:13:03يمكننا الآن الانتقال إلى كيفية تثبيت هذا الشيء
00:13:07واستخدامه.
00:13:08لنتحدث الآن عن التثبيت
00:13:09وكيفية استخدامه فعلياً
00:13:10وبضعة أشياء يجب الانتباه إليها.
00:13:11لقد أنشأت مطالبة بطلقة واحدة يمكنك إعطاؤها لـ Claude code
00:13:14والتي ستقوم بتثبيت كل شيء لك
00:13:17وتحديث النماذج المناسبة وكل ذلك.
00:13:19كل ما عليك فعله هو التأكد
00:13:20أنك في دليل LightRag الخاص بك عند تشغيل هذا.
00:13:23هناك حقاً ثلاثة أشياء سيقوم بها.
00:13:25أولاً، سيتأكد
00:13:27من أننا قمنا بتحديث مسار التخزين الصحيح
00:13:29بما أن لديك بالفعل نسخة Docker light rag قيد التشغيل.
00:13:32ثانياً، نريد تحديث النموذج
00:13:33لأنه استناداً إلى GitHub،
00:13:34تم إنشاؤه منذ فترة وجيزة في الأصل.
00:13:37لذا فإن جميع الأمثلة البرمجية وكل ذلك
00:13:39تستخدم أشياء مثل GPT 4.0 mini.
00:13:41لذا جعلته يستخدم 5.4 nano.
00:13:43افهم أنه يمكنك تغيير ذلك إذا أردت.
00:13:45لكنني جعلته يستخدم 5.4 nano بالإضافة إلى إبقاء
00:13:48تضمين النص 3 large حتى نتمكن من استخدام OpenAI
00:13:51لكل شيء.
00:13:51هذا يبقي الأمر بسيطاً، العب به كما تشاء.
00:13:54أخيراً، بما أننا نستخدم RAG-anything
00:13:55كغلاف أساسي فوق LightRag،
00:13:58فإن بعض الأمثلة البرمجية المعطاة في مستودع GitHub
00:14:02خاطئة نوعاً ما.
00:14:03هناك مثل هذا الخطأ في التغليف المزدوج للتضمين،
00:14:05والذي مرة أخرى، نخبر Claude code بإصلاحه
00:14:08وسيقوم بإصلاحه.
00:14:09لذا ستستخدم فقط هذه المطالبة.
00:14:12مرة أخرى، هي موجودة داخل مجتمع المدرسة المجاني.
00:14:14الرابط موجود في الوصف.
00:14:15فقط ابحث عن RAG-anything وستجده هناك.
00:14:18وبمجرد تشغيل تلك المطالبة،
00:14:19سيبدأ في تنزيل كل شيء
00:14:21وافهم أنه ثقيل قليلاً
00:14:22لأنه يحتاج لتنزيل MinerU
00:14:23وكل تلك التبعيات أيضاً.
00:14:25الآن لنتحدث عن استيعاب المستندات
00:14:26لأن هذا الأمر مزعج ومرهق نوعاً ما.
00:14:28في عالم مثالي، فإن وضع LightRag بالإضافة إلى RAG-anything
00:14:33سيكون انسيابياً للغاية ويمكنني وضع
00:14:35أي شيء أريده في LightRag / RAG-anything
00:14:40من خلال واجهة واحدة.
00:14:41يمكنني الدخول إلى واجهة المستخدم، والذهاب إلى التحميل
00:14:44والقيام بذلك.
00:14:45لكنك لا تستطيع فعل ذلك حقاً مع RAG-anything وLightRag.
00:14:48لا يزال بإمكانك فعل ذلك للمستندات النصية.
00:14:50لذا لا يزال بإمكانك القيام بسير العمل العادي
00:14:52الذي أظهرته في الفيديو السابق حيث تذهب لواجهة المستخدم
00:14:54أو تستخدم مهارة LightRag لتحميل المستندات.
00:14:59لا يمكنك فعل ذلك مع RAG-anything.
00:15:01يجب أن يمر عبر نفق مختلف أساساً،
00:15:04مسار مختلف.
00:15:05لكن هذا المسار المختلف مع RAG-anything
00:15:07هو نص برمجى بلغة بايثون.
00:15:09لا توجد واجهة مستخدم، ولا يوجد زر للضغط عليه.
00:15:11إنه حرفياً نص برمجى.
00:15:12إنها شفرة برمجية عليك تشغيلها.
00:15:14الآن، لحسن الحظ، هنا يأتي دور Claude code
00:15:16ويجعل الأمر بسيطًا للغاية لأننا سنقوم فقط بتحويل
00:15:19هذا السكريبت الموجود داخل المستودع إلى مهارة (skill).
00:15:23لذا بالنسبة لك، بمجرد إنشاء هذه المهارة،
00:15:25كل ما عليك فعله هو أن تقول لـ Claude code،
00:15:28استخدم مهارة "rag anything" لرفع كل هذه المستندات،
00:15:32كل هذه المستندات غير النصية.
00:15:33وعندما يفعل ذلك،
00:15:34سيمر بعملية المعالجة عبر "minor-u".
00:15:36سيستغرق الأمر بعض الوقت لأنه يتعين عليه القيام بكل هذه،
00:15:39كما تعلم، الأشياء التي شرحناها
00:15:41في القسم التقني تقريبًا،
00:15:43لكنه سيرفعها إلى "light rag"
00:15:45وستظهر داخل مستنداتك
00:15:47وداخل الرسم البياني للمعرفة الخاص بك.
00:15:49حسنًا، هذا هو الجزء الغريب الوحيد الذي تحتاج لمعرفته.
00:15:51الجزء الغريب الآخر، بصراحة، هو أنه بمجرد القيام بذلك،
00:15:54يتطلب منك الأمر أيضًا إعادة تشغيل حاوية Docker،
00:15:58ولكن كجزء من المهارة، يحدث ذلك تلقائيًا.
00:16:00لذا مرة أخرى، من وجهة نظرك كمستخدم،
00:16:03الفرق الوحيد هو أنك تحتاج فقط لاستدعاء المهارة.
00:16:06الآن هذه المهارة، مهارة الرفع لـ "rag anything"
00:16:08موجودة أيضًا داخل المجتمع المجاني.
00:16:10لذا فقط قم بتحميلها ثم ضعها في مجلد "dot Claude"
00:16:13وبعد ذلك ستعمل بشكل جيد تمامًا.
00:16:14الآن، ملاحظة واحدة بشأن استغراق "minor-u" وقتًا طويلاً،
00:16:17هذا بسبب الطريقة التي يعمل بها "rag anything"
00:16:19فعندما تقوم بتحميله، سيعمل على المعالج (CPU) الخاص بك.
00:16:22إذا كنت تريده أن يعمل على معالج الرسومات (GPU)،
00:16:24فيجب أن يكون لديك إصدار مختلف من PyTorch.
00:16:27إذا كان كل هذا يبدو معقدًا بالنسبة لك،
00:16:29فقط إذا كان بطيئًا جدًا بالنسبة لك، أخبر Claude code،
00:16:32مهلاً، هل يمكننا تشغيل PyTorch؟
00:16:34هل يمكننا تشغيل "minor-u" على معالج الرسومات الخاص بنا؟
00:16:36وسوف يوجهك خلال العملية.
00:16:37أو في الواقع، سيفعل كل ذلك بمفرده.
00:16:39ولكن بشكل افتراضي، سيعمل فقط على المعالج (CPU).
00:16:41لذا فقط كن على علم بذلك.
00:16:42دعونا نرى مثالاً على هذا في الواقع.
00:16:44أحد المستندات التي قمنا بإدراجها كان
00:16:48ملف PDF لشركة "Novatech"، صحيح؟
00:16:50تحليل إيرادات البرمجيات كخدمة (SaaS).
00:16:51إنه وهمي تمامًا.
00:16:52لكن النقطة هي أننا أدرجنا شيئًا
00:16:55يحتوي على هذا النوع من المخططات البيانية، أليس كذلك؟
00:16:57هذا شيء كان من الواضح أنه سيتم استخراجه
00:16:59كصورة وإرسالها إلى ChatGPT، وما إلى ذلك.
00:17:01عادةً لن يتمكن "light rag" من التعامل مع هذا
00:17:03لأنها مجرد صورة.
00:17:05إنها رسوم بيانية، ومن الصعب عليه تفكيك ذلك.
00:17:07ولكن بما أننا قمنا بتشغيل هذا عبر "rag anything"،
00:17:10يمكننا الآن طرح سؤال عبر Claude code حول هذا الموضوع.
00:17:13لذا سألت Claude code،
00:17:14هل يمكننا الاستعلام في قاعدة بيانات "light rag"
00:17:15عن اتجاه الإيرادات الشهري لشركة Novatech Inc
00:17:18من يناير إلى سبتمبر 2025؟
00:17:20يمكنك أن ترى هنا، أنه لم يستخدم المهارة حتى.
00:17:22لقد قام مباشرة بطلب واجهة البرمجة (API)،
00:17:24وهو أمر جيد أيضًا مع الاستعلام.
00:17:26ما هو اتجاه الإيرادات الشهري لشركة Novatech Inc
00:17:29من كذا وكذا وكذا.
00:17:30الآن قدم استجابة كاملة.
00:17:32لذا يمكنني إلقاء نظرة على الاستجابة الخام إذا أردت.
00:17:35ولكن ماذا فعل؟
00:17:36لقد عاد بتفاصيل شهرية كاملة.
00:17:39نرى يناير 4.6، وفبراير 4.9،
00:17:43مارس 5.4، وهكذا دواليك.
00:17:46لذا فيما يتعلق بطرح أسئلة حول هذه المستندات الجديدة،
00:17:48الأمر هو نفسه كما كان من قبل.
00:17:49الفرق الوحيد هو عملية الرفع.
00:17:51كل ما عليك فعله هو استدعاء تلك المهارة
00:17:53التي سأعطيك إياها ثم تخبر Claude code
00:17:55ما الذي تريد وضعه هناك.
00:17:56يمكنك توجيهه إلى مجلد كامل.
00:17:58يمكنك توجيهه إلى ملف محمل معين.
00:18:00الأمر بهذه السهولة.
00:18:01هذا هو الشيء الغريب الوحيد الذي يجب أن تعتاد عليه
00:18:04وهو مسارا الرفع هذان.
00:18:05لكن السؤال والإجابة الفعليين،
00:18:07يتمان بلغة بسيطة.
00:18:09لغة بسيطة، حتى لو كان لديك المهارات أيضًا،
00:18:11والتي قدمتها أيضًا في الفيديو السابق،
00:18:13ولكن Claude code ذكي أيضًا بما يكفي
00:18:14لفهم بنية واجهة البرمجة لهذا الأمر برمته.
00:18:17لأنه محلي، وموجود على جهاز الكمبيوتر الخاص بك.
00:18:19هذا كل ما في الأمر حقًا عندما يتعلق بـ "rag anything".
00:18:21أعلم أن غالبية هذا الفيديو
00:18:22ركزت نوعًا ما على الجوانب التقنية،
00:18:24ولكن كما ترى، بمجرد أن بنينا أساس "light rag"،
00:18:28فإن إضافة "rag anything" فوقه ليس بالأمر الصعب،
00:18:32خاصة إذا استخدمنا ذلك المحفز المباشر الذي أعطيتك إياه.
00:18:35هناك بعض الأشياء التي يمكنك تعديلها في التفاصيل
00:18:37مثل أي شيء يتعلق بالاستعلام عنه،
00:18:39ولكن حقًا مع Claude code،
00:18:41فهو المسؤول نوعًا ما عن جميع الأوزان
00:18:43التي يمكنك ضبطها داخل "light rag".
00:18:45وعندما أقول ذلك، فأنا أتحدث عن
00:18:45إذا ذهبنا إلى قسم الاسترجاع،
00:18:47كل المعلمات هنا على اليمين.
00:18:49مرة أخرى، يعرف Claude code أيها يميل لأن يكون الأفضل لك.
00:18:52بشكل عام، آمل أن يكون هذا قد وضح
00:18:56مدى سهولة إعداد "rag anything"،
00:18:58وأيضًا مدى سهولة إضافة هذا المستوى من الوظائف
00:19:02إلى أنظمة RAG الخاصة بك،
00:19:03والتي في كثير من أنظمة RAG لا يكون ذلك ممكنًا
00:19:05أو يكون مكلفًا للغاية.
00:19:06وهذا رخيص نسبيًا،
00:19:08خاصة مع نظام معالجة "minor-u" المحلي بالكامل
00:19:11الذي تمكنا من إعداده.
00:19:12لذا كما هو الحال دائمًا، أخبرني برأيك.
00:19:14تأكد من مراجعة Chase AI+
00:19:16إذا كنت ترغب في الحصول على دورة Claude code المتقدمة،
00:19:18وسأراك لاحقًا.

Key Takeaway

يعزز RAG Anything قدرات Light RAG من خلال استخدام أداة MinerU المحلية لتقسيم المستندات غير النصية إلى مسارات معالجة منفصلة تدمج البيانات البصرية في رسم بياني معرفي واحد.

Highlights

يعالج RAG Anything القصور في أنظمة RAG التقليدية من خلال استيعاب الصور والمخططات والرسوم البيانية وملفات PDF الممسوحة ضوئيًا.

يستخدم النظام أداة MinerU مفتوحة المصدر لتفكيك المستندات محليًا إلى أجزاء منفصلة تشمل النصوص والمعادلات الرياضية ولقطات الشاشة.

تتحول المعادلات الرياضية المكتوبة بلغة LaTeX والنصوص الممسوحة ضوئيًا إلى صيغ نصية قابلة للقراءة بواسطة النماذج اللغوية الكبيرة عبر تقنيات OCR.

يدمج RAG Anything بين الرسم البياني للمعرفة (Knowledge Graph) وقاعدة بيانات المتجهات (Vector Database) لتقديم إجابات دقيقة حول محتوى الصور.

أثبت النظام كفاءته في استخراج بيانات مالية دقيقة من رسم بياني لشركة Novatech يتضمن إيرادات شهرية محددة مثل 4.6 مليون لليناير و5.4 مليون لمارس 2025.

Timeline

حل مشكلة المستندات غير النصية في أنظمة RAG

  • تقتصر معظم أنظمة RAG الحالية على معالجة النصوص فقط وتفشل في قراءة المخططات والرسوم البيانية.
  • يعمل RAG Anything كغلاف تقني فوق نظام Light RAG لإضافة قدرات المعالجة البصرية.
  • تنتقل كافة المستندات غير النصية في النهاية إلى نفس الرسم البياني للمعرفة الموحد.

تواجه أنظمة استرداد المعلومات المدعمة بالتوليد فجوة كبيرة عند التعامل مع ملفات PDF التي هي عبارة عن صور ممسوحة ضوئيًا. يوفر هذا النظام حلاً من خلال الربط المباشر مع خادم Light RAG الموجود مسبقًا. يتيح ذلك للمستخدمين الاستعلام عن محتوى الصور والرسوم بنفس واجهة برمجة التطبيقات المستخدمة للنصوص.

البنية التقنية وآلية تفكيك المستندات عبر MinerU

  • يقوم برنامج MinerU المحلي بتقسيم المستند إلى مربعات محيطة تميز بين العناوين والنصوص والجداول والصور.
  • تستخدم تقنية PaddleOCR لتحويل كتل النصوص المصورة إلى نص حقيقي وقابل للمعالجة.
  • تتحول المعادلات الرياضية المعقدة إلى نصوص عبر نموذج متخصص داخل MinerU قبل إرسالها للنماذج اللغوية.
  • تُعالج الصور والمخططات التي لا يمكن تحويلها لنص كلقطات شاشة مستقلة لإرسالها لنماذج الرؤية الحاسوبية.

تعتمد الكفاءة هنا على مبدأ تقسيم العمل، حيث لا يقرأ MinerU المحتوى بل يحدد نوعه فقط. يتم توجيه كل جزء إلى نموذج متخصص؛ فالنصوص تذهب لمحرك OCR والمعادلات لنموذج رياضي. هذا النهج يوفر الموارد من خلال عدم معاملة المستند الكامل كصورة واحدة كبيرة، مما يقلل من استهلاك واجهة برمجة التطبيقات.

دمج قواعد البيانات المتجهة والرسوم البيانية المعرفية

  • تستخرج النماذج مثل GPT-5.4 Nano الكيانات والعلاقات من المسارين النصي والبصري بشكل منفصل.
  • تتولد أربعة عناصر من وثيقة واحدة: قاعدتا بيانات متجهتان ورسمان بيانيان للمعرفة.
  • تدمج هذه العناصر بناءً على تطابق الكيانات للوصول إلى قاعدة بيانات ورسم بياني موحدين.
  • يوفر استخدام النماذج المحلية في المراحل الأولية تكاليف مالية كبيرة مقارنة بإرسال المستندات كاملة للسحابة.

تتم عملية المعالجة من خلال تحويل النص المستخرج والصور إلى تضمينات (embeddings) وكيانات مرتبطة. يعمل النظام على مطابقة هذه البيانات لتتراكب فوق بعضها البعض. النتيجة النهائية هي نظام هجين يجمع قوة Light RAG في العلاقات النصية وقدرة RAG Anything في تحليل البيانات البصرية.

التنفيذ العملي واستخدام Claude Code كواجهة تحكم

  • تتم عملية استيعاب المستندات غير النصية عبر سكريبت بايثون يتم تحويله إلى مهارة داخل Claude Code.
  • يتطلب تشغيل MinerU على معالج الرسوميات (GPU) إصدارًا محددًا من مكتبة PyTorch لتسريع العملية.
  • أظهرت التجارب قدرة النظام على استرداد بيانات دقيقة من مخططات بيانية لشركة Novatech لم تكن متاحة للنص المجرد.
  • تتم الإجابة على الأسئلة بلغة طبيعية بسيطة دون حاجة المستخدم للتدخل في المعايير التقنية المعقدة.

نظراً لعدم وجود واجهة مستخدم رسومية لرفع الملفات في RAG Anything، يتم الاعتماد على Claude Code كواجهة برمجية ذكية. يمكن للمستخدم توجيه النظام لمجلد كامل يحتوي على صور وجداول، وسيقوم النظام آلياً بمعالجتها ودمجها في الرسم البياني. يظهر الاختبار العملي أن النظام استطاع تحديد اتجاهات الإيرادات الشهرية بدقة من خلال قراءة المخطط البياني المضمن في ملف PDF ممسوح ضوئيًا.

Community Posts

View all posts