إيه هو الـ RAG؟

(RAG) (RAG) هو بنية للذكاء الاصطناعي بتحسن أداء نموذج اللغة (LLM) (LLM) عن طريق تزويده بسياق ومعلومات مسترجعة ومهمة في نفس اللحظة اللي بيجاوب فيها على السؤال. بدل ما يعتمد بس على المعرفة اللي متخزنة جوه أوزان النموذج وقت التدريب، نظام الـ RAG بيجيب الأول المستندات الأكثر صلة من قاعدة معرفية متظبطة، وبعدين يبعت المستندات دي مع سؤال المستخدم لنموذج الـ LLM، والنموذج بدوره بيصيغ إجابة دقيقة ومبنية على المعلومات دي.

المصطلح ده ظهر لأول مرة في بحث سنة 2020 كتبه لويس وزمايله في Meta AI، بس المفهوم اتطور من وقتها وبقى تخصص هندسي كامل بيشمل مخازن المتجهات (vector stores)، نماذج التضمين (embedding models)، استراتيجيات تقسيم النصوص (chunking)، إعادة الترتيب (re-ranking)، وأطر التقييم.

في جوهره، الـ RAG بيحل مشكلة أساسية في نماذج اللغات الكبيرة: وهي إن معرفتهم بتقف عند وقت تدريبهم. عقود شركتك، الويكي الداخلية، وثائق المنتجات، وسجلات العملاء مش موجودة جوه أي نموذج عام — وعملية الـ fine-tuning (الضبط الدقيق) عشان تضيفهم مكلفة وبطيئة، وكمان لسه معرضة للـ hallucination (الهلوسة وتأليف إجابات) في الحالات النادرة. الـ RAG بيدي النموذج عيون يشوف بيها عالمك مع كل سؤال.

إزاي الـ RAG بيشتغل: خطوة بخطوة

الخطوات العملية (Pipeline) بتاع الـ RAG بيمر بتلات مراحل ورا بعض في كل مرة المستخدم بيبعت فيها سؤال.

الفهرسة (أوفلاين)

المستندات الأساسية بتاعتك — سواء PDFs، قواعد بيانات، واجهات برمجية (APIs)، أو صفحات ويب — بيتم قرايتها، وتقسيمها لأجزاء ليها معنى، وتحويلها لمتجهات رقمية (embeddings) باستخدام نموذج تضمين زي text-embedding-3-large من OpenAI أو Cohere Embed أو بدائل تانية مفتوحة المصدر. المتجهات دي بتتخزن في قاعدة بيانات متجهات (Vector Database) زي Pinecone أو Weaviate أو Qdrant أو pgvector.

الاسترجاع (أونلاين)

لما المستخدم يسأل سؤال، السؤال ده بيتحول لمتجهات بنفس النموذج، وبيتعمل بحث تشابه — زي cosine similarity أو approximate nearest-neighbor — جوه مخزن المتجهات. السيستم بيرجع أفضل أجزاء مناسبة (top-k)، عادة من 3 لـ 10 أجزاء، على حسب حالة الاستخدام وحجم الـ context window المتاح.

التوليد المعزز (أونلاين)

الأجزاء اللي استرجعناها بتتحقن جوه برومبت (Prompt) نموذج اللغة (LLM) كسياق ومعلومات مساعدة. النموذج بيقرا سؤال المستخدم والمعلومات المسترجعة، وبعدين بيولد إجابة مبنية على الأدلة دي. الأنظمة المتصممة صح بتشمل مراجع (citations) عشان المستخدم يقدر يتأكد من كل معلومة من مصدرها.

الفرق بين الـ RAG والـ Fine-Tuning: هتحتاج أنهي فيهم؟

التقنيتين دول بيلخبطوا ناس كتير، بس كل واحدة بتشخص مشكلة مختلفة. في معظم سيناريوهات الشركات، الـ RAG هو البداية الصح.

الـ RAG

المعرفة دايماً محدثة — تقدر تضيف مستندات من غير ما تعيد تدريب النموذج
الإجابات يمكن التحقق منها وليها مراجع — وده بيقلل خطر الهلوسة والتأليف
مش محتاج بنية تحتية لكروت الشاشة (GPUs) عشان التدريب
التكلفة بتزيد مع حجم الأسئلة مش مع حجم البيانات
تقدر تشغله في أيام مش شهور

جودة الإجابة بتعتمد على جودة الاسترجاع
حجم البرومبت الأكبر بيزود تكلفة التوكنز (Tokens)
بيحتاج متابعة وتنظيم مستمر لقاعدة المعرفة

الـ Fine-Tuning (الضبط الدقيق)

بيعلم النموذج نبرة صوت شركتك، التنسيق، والمصطلحات الخاصة بمجالك
استجابة أسرع (Inference) — مفيش وقت ضايع في الاسترجاع
أفضل في تنسيق المخرجات المنظمة زي الـ JSON schemas

مكلف وبياخد وقت طويل في إعادة التدريب
المعرفة ثابتة وممكن تقدم وتلغي بعد يوم من التدريب
لسه برضه ممكن يهلوس مع المدخلات الجديدة اللي ماشافهاش قبل كده
بيحتاج بيانات تدريب متصنفة وجاهزة وممكن ما تكونش عندك

Verdict: في معظم استخدامات الشركات — زي الأسئلة والأجوبة الداخلية، البحث في المستندات، خدمة العملاء، ومراجعة الالتزام بالقوانين — الـ RAG بيقدم دقة أعلى، وشفافية، وسهولة في الصيانة. الـ Fine-tuning يعتبر مكمل ومش بديل: استخدمه عشان تظبط أسلوب وهيكل النموذج بعد ما الـ RAG يكون شغال تمام فعلياً.

غوص في تفاصيل البنية الهندسية للـ RAG

نظام الـ RAG الجاهز للشغل الفعلي أكبر بكتير من مجرد مخزن متجهات ومكالمة لنموذج الـ LLM. المكونات دي هي اللي بتفرق بين مجرد تجربة فكرة (PoC) ونظام شغال بثبات وبأعداد كبيرة.

خط أنابيب معالجة المستندات (Ingestion Pipeline)

المستندات الخام بتوصل بتنسيقات كتيرة جداً: ملفات PDF بتنسيقات معقدة، ملفات Word، صفحات HTML، نسخ احتياطية لقواعد البيانات، أو ويكي Confluence. طبقة المعالجة القوية بتتعامل مع قراية التنسيقات دي باستخدام أدوات زي Unstructured أو Apache Tika، وبتنظف النصوص من العناوين الجانبية والهوامش المتكررة، وبتستخرج البيانات الوصفية (Metadata) زي الكاتب والتاريخ والقسم ومستوى الوصول. البيانات دي بتبقى مهمة جداً لتصفية نتائج الاسترجاع بعدين.

استراتيجية تقسيم النصوص (Chunking Strategy)

طريقة تقسيمك للمستندات بتأثر بشكل رهيب على جودة الاسترجاع. التقسيم ثابت الحجم (Fixed-size) عند 512 توكن مع تداخل 64 توكن ده أمر بسيط بس بيقطع الجمل من النص. التقسيم المتكرر (Recursive) بيحترم حدود الفقرات. أما التقسيم الدلالي (Semantic chunking) — اللي بيحول كل جملة لمتجه ويجمعهم حسب تشابه الموضوع — بيطلع أفضل جودة للأجزاء بس بيحتاج قوة معالجة أكبر. للمستندات القانونية أو الطبية أو التقنية، الطريقة الهرمية (Hierarchical) اللي بتحافظ على هيكل الأقسام غالباً بتجيب أحسن نتائج.

التضمين ومخزن المتجهات (Embedding & Vector Store)

اختيار نموذج التضمين بيفرق جداً. النماذج المدفوعة من OpenAI و Cohere بتقدم أعلى جودة؛ بينما النماذج مفتوحة المصدر زي BGE و E5 و Nomic بتقدم ميزة السيادة الكاملة على بياناتك والتحكم في التكلفة. ولازم مخزن المتجهات يستحمل حجم شغلك: ملايين المستندات، استعلامات متفلترة، وبحث هجين (Hybrid Search) بيجمع بين تشابه المتجهات والبحث عن الكلمات المفتاحية (BM25)، وعزل بيانات العملاء في بيئات الشغل متعددة المستأجرين (Multi-tenant).

إعادة الترتيب (Re-ranking)

تشابه المتجهات لوحده بيطلع نتايج إيجابية غلط كتيرة، بالذات في الأسئلة الطويلة أو المعقدة. الـ LLM ساعتها بيولد إجابات بناءً على سياق ملوش علاقة بالسؤال.

هندسة البرومبت وتجميع السياق (Prompt Engineering)

الأجزاء المسترجعة لازم تترتب جوه البرومبت بحذر شديد. ترتيب السياق بيفرق: نماذج اللغات الكبيرة بتهتم أكتر بالكلام اللي في الأول وفي الآخر، ودي ظاهرة معروفة بـ (Lost-in-the-middle). صياغة التوجيهات — زي إنك تقول للنموذج إزاي يذكر المصادر، وإزاي يتعامل مع نقص المعلومات في قاعدة المعرفة، وإمتى يقول 'ماعرفش' — مهمة بنفس الدرجة وغالباً بتتنسي.

التقييم والمراقبة (Evaluation & Monitoring)

من غير قياس مش هتعرف تحسن أي حاجة. مقاييس التقييم الخاصة بالـ RAG بتشمل الأمانة (Faithfulness) — يعني هل الإجابة بتناقض السياق المسترجع — ومناسبة الإجابة (Answer relevance)، ودقة السياق (Context precision)، واستدعاء السياق (Context recall). أطر عمل زي RAGAS بتميكن التقييم ده تلقائياً. ومراقبة النظام في الشغل الفعلي لازم تتابع وقت الاستجابة (Latency)، ومعدل نجاح الاسترجاع، وتقييمات المستخدمين، وإشارات كشف الهلوسة.

حالات استخدام في الشركات بيحقق فيها الـ RAG أعلى عائد على الاستثمار (ROI)

الأسئلة والأجوبة القانونية والامتثال

بتسمح للفرق القانونية بالبحث في العقود، اللوائح، ومستندات السياسة الداخلية بلغة طبيعية. نظام الـ RAG بيطلع البند بالظبط مع مستند المصدر ورقم الصفحة — من غير أي تأليف لأحكام سابقة.

تقليل وقت مراجعة المستندات بنسبة 70%

ذكاء خدمة العملاء

اربط شات بوت الدعم الفني بمستندات منتجك، قاعدة البيانات للمشاكل المعروفة، وتذاكر الدعم السابقة. العملاء والموظفين هيستقبلوا إجابات دقيقة وموثقة بمصادر بدل الإجابات العامة العادية من الـ LLMs.

تحويل وتقليل تذاكر الدعم من المستوى الأول بنسبة 55%

إدارة المعرفة الداخلية

حول سنين من خبرة ومعرفة الشركة — مستندات التعيين الجديدة، كتيبات التشغيل، القرارات الهندسية، ومحاضر الاجتماعات — لعقل مؤسسي قابل للبحث يقدر الموظفين الجداد والقدام يدوروا فيه بسهولة.

تسريع عملية تجهيز الموظفين الجداد بنسبة 40%

البحوث والتحليلات المالية

المحللين بيقدروا يسألوا في نصوص الأرباح، تقارير هيئة الأوراق المالية، تقارير البحوث، وبيانات السوق كلها في نفس الوقت. الـ RAG بيجمع الأفكار من كذا مستند مع الحفاظ على إمكانية المراجعة والتأكد الكامل.

تجهيز التقارير أسرع بـ 3 مرات

المعرفة الطبية والإكلينيكية

المؤسسات الصحية بتستخدم الـ RAG عشان تخلي الإرشادات الطبية، وقواعد بيانات تفاعلات الأدوية، وسجلات المرضى قابلة للبحث — مع تطبيق قيود وصول صارمة جداً في طبقة الاسترجاع.

مستخدم من قبل 3 من أكبر 10 أنظمة مستشفيات

الدعم الفني والهندسي

بوابات المطورين، مستندات الـ API، سجلات القرارات الهندسية، وتقارير ما بعد الأعطال بتبقى كلها قابلة للبحث. المهندسين هيلاقوا إجابات من غير ما يضيعوا وقت زمايلهم أو يحفروا جوه Confluence.

تقليل الأسئلة الداخلية على Slack بنسبة 60%

بناء نظام RAG جاهز للشغل الفعلي: الموضوع محتاج إيه بالظبط؟

أي حد يقدر يعمل تجربة مبدئية (PoC) لنظام RAG في قعدة بعد الظهر باستخدام LangChain أو LlamaIndex. لكن النظام الجاهز للشغل الفعلي ده موضوع تاني خالص. ده النطاق الكامل اللي المشروع بيحتاجه عادة:

المرحلة 1: تدقيق البيانات وتصميم خطة المعالجة (الأسبوع 1-2)

جرد كل مصادر البيانات: صيغتها، معدل تحديثها، قيود الوصول ليها، وجودتها. صمم الخطوات العملية عشان يستوعب كل نوع من المصادر. حط قواعد حوكمة البيانات — إيه المستندات اللي الذكاء الاصطناعي يقدر يوصلها، ومين من المستخدمين مسموح له يشوفها وتحت أنهي شروط.

المرحلة 2: التضمين وبناء الفهرس (الأسبوع 2-3)

اختار نموذج التضمين ومخزن المتجهات. شغل عملية التقسيم والتضمين على حجم البيانات الكبير. ابني فلاتر للاسترجاع بناءً على البيانات الوصفية، زي مثلاً البحث في مستندات الشؤون القانونية بس. حدد خط الأساس لجودة الاسترجاع باستخدام مجموعة تقييم ممتازة (Golden Eval Set).

المرحلة 3: طبقة التوليد والـ API (الأسبوع 3-5)

ابني خط أنابيب الاسترجاع والتوليد المعزز. جهز قوالب البرومبت مع تعليمات واضحة لذكر المصادر. اربط نظام إعادة الترتيب (Re-ranking). طلع كل ده في شكل API داخلي نظيف أو اربطه جوه نظامك الحالي — زي بوت على Slack، تطبيق ويب، أو Salesforce وغيرهم.

المرحلة 4: التقييم، الضبط، والتأمين (الأسبوع 5-8)

شغل أداة RAGAS أو نظام تقييم خاص بيك. اظبط حجم الأجزاء، عدد النتائج المسترجعة (k)، قوالب البرومبت، وحدود إعادة الترتيب بناءً على نتايج التقييم. ضيف حواجز الحماية (Guardrails): كشف الهلوسة، فلترة البيانات الشخصية الحساسة (PII)، والحماية من البرومبت الاختراقية المخادعة. اعمل اختبارات حمل (Load test) عشان تتأكد إن النظام بيحقق اتفاقية مستوى الخدمة (SLA).

المرحلة 5: المراقبة والتحسين المستمر

انطلق في الإنتاج الفعلي مع تفعيل أدوات المراقبة (Observability) من أول يوم. تابع كل سؤال، كل جزء استرجعته، وتقييمات المستخدمين. استخدم عدم التوافق بين إشارات الـ (Thumbs-down) للمستخدم وثقة النموذج كإشارة لإعادة التدريب أو إعادة الفهرسة. أنظمة الـ RAG بتتحسن جداً بعد أول 90 يوم من الشغل مع مستخدمين حقيقيين.

أخطاء الـ RAG الشائعة وإزاي تتجنبها

تقسيم النصوص بشكل كبير جداً أو صغير جداً

The Problem

الأجزاء الكبيرة بتضعف إشارة صلة الكلام بالموضوع؛ والأجزاء الصغيرة بتضيع السياق المهم والأساسي للمعلومة. الطريقتين بيقللوا من دقة الاسترجاع.

The Fix

ابدأ بأجزاء حجمها 512 توكن مع تداخل بنسبة 10%. قيم النتيجة على مستنداتك بالظبط واظبطها بناءً على كده. استخدم التقسيم الدلالي (Semantic chunking) في المشاريع الحساسة والكبيرة.

تخطّي مرحلة إعادة الترتيب (Re-ranking)

The Problem

Vector similarity alone surfaces many false positives, especially for long-tail queries. The LLM then generates answers grounded in irrelevant context.

The Fix

دايماً ضيف نموذج إعادة ترتيب (cross-encoder) بين مرحلة الاسترجاع ومرحلة التوليد. استخدام شيئ زي Cohere Rerank بيقلل المشكلة دي بشكل كبير جداً.

عدم التعامل مع حالة 'أنا معرفش'

The Problem

من غير معالج واضح للأسئلة الخارجية، نموذج الـ LLM هيبدأ يهلوس ويألف إجابات لما قاعدة المعرفة ما يكونش فيها معلومات مناسبة للرد — وده أخطر نوع من أنواع الفشل في أنظمة الشركات.

The Fix

طَبّق حد أدنى لثقة الاسترجاع (Confidence threshold). لو مفيش أي جزء تخطى الحد ده، حوّل الطلب لحل بديل (Fallback): زي موظف حقيقي، أداة تانية، أو رسالة واضحة بتقول إن الإجابة مش موجودة في قاعدة المعرفة.

تجاهل صلاحيات الوصول في طبقة الاسترجاع

The Problem

في الأنظمة اللي فيها كذا عميل أو كذا دور للمستخدمين، ممكن مستخدم يوصل لمستندات مش من حقه يشوفها لو الصلاحيات متطبقة بس على مستوى واجهة المستخدم (UI Layer).

The Fix

علم كل مستند ببيانات وصفية للصلاحيات (Access Metadata) وقت المعالجة. فلتر نتائج الاسترجاع بناءً على صلاحيات المستخدم اللي مسجل دخوله قبل ما الداتا دي تروح أصلاً للـ LLM.

التعامل مع الفهرس بمبدأ 'اعمله وانساه'

The Problem

المستندات بتتغير، بتلغي، أو بينزل مكانها جديد. الفهرس القديم هيرجع إجابات قديمة وملغية، وده ساعات بيكون أسوأ من إنه ما يجاوبش خالص.

The Fix

ابني نظام فهرسة تدريجي وتلقائي (Incremental re-indexing) جوه الخطوات العملية (Pipeline) الخاصة بيك. تابع إصدار المستند وطوابع وقت آخر تعديل. واظبط تنبيهات في حالة فشل معالجة أي مستند.

ابني نظام الـ RAG بتاعك مع ميديانز

ميديانز متخصصة في بناء أنظمة الـ RAG من البداية للنهاية لعملائنا من الشركات — من أول تدقيق البيانات وتصميم البنية الهندسية لحد التشغيل الفعلي والمراقبة المستمرة. شحنّا خطوط أنابيب RAG في مجالات القانون، الرعاية الصحية، الخدمات المالية، وقطاعات الـ SaaS.

شغلنا المعتاد بيسلمك نموذج أولي شغال في أسبوعين، ونظام كامل جاهز للإنتاج الفعلي في خلال من 6 لـ 8 أسابيع، مع أنظمة مراقبة كاملة ووحدة تقييم موثقة عشان فريقك يقدر يدير النظام ويحسنه بنفسه بعد التسليم.

اتكلم مع مهندسي الـ RAG بتوعنا شوف الخدمات بتاعتنا

إيه هو الـ RAG؟ الدليل الشامل لأنظمة (RAG) للذكاء الاصطناعي في الشركات