مقارنة إمكانية النموذج اللغوي الكبير مع التلخيص

André Cipriani Bandarra
André Cipriani Bandarra
Alexandra Klepper
Alexandra Klepper

تاريخ النشر: 30 تشرين الأول (أكتوبر) 2024

يختلف إنشاء الميزات باستخدام النماذج اللغوية الكبيرة (LLM) تمامًا عن هندسة البرامج التقليدية. على المطوّرين تعلُّم كيفية هندسة الطلبات من أجل التعامل مع النتائج غير الحتمية ومدخلات المعالجة المسبقة ونتائج المعالجة اللاحقة.

من بين التحديات التي شاركتها معنا هو أنّ اختبار النتائج من النماذج اللغوية الكبيرة وتحديد صلاحيتها وجودتها يستغرق وقتًا طويلاً. غالبًا ما يلجأ المطوّرون إلى إنشاء النتائج بشكل مجمّع باستخدام مدخلات مختلفة، ثم التحقّق منها يدويًا باستخدام أحكام بشرية.

إنّ تقنية استخدام النماذج اللغوية الكبيرة كمحكّم هي نهج أكثر قابلية للتوسّع لتقييم نتائج النماذج والطلبات المختلفة. وباستخدام هذا الأسلوب، وبدلاً من الاعتماد على حكم بشري، يتم تفويض عملية إثبات صحة النموذج إلى نموذج لغوي كبير (LLM). يجب أن يكون النموذج اللغوي الكبير الثاني عبارة عن نموذج لغوي كبير مستنِد إلى السحابة الإلكترونية، ومن المرجّح أن تتوفّر فيه إمكانات استنتاجية أفضل.

في هذا المستند، نستخدم التلخيص لشرح كيفية مقارنة النماذج المختلفة، بالإضافة إلى عرض التحسين في الجودة من Gemma إلى Gemma 2.

اختيار النماذج للمقارنة وإعداد البيانات

لقد قيّمنا قدرات ثلاثة نماذج في التلخيص. قارَنا بين نتائج نموذجَين من نماذج Google المفتوحة التي يمكن تشغيلها من جهة العميل، وهو Gemma و Gemma 2، وكلاهما بحجم 2 مليار مَعلمة. في المقابل، قيّمنا أيضًا نموذجًا أكبر وأكثر فعالية مستندًا إلى السحابة الإلكترونية: Gemini 1.5 Flash.

لقد استخدمنا مجموعة بيانات تتضمّن 2225 مقالة من BBC، تتناول مجالات مثل الأنشطة التجارية والترفيه والسياسة والرياضة والتكنولوجيا، وأنشأنا ملخّصًا لكل مقالة باستخدام كل نموذج من النماذج المحدّدة. تم استخدام الطلب نفسه في جميع النماذج:

تلخيص المقالة في فقرة واحدة

وخزّنا المقالات الأصلية وأنشأنا ملخّصات في قاعدة بيانات لكي يسهل الوصول إليها في كل خطوة.

اختيار أحد الخبراء لتحليل الملخصات وتقييمها

لتحليل جودة الملخّص، استخدمنا Gemini 1.5 Flash لتقييم الملخّصات التي تم إنشاؤها من قِبل Gemma 2B وGemma 2 2B. يستند نهجنا المحدّد إلى المواءمة، التي تشكّل جزءًا من مقياس التلخيص في DeepEval.

المحاذاة هو مقياس يقيس معدّل توفّر العبارة المضمّنة في الملخّص في المحتوى الأصلي الذي يستند إليه الملخّص.

قسّمنا عملية التقييم إلى خطوتين. أولاً، طلبنا من النموذج تقسيم كل ملخّص إلى عبارات منفصلة. بعد ذلك، طلبنا من النموذج تحديد ما إذا كان كلّ بيان متوافقًا مع نص المقالة الأصلي.

استخراج العبارة من الملخّصات

طلبنا من Gemini 1.5 Flash تقسيم النص الطويل إلى عبارات منفصلة. على سبيل المثال:

قلل مدافع إيفرتون ديفيد وير من الحديث عن كرة القدم الأوروبية، على الرغم من أنّ فريقه يحتلّ المركز الثاني في الدوري الإنجليزي الممتاز بعد فوزه على ليفربول.

قسم Gemini 1.5 Flash هذه الجملة إلى الجمل التالية:

  • "يلعب ديفيد وير مدافعًا في نادي إيفرتون".
  • "يحتلّ نادي إيفرتون حاليًا المركز الثاني في الدوري الإنجليزي الممتاز".
  • "فاز إيفرتون على ليفربول في مباراة حديثة".
  • "تجاهل ديفيد وير الحديث عن مشاركة إيفرتون في مباريات كرة القدم الأوروبية".

التحقّق من صحّة العبارات

بعد ذلك، طلبنا من Gemini 1.5 Flash تحليل الجملة الأصلية مقارنةً ببياناتها المجزّأة. صنّف النموذج صحة كل عبارة على النحو التالي:

  • نعم: العبارة مدعومة في النص الأصلي.
  • لا، لأنّ البيان يتناقض مع النص الأصلي.
  • لا أعلم. لا يمكن التحقق مما إذا كانت العبارة مدعومة أو تتعارض مع النص الأصلي.

تحليل النتائج

وأسفرت هذه العملية عن مقياسين يمكن استخدامهما لمقارنة النماذج:

  • المحاذاة: يشير ذلك إلى عدد المرات التي أنشأ فيها النموذج ملخّصات تحتوي على عبارات تستند إلى النص الأصلي.
  • الثراء: متوسط عدد العبارات الواردة في ملخّص أنشأه النموذج.
رسم بياني يقارن بين كثافة النموذج ومواءمته
الشكل 1. تمّت المقارنة بين Gemma 2B وGemma 2 2B وGemini 1.5 Flash، وجميعها كانت نقاطًا جيدة.

محاذاة

احتسبنا مدى المطابقة من خلال احتساب عدد الملخصات التي تحتوي على عبارة واحدة على الأقل تم وضع علامة "لا" عليها، وقسمة هذا العدد على إجمالي عدد الملخصات.

يحقّق نموذج Gemini 1.5 Flash أعلى نتائج المواءمة، والتي تتجاوز %92. وهذا يعني أنّه بارع جدًا في الالتزام بالحقائق ويتجنب اختلاق الحقائق.

تحقّق Gemma 2 2B نتيجة محترمة تبلغ %78.64، ما يشير إلى مستوى جيد من الدقة. في المقابل، يحصل الإصدار السابق من Gemma 2B على نتيجة أقل في ما يتعلّق بمدى اتّساق الترجمة، ما يعني أنّه أكثر عرضة لتضمين معلومات لا يتوافق معها النص الأصلي.

التنوع

احتسبنا ثراء النموذج من خلال احتساب متوسط عدد العبارات التي ينشئها النموذج لكل ملخّص.

تحقّق Gemma 2 2B أعلى نتيجة ثراء تبلغ 9.1، ما يشير إلى أنّ ملخّصاتها تتضمّن المزيد من التفاصيل والنقاط الرئيسية. يحصل نموذج Gemini 1.5 Flash أيضًا على علامات عالية في ما يتعلّق بالثراء، حيث تتجاوز 8.4. سجّلت Gemma 2B نتائج أقلّ في ما يتعلّق بمدى الدقّة، ما يشير إلى أنّه قد لا يتم تسجيل قدر كبير من المعلومات المهمة من النص الأصلي.

الخاتمة

تبيّن لنا أنّ النماذج الأصغر حجمًا التي يمكن تشغيلها من جهة ا��عميل، مثل Gemma 2 2B، يمكنها إنشاء نتائج عالية الجودة. إنّ النماذج المستنِدة إلى السحابة الإلكترونية، مثل Gemini 1.5 Flash، تبرِز في إنشاء ملخّصات تتماشى مع المقالة الأصلية وتزويدها بكمية كبيرة من المعلومات، ولكن يجب التركيز على أداء التطبيقات ومتطلبات الخصوصية والأمان والأسئلة الأخرى التي قد تطرحها عند تحديد ما إذا كان يجب إنشاء الذكاء الاصطناعي من جهة العميل.

هناك تطوّر واضح في إمكانات مجموعة نماذج Gemma، لأنّه يتيح Gemma 2 2B إنشاء ملخّصات أكثر ثراءً واتساقًا من Gemma 2B.

تقييم حالات الاستخدام

لم يتناول هذا المستند سوى بعض الجوانب المتعلّقة بما يمكن تحقيقه باستخدام نماذج اللغة الضخمة كأحد أساليب التقييم. حتى باستخدام التلخيص، يمكنك الاطّلاع على المزيد من المقاييس وقد تختلف النتائج. على سبيل المثال، يمكنك تقييم التغطية باستخدام طلب لتحديد النقاط الرئيسية من مقالة، ثم استخدام طلب مختلف لمحاولة التحقّق مما إذا كان كل ملخّص يتضمّن هذه النقاط الرئيسية.

قد تؤدي حالات الاستخدام الأخرى، مثل كتابة نص أو إعادة كتابة نص أو إنشاء مُحسَّن لاسترداد المعلومات (RAG)، إلى نتائج مختلفة للمقاييس نفسها أو قد يكون من الضروري استخدام مقاييس أخرى للتقييم.

عند تنفيذ هذا النهج، فكر في كيفية تقييم شخص للناتج لتحديد المقاييس الأفضل لحالات الاستخدام لديك. ننصحك أيضًا بمراجعة أُطر العمل الحالية، مثل DeepEval، التي قد تتضمّن مجموعة من المقاييس المناسبة لحالة الاستخدام لديك.

هل نفّذت نموذج المحاكمة التوليدية كمحكّم لتقييم النماذج؟ يمكنك إرسال تغريدة إلينا تتضمّن النتائج التي توصّلت إليها على ‎@ChromiumDev أو مشاركتها مع Chrome للمطوّرين على LinkedIn.