لماذا المحتوى العربي ضعيف في برامج الذكاء الاصطناعي؟
مع التقدم المثير الذي يحرزه الذكاء الاصطناعي التوليدي (Generative AI) في إنشاء الصور والأصوات والنصوص وأخيراً الفيديو، تزداد أهمية تنمية المحتوى العربي على “الويب” نظراً لأن هذا يؤدي إلى رفع مستوى الذكاء الاصطناعي التوليدي عند مخاطبته باللغة العربية، إذ يرتبط هذا المستوى بحجم المحتويات التي يتم تدريبه عليها.
ولاختبار مستوى الذكاء الاصطناعي التوليدي لـ “شات جي بي تي” عند التخاطب معه بالعربية، طلب منه ما يلي “اكتب بضع فقرات عن سوريا خلال الحرب العالمية الثانية”.
وتم تكرار الطلب عدة مرات بالعربية وصيغ مختلفة، وجاءت إجاباته ركيكة بل وتضمن بعضها هلوسات، إذ قال في إحدى إجاباته “عام 1941، غزا الجيش الألماني بقيادة الجنرال إرفين رومل سوريا من الجنوب..”. وعند تكرار الطلب عدة مرات أخرى ولكن بالإنجليزية جاءت الإجابات أفضل بكثير.
ولم تقتصر التجربة على السؤال السابق، بل طرحت عليه مجموعة أسئلة، مرة بالعربية ومرة بالإنجليزية، فجاءت معظم إجاباته الإنجليزية أفضل من إجاباته العربية.
وبشكل عام لا يمكن حتى الآن الاعتماد تماما على الذكاء الاصطناعي التوليدي لكتابة الموضوعات، ومن الضروري تدقيق الموضوعات التي ينتجها وتمحيص مصادر معلوماته.
شات جي بي تي
ولكن ما أسباب انخفاض أداء الذكاء الاصطناعي التوليدي عند مخاطبته بالعربية عن أدائه عند مخاطبته بالإنجليزية؟ طلبنا من “شات جي بي تي” نفسه الجواب على هذا السؤال، مرة بالعربية وأخرى بالإنجليزية، فكانت الأسباب التي قدمها بالإنجليزية أكثر تفصيلاً، وفيما يلي عرض لها بعد ترجمتها إلى العربية:
– توافر البيانات: قد يكون مقدار بيانات التدريب لنماذج العربية أقل مقارنة بنماذج الإنجليزية، ويمكن أن يؤثر ذلك على دقة النموذج لأنه لم يتعرض لأكبر قدر من البيانات للتعلم منها.
– السياق الثقافي: يتم التحدث بالعربية في العديد من البلدان والثقافات المختلفة، مما قد يؤثر على طريقة استخدام اللغة وفهمها. وقد لا يكون النموذج قادرا على مراعاة جميع هذه السياقات الثقافية المختلفة.
وأضاف “بشكل عام، من المهم ملاحظة أن دقة نموذج اللغة يمكن أن تختلف اعتماداً على المهمة المحددة ومجموعة البيانات التي يتم التدريب عليها. بالإضافة إلى ذلك، كلما زادت البيانات والتدريب على النموذج، زادت دقته”.
وتشير الأسباب السابقة -التي أدلى بها روبوت الذكاء الاصطناعي التوليدي المذكور- إلى أن الفجوة بين الذكاء الاصطناعي عند استخدام العربية وعند استخدام الإنجليزية ستزيد مع الوقت، إلا إذا قررت الدول العربية الغنية رصد مبالغ كبيرة للاستثمار في هذا المجال.
تشير الأرقام الصادرة عن الاتحاد الدولي للاتصالات إلى أن عدد مستخدمي الإنترنت عالمياً بلغ نحو 5.3 مليارات عام 2022 بنسبة انتشار تبلغ 66% من سكان العالم، وهي نسبة قريبة من نسبة انتشار الإنترنت بالبلدان العربية البالغة 65% (نحو 300 مليون مستخدم للإنترنت من عدد السكان البالغ نحو 460 مليونا عام 2022).
لكن نسبة انتشار الإنترنت في بلدان مجلس التعاون الخليجي أعلى بكثير، إذ قاربت 100% من عدد السكان القادرين عمرياً على استخدام الإنترنت. ويشكل هذا العدد الكبير من المستخدمين قاعدة جيدة لتنمية العربية المستخدمة على الشبكة العالمية، لكن هذا مرتبط بالمحتوى العربي الرقمي الفعلي المتوفر.
المصدر | وكالات + ترند10