تحديات تحليل البيانات (المحتوى العربي)
تعد اللغة العربية اللغة الرابعة عالميًّا ضمن أكثر اللغات استخدامًا على الإنترنت، وهي أكبر عضو في عائلة اللغات السامية إذْ يتحدث بها ما يقرب من 500 مليون شخص في جميع أنحاء العالم، ومن ثَم كانت إحدى اللغات الرسمية الست للأمم المتحدة مما يعطي أهمية بالغة لإنشاء أطر تحليل للنص العربي. وقد أُجريت العديد من الدراسات حول تحليل اللغات المكتوبة بأحرف لاتينية بما في ذلك الإنجليزية والألمانية والإسبانية والهولندية في مقابل دراسات قليلة عن النص العربي، ذلك أن اللغة العربية تمتلك العديد من المميزات والصفات التي تجعل من الصعب تطوير إطار عمل تحليل فعال لها نظراً لتعقيدها، لذا سيخصص هذا المقال لوصف التحديات التي تواجه التعرف على اللغة العربية وتحليل البيانات العربية المستمدة من منصات التواصل الاجتماعي.
أول هذه التحديات يتمثل في أن اللهجات واللغات التي تعتمد على النص العربي -مثل اللغة العربية المعاصرة، واللغة العربية التقليدية- تتضمن كثيرًا من التماثل وعدم اليقين في معنى الكلمات بدرجات مختلفة، وقد لوحظ تقدم ضئيل في المعالجة الحسابية للغات القائمة على النص العربي، ومع ذلك طرح عدد من الباحثين أدوات حسابية للغات العربية والموارد التي تستند إلى النصوص العربية المعدلة وليس إلى النصوص العربية الأصلية ( معاجم اللغة والمحلل الصرفي العربي)، وكان من بين التحديات أيضًا عدم تمثيل حروف العلة القصيرة في الرسائل النموذجية مما يؤدي بشكل كبير إلى الغموض، لذا تعد إدارة هذه المشكلات تحديًّا حقيقيًّا في معالجة اللغات المكتوبة باللغة العربية.
إن الباحث والمهتم في هذا المجال يجد أن عملية تحليل البيانات على شبكات التواصل الاجتماعي (البيانات الضخمة) في المنطقة العربية تواجه جُملةً من التحديات المختلفة، بما في ذلك ضخامة وتعقيد البيانات، وصعوبة تطبيق التقنيات الآلية عند معالجة مجموعة بيانات عربية مشتقة من السلوك أو التعبير البشري، فضلا عن عدم اكتمال وشفافية مجموعة البيانات التي لاتزال في مراحلها الأولية، وسيتم التوسع بذكر هذه التحديات في مقالات قادمة.
د.الجوهرة المطيري
قسم الإعلام