رسالة مقدمة الى مجلس كلية الإدارة والاقتصاد في جامعة كربلاء

وهي جزء من متطلبات نيل درجة ماجستير في علوم الإحصاء

تقدمت بها الطالبة

زهراء هلال حمود

بإشراف 

أ.م.د مشتاق كريم عبد الرحيم

المستخلص

يعد استعمال البيانات الضخمة في الوقت الحالي مهمًا جدًا في عملية التنبؤ واتخاذ القرار لذلك تفسير البيانات الضخمة على انها مجموعة من البيانات  العميقة والمتداخلة  التي يتم جمعها من مصادر مختلفة    والبيانات الضخمة لها خصائص  عديدة منها   التنوع و السرعة والحجم  وتتمتاز  البيانات الضخمة  بالتنوع  حيث هناك بيانات منظمة و بيانات شبة منظمة  وبيانات غير منظمة  ويتم جمع البيانات الضخمة من مصادر مثل المعلومات الطبية  البيانات المتعلقة بالاراء    تهدف هذه الرسالة  توظيف استعمال البيانات الضخمة لتقدير معلمات أنموذج الانحدار اللوجستي  وكذلك تنبو بسلوك مستخدمين مواقع التواصل الاجتماعي   وتم استعمال انموذج الانحدار اللوجستي الثنائي  وهو أحد أهم النماذج غير الخطية المستعملة في نمذجة  و عند تقدير  معلمات انموذج الانحدار اللوجستي     الثنائي بطرائق التقدير  وعند  استعمال  الطرائق  العددية لتقديرمعلمات انموذج  هذه الطرائق في بعض الاحيان لا تعطي حل امثل  عند استعمال الطرائق الاعتياية 

لذلك سيتم استعمال الطرائق الاعتيادية بعد تحسينها باستعمال الخوارزمية الجينية وبعدها نقوم بالمقارنة بين جميع طرائق التقدير لاختيار أفضل طرائق التقدير لمعلمات الانحدار اللوجستي الثنائي. توصلت نتائج المحاكاة لتقدير المعلمات عن طريق عدد النماذج وأحجام العينات الضخمة والمختلفة إلى أن طريقة الإمكان الأعظم المحسنة هي الطريقة الفضلى بين جميع الطرائق المحسنة بالخوارزمية الجينية، وأن طريقة الإمكان الأعظم الاعتيادية هي الفضلى بين طرائق التقدير الاعتيادية لتقدير أنموذج الانحدار اللوجستي الثنائي، وذلك لأنَّ كلتا الطريقتين تمتلكان أقل مربعات الخطأ (MSE) هذا فيما يخص الجانب التجريبي

 أما في الجانب التطبيقي، تم استعمال بيانات حقيقية من شبكة التواصل الاجتماعي (إنستغرام) بلغ عددها (58000) مستخدم  تم سحبة عينة عشوائية  يبلع عددها (50000). تم نمذجة البيانات، اذ تبين مدى ملائمة أنموذج اللوجستي الثنائي في نمذجة هذه البيانات بحث تم توصل الى ان نسبة التصنيف الصحيح بلغ 84%.  يعني ان النموذج كان دقيقا  بنسبة 84% في تصنيف جميع الحسابات سواء حساب حقيقيي او مزيفة  وبلغت قيمة  منحنى (ROC) 0.08  ان الاختبار قادر تميز بين النتائج الايجابية والسلبية باحتمال 0.08 وكذلك تبين  ان العوامل التي لها تاثير معنوي في الانموذج وهي (عدد الأشخاص أو الصفحات التي يتابعها المستخدم, طول السيرة الذاتية, توفر صورة لحساب المستخدم, توفر الرابط, نسبة غير الصورة  نسبة مئوية(0.0 إلى 1.0) للوسائط غير الصور  هناك ثلاثة أنوع من الوسائط في الانستغرام هي (الصور, الفيديو, العرض 

الدائري),المشاركة يشبه نسبة التفاعل  ولكنه مخصص للتعليقات ,نسبة علامة الموقع النسبة المئوية (0.0 الى1.0) للمشاركات الموسومة بالموقع, متوسط عدد الهاشتاج, متوسط الفاصل الزمني  بين المشاركات (بالساعات).