حل مشكلة تحليلات البيانات الضخمة بدراسة دبلوم عالي في كلية العلوم
جرت في قسم علوم الحاسوب بكلية العلوم جامعة بغداد، دراسة الدبلوم العالي الموسومة “اختيار الميزات بواسطة الانحدار الخطي بواسطة الاباتشي سبارك تحت بايثون” للطالبة نور حقي اسماعيل .
و هدف البحث الى حل مشكلة Regresson و Overfitting في البيانات الضخمة واستخدم منصة التعلم الآلي Pyspark لاختيار الميزات للعثور على أفضل انموذج خطي يناسب مجموعة بيانات كبيرة معينة لحل مشكلة تحليلات البيانات الضخمة مع التعلم الآلي و PySpark ،ان PySpark -MLlib لمكتبة للتعلم الآلي، القابلة للتطوير وتعمل على توزيع ألانظمة عبر استخدام ثلاثة خوارزميات من التعلم الآلي PySpark MLlib .
و استنتجت الدراسة ان طريقة Ridge يقلل المعامِلات ولكنه لا يجعلها 0 وبالتالي لا يلغي أي متغير مستقل تمامًا، ويمكن استخدامه لقياس التأثيرمن المتغيرات المستقلة المختلفة، اما طريقة Lassoيقلل من المعاملات وذلك بجعلها تساوي 0 وبالتالي القضاء بشكل فعال على المتغير المستقل المقابل تمامًا وهومفيد لتحديد الميزة المهمة عبر استخدام طريقة هجينة لكل من Ridgeو LASSO تسمى ب Elistic net، ل يعمل بشكل أفضل من RidgeوLasso في معظم حالات الاختبار.