جرت في قسم علوم الحاسوب بكلية العلوم جامعة بغداد، دراسة الدبلوم العالي الموسومة “اختيار الميزات بواسطة الانحدار الخطي بواسطة الاباتشي سبارك تحت بايثون” للطالبة نور حقي اسماعيل .

و  هدف البحث الى حل مشكلة Regresson و Overfitting في البيانات الضخمة واستخدم منصة التعلم الآلي Pyspark لاختيار الميزات للعثور على أفضل انموذج خطي يناسب مجموعة بيانات كبيرة معينة لحل مشكلة تحليلات البيانات الضخمة مع التعلم الآلي و PySpark ،ان PySpark -MLlib لمكتبة للتعلم الآلي، القابلة للتطوير وتعمل على توزيع  ألانظمة عبر استخدام ثلاثة خوارزميات من التعلم الآلي PySpark MLlib .

و استنتجت  الدراسة ان طريقة Ridge يقلل المعامِلات ولكنه لا يجعلها 0 وبالتالي لا يلغي أي متغير مستقل تمامًا، ويمكن استخدامه لقياس التأثيرمن المتغيرات المستقلة المختلفة، اما طريقة  Lassoيقلل من المعاملات وذلك بجعلها تساوي 0 وبالتالي القضاء بشكل فعال على المتغير المستقل المقابل تمامًا وهومفيد لتحديد الميزة المهمة عبر استخدام طريقة هجينة لكل من  Ridgeو LASSO تسمى ب Elistic net، ل يعمل بشكل أفضل من RidgeوLasso في معظم حالات الاختبار.

Comments are disabled.