
کردند. آنها اطلاعات حاصل از 594 دانشجوي حضوري را در يکي از دانشگاههاي تايلند با استفاده از مدل شبکه عصبي مصنوعي مورد تحليل قرار دادند. در اين پژوهش مدل شبکه عصبي سه لايهاي پيشخور289 به کار رفته که 50 نورون درونداد و 34 نورون در لايه پنهان و سه نورون در برونداد اين مدل به کار رفته است. نورون اول به دانش آموختگي دانشجو در موعد مقرر چهار سال، نورون دوم به تأخير و ماندگاري در سيستم آموزشي بيش از چهار سال و نورون سوم به دانشجويان مشمول افت تحصيلي مربوط است. در اين بررسي، الگوريتم يادگيري پس انتشار290 براي آموزش شبکه و تابع فعالسازي لجستيک291 در لايه پنهان شبکه عصبي مصنوعي به کار رفته است. نتيجه تحليل نرخ طبقهبندي صحيح نشان داد: شبکه عصبي 93.3% افراد را به درستي در طبقات مختلف طبقهبندي کرده، حال اينکه درصد صحت طبقهبندي تحليل تشخيص 81.5% بوده است.
– دلن292 (2010) در يکي از دانشگاه هاي آمريکا، ثبتنام يا عدم ثبت نام تعداد شانزده هزار و 66 دانشجوي حضوري را با استفاده از روشهايي يادگيري ماشيني پيشبيني کرده. مدلهاي يادگيري ماشيني به کار رفته در اين پژوهش شبکه عصبي مصنوعي (MLP)، درخت تصميمگيري (C5) و SVM بوده است. نتايج مقايسهاي اين بررسي نشان داد: مدل ترکيبي RandomForest در پيشبيني عدم ثبتنام دانشجويان موفقتر از ساير روشها بوده و SVM با 87.23% صحت طبقهبندي کلي بهترين دقت پيشبيني را داشته است. توضيح بيشتر در مورد RandomForest اينکه، اين روش ترکيبي از تعداد زيادي درخت تصميمگيري است. از ديگر نتايج اين پژوهش مقايسه نتايج روشها بعد از بالانس کردن دادهها است. از آنجا که در دادههاي اين تحقيق تعداد نمونه ثبت نام کرده 80% بوده و تعداد افرادي که ثبتنام نکردهاند 20% بوده است، محقق نمونه را بالانس کرده و نتايج را مقايسه کرده است. نتايج از بالا رفتن دقت پيشبيني مدلها بعد از بالانس کردم دادهها حکايت دارد. محقق با استفاده از روش تحليل حساسيت مهمترين عوامل موثر را نيز شناسايي کرده که عوامل آموزشي و اقتصادي جزء مهمترين عوامل عدم ثبتنام دانشجويان حضوري شناسايي شده است.
– کُتسيانتيس، پاتريارچيز و اگزنوس293(2010) روش ترکيبي294 را براي پيشبيني عملکرد دانشجويان از راه دور به کار بردهاند. اين پژوهشگران سه الگوريتم، WINNOW، 1-Nearest Neighbour و Naive Bayes را با بهرهگيري از روش رأيگيري295 ادغام کردهاند. در اين پژوهش دادههاي يک هزار و 347 دانشجوي يوناني تحليل شده است. دروندادها (مشخصهها) نمرات ثبت شده در چهار تمرين درس و برونداد يا طبقهها، دو کلاسه (ارزشي) بوده است (پاس کردن درس/ افتادن درس). نتايج اين بررسي برتري نسبي روش ترکيبي را در مقابل ساير روشهايي طبقهبندي نشان داده است. همچنين متوسط صحت طبقهبندي در اين پژوهش 78.95% گزارش شده است.
– افندي و همکاران296 (2010) از روشهايي دادهکاوي براي پيشبيني عملکرد تحصيلي دانشجويان استفاده کردند. براي اين هدف دادههاي دو هزار و 427 دانشجوي مالزيايي تحليل شد. اين پژوهش از روشها و الگوريتمهاي بيز297، درخت تصميمگيري و توابعي298(شبکه عصبي، SVM، رگرسيون لجستيک) براي اين هدف بهره برده است. نتايج اين بررسي نشان داد که الگوريتمهاي Naïve Bayes و AODE از روشهايي بيز و RBFNNetwork از روشهايي شبکه عصبي مصنوعي بيشترين دقت پيشبيني (95.29%) را داشتهاند.
– کومار و ام. ان299(2011) در يکي از دانشگاههاي هندوستان، نمره نهايي 117 دانشجو را با استفاده از درخت تصميمگيري پيشبيني کردند. دو الگوريتم C4.5 و ID3 در اين پژوهش مقايسه شد. درونداد اين مدل، نمره دانشجو در دوره قبل بوده که تبديل به يک متغير ترتيبي شده و متغير ملاک آن گذراندن يا عدم گذراندن درس (متغير دو ارزشي) بوده است. پژوهشگران براي مقايسه دو الگوريتم علاوه بر صحت طبقهبندي، زمان يادگيري را نيز شاخص قرار دادهاند. نتايج پژوهش نشان داد الگوريتم درخت تصميمگيري C4.5 علاوه بر اينکه از صحت طبقهبندي بالايي برخوردار است (116 مورد از 117) در مدت زمان صفر ثانيه به استنتاج رسيده، حال اينکه براي ID3 اين فرايند 0.02 ثانيه طول کشيده است.
-گارسيا سايز و زوريلا300(2011) در يکي از دانشگاههاي اسپانيا براي پيشبيني وضعيت دانشجويان در يک درس (مقدمهاي بر روشهايي چندرسانهاي) از روشهايي يادگيري ماشيني استفاده کردند. در اين پژوهش سه مجموعه داده به کار رفته است:
در مجموعه اول، تعداد دانشجو 65 و در مجموعه دوم تعداد دانشجو 164 نفر بوده است. در اين دو مجموعه داده، فعاليتهاي دانشجو در طول ترم به عنوان متغيرهاي پيشبين به کار رفته است. برونداد يا متغير ملاک نمره نهايي دانشجو بوده که تبديل به يک متغير دو ارزشي “گذراندن/عدم گذراندن” درس شده است. در مجموعه سوم، علاوه بر متغيرهاي مربوط به فعاليت دانشجو در طول ترم، پنج متغير سبک يادگيري دانشجو به عنوان متغير پيشبين اضافه شده است؛ تعداد دانشجويان در اين مجموعه داده 65 نفر بوده است. چهار روش ماشيني متداولِ به کار رفته عبارتند از: الگوريتمهاي مبني بر قاعده، درخت تصميمگيري، الگوريتمهاي بيزي و الگوريتمهاي يادگيري مورد مبنا301. از نرم افزار دادهکاوي ويکا302 براي اجراي دادهکاوي استفاده شده است. پژوهشگران علت عدم استفاده از SVM و شبکه عصبي مصنوعي را عدم وجود ارائه بصري مناسب از يافتهها گزارش کردهاند.
نتيجه پيشبيني الگوريتمهاي مختلف بر روي دادههاي مجموعه اول (65 دانشجو) نشان داد، الگوريتم Nave Bayes با 77.29% صحت طبقهبندي بيشترين قدرت پيشبيني را دارد و OneR با 65.79 ضعيفترين روش براي تعداد نمونه (داده) اندک است. به اعتقاد اين پژوهشگران OneR با تعداد دادههاي کم با مشکل بيش برازش303 مواجه ميشود، لذا براي دادههاي اندک اين روش مناسب نيست. با افزايش تعداد دانشجوها به 164 نفر در مجموعه دوم، BayesNet TAN با 81.26% صحت طبقهبندي بيشترين قدرت پيشبيني را داشته است. در مجموعه سوم دادهها که پنج متغير سبک يادگيري اضافه شده، الگوريتم Nave Bayes با 80.90% صحت طبقهبندي بيشترين قدرت پيشبيني را داشته است.
بنا بر آنچه گذشت مشخص ميشود، صحت طبقهبندي تا حد زيادي به اندازه نمونه و نوع مشخصهها (متغيرها) بستگي دارد. وقتي اندازه نمونه کوچک است (کمتر از 100) و مشخصهها از نوع عددي هستند Nave Bayes مناسب است؛ در مقابل وقتي تعداد نمونه زياد است BayesNet TAN جايگزين مناسبي است. الگوريتم J48 (درخت تصميمگيري c4.5) براي دادههاي زياد يا با دادهاي اسمي که در آن داد? گم شده وجود دارد، مناسبتر است. هر چند براي اين نوع دادهها Nave Bayes بهترين قدرت پيشبيني را دارد اما قابليت تفسير آن براي مدرس سخت است.
اين پژوهشگران در راستاي ارتقاء قدرت پيشبيني يک فرا الگوريتم304 ارائه دادهاند. در اين فرا الگوريتم موردهايي که برونهشته305 محسوب شده از پايگاه داده حذف ميشود. به عنوان مثال، مصداق موردهاي برونهشته، دانشجوياني هستند که با يک جلسه حضور در کلاس ميتوانند درس را به موفقيت بگذرانند و يا در مقابل فردي با شرکت در تمام جلسات موفق به گذراندن درس نميشود، به اين گونه دانشجوها، موارد برونهشته گفته ميشود. در اين پژوهش با بهکارگيري روشهايي انتخاب مهمترين ويژگيها و حذف موارد برون هشته عملکرد روشهايي پيشبين ماشيني به طور قابل توجهي بهبود يافته است. به عنوان مثال حذف موارد برونهشته از مجموعه داده دوم (164 دانشجو) نشان داد در الگوريتم Nave Bayes صحت طبقهبندي دانشجويان موفق از 63.75% به 75% و دانشجويان ناموفق از 85.09% به 86.84% افزايش يافته است.
– جين، ايمبِري و لين306(2011) با استفاده از شبکه عصبي پس انتشار، دادههاي يک هزار و 470 دانشجوي آمريکايي را بررسي کردند. اين مدل 50 نورون در لايه پنهان داشته و از تابع لگاريتمي307براي فعالسازي در لايه پنهان و لايه خروجي استفاده کرده و الگوريتم آموزش، شبکه نيز Levenberg-Marquardt بوده است. درونداد يا متغيرهاي پيشبين در اين پژوهش هفت متغير روانشناختي (انگيزش، رهبري و …) و يازده متغير تحصيلي شامل معدل ديپلم و نمرات استاندارد رياضي و … بوده است. خروجي يا متغيرهاي ملاک در اين پژوهش سه نوع بوده که سه مدل جداگانه را ساخته است. اين خروجيها عبارتند از: 1) ادامه تحصيل يا عدم ادامه تحصيل؛2) معدل کل دانشجو تا آغاز ترم سوم تحصيل؛ و 3) خروجي چند پيامدي308 که ترکيبي از بازگشت و عدم بازگشت و معدل دانشجو است. در اين پژوهش معدل دانشجو به پيوستار [1/. تا 9/.] تبديل شده و به ادامه تحصيل ارزش 1 و عدم ادامه تحصيل ارزش صفر داده شده است. نتايج اين تحقيق نشان داد، مدل شبکه عصبي چند پيامدي (ترکيبي) داراي صحت طبقهبندي 71.3% بوده که در مقابل شبکه عصبي که يک خروجي- ادامه تحصيل يا عدم ادامه تحصيل- داشت داراي صحت طبقهبندي 70.7% بوده است. پژوهشگران بر اساس اين يافتهها استنتاج ميکنند که شبکه عصبي با خروجي چند پيامدي نسبت به مدل يک پيامدي (ادامه تحصيل/ عدم ادامه تحصيل) از قدرت پيشبيني بهتري برخوردار است.
اين پژوهش با آناليز حساسيت، مهمترين عوامل مرتبط با ادامه تحصيل دانشجو و معدل کل او را شناسايي کرده است؛ از بين متغيرهاي تحصيلي، نمره استاندارد رياضي دانشجو در دبيرستان و از بين متغيرهاي روانشناختي انگيزش و رهبري، مهمترين متغيرهاي پيشبين بوده است. هر چند اين پژوهش مبتني بر دادههاي دانشجويان الکترونيکي نبوده ولي از آنجا که به دانشجويان مهندسي مربوط بوده براي اهداف پژوهش حائز اهميت است.
– بوگارد و همکارانش309(2011) براي پيشبيني ماندگاري و عدم ماندگاري تعداد نه هزار و 739 دانشجو، از روشهايي هوشمند استفاده کردهاند. مدلهاي پيشبين از دادههاي دانشجويان در سه مرحله استفاده کرده است. مرحله اول مدل سازي بر اساس متغيرهاي (مشخصههاي) دانشجو در بدو ورود بوده است. مشخصههاي مرحله اول شامل 20 متغير بوده که مواردي از قبيل سن، جنس، معدل ديپلم و … را در بر ميگيرد. مرحله دوم بر اساس دادههاي هفته پنجم تحصيلي است؛ در اين مرحله 31 متغير پيشبين بر 20 متغير قبلي اضافه ميشود. در مرحله سوم از دادههاي دانشجويان در پايان ترم اول استفاده شده است. در اين مرحله 5 متغير به مجموع متغيرهاي مرحله يک و دو اضافه شده است.
در اين پژوهش رگرسيون لجستيک، شبکه عصبي (MLP)، درخت تصميمگيري و الگوريتم ترکيبي310(رگرسيون، شبکه عصبي، درخت تصميمگيري) مقايسه شده است. جدول 2-6 نتايج روشهايي بهکار رفته بر اساس دادههاي مرحله سوم- پس از يک ترم تحصيل- گزارش شده است. همانگونه که مشاهده ميشود الگوريتم ترکيبي از قدرت طبقهبندي بيشتري برخوردار است.
جدول 2-6: مقايسه صحت طبقه بندي در پژوهش بوگارد و همکاران
رگرسيون لجستيک
شبکه عصبي
درخت تصميم گيري
الگوريتم ترکيبي
درصد صحت طبقه بندي کل
79
79
79
80
درصد صحت طبقه بندي دانشجويان مشمول افت
75
77
75
77
– لين (2012) وضعيت ادامه تحصيل يا افت تحصيلي تعداد پنج هزار و 943 دانشجو را در يکي از دانشگاههاي آمريکا با پنج الگوريتم درخت تصميمگيري (ADT Tree311، NB Tree، CART، J48 graft، J48) پيشبيني کرده است. مشخصههاي پيشبين در اين پژوهش 22 متغير بوده که از پايش 52 مشخصه اوليه دانشجويان انتخاب و به صورت طبقهاي312 وارد مدل شدهاند. مشخصهها مواردي چون جنسيت، سن، معدل ديپلم و… بوده است.
از تعداد پنج هزار و 943 دانشجو در مجموعه دادههاي اين پژوهش، تعداد 934 دانشجو ترک تحصيل کرده بودند (بالانس نبودن)؛ لذا محقق مجموعه دادههاي خود را با روش کپي کردن تعداد نمونههاي مشمول افت، بالانس کرده است. به اين روش که سه مجموعه داده ساخته شده که در مجموعه اول، تعداد 934 دانشجوي مشمول افت را شامل ميشود و در مجموعه دوم در راستاي بالانس کردن، 2 کپي از دانشجويان مشمول افت به مجموعه داده اول اضافه شده است و در مجموعه سوم، سه کپي از دادههاي دانشجويان مشمول افت اضافه شده. در اين پژوهش، از دقت313 و بازخواني314 براي مقايسه عملکرد پنج الگوريتم فوق استفاده شده است.
شاخص دقت در اين پژوهش
