پایان نامه با واژگان کلیدی الگوريتم، پيشبيني، طبقهبندي، مشخصههاي

دانلود پایان نامه ارشد

اساس شباهت مورد با ساير موارد، استنتاج صورت ميگيرد. براي پيشبيني معدل کل يادگيرنده الکترونيکي (رگرسيون) و طبقهبندي وضعيت دانشجو از الگوريتم387IBk استفاده شد.
– ماشين بردار پشتيبان388: يکي از روش‌هاييِ يادگيري با ناظر است که از آن براي طبقه‌بندي و رگرسيون استفاده مي‌کنند. مبناي کاري دسته‌بندي کننده SVM، دسته‌بندي خطي داده‌ها است و در تقسيم خطي داده‌ها سعي مي‌شود خطي انتخاب شود که حاشيه اطمينان بيشتري داشته باشد. در پژوهش حاضر براي پيشبيني معدل کل يادگيرنده الکترونيکي (رگرسيون) از الگوريتم SMOreg و طبقهبندي وضعيت دانشجو از الگوريتم SMO استفاده شد.
– شبکههاي بيزي389: “شبکه باور” يا “شبکه باور بيزي” يک گراف جهت‌دار غير مدور است که مجموعه‌اي از متغيرهاي تصادفي و نحوه ارتباط مستقل آن‌ها را نشان مي‌دهد شبکههاي بيزي فقط براي حل مسائل طبقهبندي بکار مي‌رود؛ دو الگوريتم مشهور BayesNet و NaiveBayes در اين پژوهش آزمون شدند.
4-13-1 شناسايي مدل هاي مناسب براي پيش بيني ميزان موفقيت (رگرسيون)
همان‌طور که در مقدمه بحث گذشت، شناسايي مدل مناسب هوش مصنوعي به دو هدف جزئي تقسيم شد. شناسايي معدل کل يادگيرنده الکترونيکي که ارزشي بين 0 تا 20 دارد، به عنوان يک مسئله رگرسيوني تعريف ميشود. هدف پژوهشي براي شناسايي مدل هوش مصنوعي براي حل مسئله رگرسيوني به قرار زير است:
الف) شناسايي مدل مناسب هوش مصنوعي براي پيشبيني ميزان موفقيت (معدل کل) دانشجويان الکترونيکي (مسئله رگرسيون)
الگوريتمهاي بکار رفته براي حل مسئله رگرسيوني پژوهش حاضر عبارت بودند از:
* دو الگوريتم مربوط به مدل درخت تصميم در نرمافزار WEKA شامل: M5′ و REPTree
* يک الگوريتم مربوط به مدل استنتاج قانون در نرمافزار WEKA شامل: M5Rules
* يک الگوريتم مربوط به مدل نزديک‌ترين همسايه در نرمافزار WEKA شامل:IBk که معادل K نزديک‌ترين همسايه است
* دو الگوريتم مربوط به مدل شبکه عصبي مصنوعي در نرمافزار WEKA شامل: MLP و RBFNetwork. مدل پرسپترون چند لايه داراي توپولوژي دو لايه مخفي است که در هر لايه سه نورون مخفي تعريف شده است.
* يک الگوريتم مربوط به مدل ماشين بردار پشتيبان در نرمافزار WEKA شامل: SMOreg
در اين پژوهش به سياق ساير پژوهشهاي دادهکاوي آموزشي براي برآورد عملکرد مدل در مرحله آموزش390 از اعتباريابي همزمان 10 بعدي391 استفاده شد. در اين رويکرد داده‌هاي موجود در مجموعه داده به 10 قسمت تقسيم ميشود و مدل پيشبين ساخته شده در هر ده بخش از مجموعه داده‌ها تست ميشود.
چنان که در فصل دوم در باب مقايسه کارآيي مدلهاي يادگيري ماشيني در حل مسائل رگرسيوني مطرح شد، براي مقايسه عملکرد مدلها از شاخصهاي مختلفي استفاده ميشود که مهم‌ترين آن‌ها متوسط قدر مطلق خطا392 است. متوسط قدر مطلق خطا عبارت است از ميانگين قدر مطلق تفاوت ارزش پيشبيني شده توسط مدل از ارزش واقعي موارد در مجموعه داده‌ها. قاعدتاً هر چه ارزش متوسط قدر مطلق خطا براي مدلي پايينتر باشد؛ کارآيي مدل بالاتر است. کارآيي الگوريتمهاي بکار رفته بر حسب متوسط قدر مطلق خطا براي متغيرهاي پيشبين در جدول ‏4-65 آمده است. لازم به يادآوري است که کارآيي مدلها بر حسب مشخصههاي ورودي مختلف آزمون شده است. اول بر حسب متغيرهاي مربوط به مشخصههاي ورودي دانشجو؛ دوم، بر حسب مشخصههاي پرسشنامهاي؛ سوم بر حسب تمام مشخصهها، منهايي معدل ترم اول دانشجو؛ چهارم، بر حسب تمام متغيرهاي پيشبين که معدل ترم اول را نيز در بر ميگيرد.
جدول ‏4-65: کارآيي الگوريتم هاي پيش بيني رگرسيوني با داده هاي آموزش

M5′
REPTree
M5Rules
IBk
MLP(3,3)
RBFNetwork
SMOreg
1. مشخصههاي ورودي
1.26
1.33
1.26
1.66
1.48
1.73
1.23
2. مشخصههاي پرسشنامهاي
1.80
1.89
1.80
2.36
2.02
1.86
1.81
3. تمام مشخصهها بدون معدل ترم اول
1.22
1.35
1.22
1.58
1.47
1.66
1.19
4. تمام مشخصهها
0.88
0.98
0.88
1.49
1.18
1.62
0.89

يافتههاي جدول ‏4-65 که مربوط به مرحله آموزش مدلها است، حاکي ست عملکرد تمام الگوريتمها در مدلي که تمام مشخصهها وارد شده است، بهبود يافتهاند. در مدلي که تمام مشخصهها (22 مشخصه) را در بر ميگيرد، الگوريتمهاي M5′ از خانواده مدلهاي درخت تصميم و M5Rules با متوسط قدر مطلق خطا 0.88 بيشترين کارآيي را دارد.
در مدلي که تمام مشخصهها بدون معدل ترم اول وارد شده، عملکرد الگوريتمها کاهش يافته است. با اين وجود در اين مرحله از ورود متغيرها، الگوريتم مربوط به ماشين بردار پشتيبان (SMOreg) با متوسط قدر مطلق خطاي 1.19 بيشترين قدرت پيشبيني را داشته است.
در مدلهايي که بر اساس متغيرهاي پرسشنامهاي پيشبيني ميکنند، عملکرد الگوريتمها پايين است. با اين وجود الگوريتمهاي M5′ از خانواده مدلهاي درخت تصميم و M5Rules از خانواده استنتاج قانون با متوسط قدر مطلق خطاي 1.80 بيشترين کارآيي را دارد.
در مدلهايي که با متغيرهاي ورودي پيشبيني ميکنند الگوريتم مربوط به ماشين بردار پشتيبان (SMOreg) با متوسط قدر مطلق خطاي 1.23 بيشترين قدرت پيشبيني را داشته است.
مقايسه کارآيي الگوريتمهاي مختلف نشان ميدهد، مدلهاي درخت تصميم، استنتاج قانون و ماشين بردار پشتيبان در مجموع در مرحله آموزش عملکرد مطلوبتري داشتهاند. الگوريتم نزديک‌ترين همسايه و شبکه عصبي مصنوعي پرسپترون چند لايه و RBF عملکرد ضعيفي داشتهاند. الگوريتم K نزديک‌ترين همسايه ضعيفترين الگوريتم براي هدف پژوهش حاضر در مرحله آموزش بوده است.
4-13-2 شناسايي مدل هاي مناسب براي پيش بيني موفقيت (طبقه بندي)
آنچنان که در مقدم? بحث گذشت، شناسايي مدل مناسب هوش مصنوعي به دو هدف جزئي تقسيم شد. يافتههاي مربوط به مدل مناسب هوش مصنوعي براي شناسايي معدل کل يادگيرنده الکترونيکي به عنوان يک مسئله رگرسيوني، گزارش شد. براي شناسايي مدل هوش مصنوعي براي حل مسئله طبقهبندي، هدف پژوهشي به قرار زير تعريف شد:
شناسايي مدل مناسب هوش مصنوعي براي پيش بيني موفقيت دانشجويان الکترونيکي (مسئله طبقهبندي)
چنان که در مرحله آماده سازي داده‌ها توضيح داده شد: هدف پيشبيني وضعيت تحصيلي دانشجو در سه طبقه 1) F ضعيف يا در معرض خطر؛ 2) bcd: متوسط و 3) A: قوي يا موفق بوده است.
الگوريتمهاي بکار رفته براي حل مسئله طبقهبندي در پژوهش حاضر همراه با خانواده آن‌ها در جدول ‏4-66 آمده است.
جدول ‏4-66: الگوريتم هاي بکار رفته براي حل مسئله طبقه بندي
درخت تصميمگيري
SimpleCart

J48(C4.5)

REPTree
استنتاج قانون
JRip(RIPPER)

DecisionTable
نزديک‌ترين همسايه
IBk
شبکه عصبي مصنوعي
MLP(5,5)

RBFNetwork
ماشين بردار پشتيبان
SMO
شبکههاي بيزي
BayesNet

NaiveBayes
آماري
SimpleLogistic
براي برآورد عملکرد مدل در مرحله آموزش همانند شناسايي مدلهاي مناسب پيشبيني رگرسيوني از اعتباريابي همزمان 10 بعدي استفاده شد. براي مقايسه کارآيي مدلهاي مختلف در مسائل طبقهبندي از شاخصهاي مختلفي استفاده ميشود که شرح آن‌ها در فصل دوم در مبحث پيشينه پژوهشها با مدلهاي هوشمند بحث شد. معمولترين شاخص، صحت طبقهبندي است که طي آن درصد صحت طبقهبندي موارد (دانشجو) توسط مدل در مقايسه با طبقه واقعي مورد، محاسبه و گزارش ميشود. شاخص دقّت به احتمالي اشاره دارد که طي آن دانشجوي جديدي که توسط مدل مشمول افت تحصيلي پيشبيني شده است، واقعاً در آينده مشمول افت شود. صحّت، نمايانگر قدرت مدل در طبقهبندي و دقّت، قدرت پيشبيني مدل را نشان ميدهد. از آنجا که مسئله مورد بحث پژوهش حاضر داراي سه طبق? ضعيف، متوسط و قوي براي وضعيت تحصيلي يادگيري الکترونيکي است. شاخص دقت براي سه طبقه متفاوت است. به عنوان مثال شاخص دقت پيشبيني با مشخصههاي ورودي براي الگوريتم SimpleCart در طبقه دانشجوي موفق صفر (0)، براي دانشجوي متوسط (0.60) و براي دانشجويان ضعيف (0.68) بوده است. با توجه اهميت تشخيص طبقه مشمول افت (F) در جدول مربوط به کارآيي الگوريتمها، شاخص دقت فقط براي طبقه (F) در جدول ‏4-67 گزارش شده است.
جدول ‏4-67 : کارآيي الگوريتم هاي پيش بيني طبقه بندي با داده هاي آموزش

1)مشخصههاي ورودي
2)مشخصههاي پرسشنامهاي
3)تمام مشخصهها بدون معدل ترم اول
4)تمام مشخصهها

صحّت
دقّت
صحّت
دقّت
صحّت
دقّت
صحّت
دقّت
SimpleCart
61.08
0.68
55.09
0.51
60.80
0.66
71.12
0.68
J48(C4.5)
56.06
0.52
50.07
0.40
51.18
0.47
68.2
0.64
REPTree
59.97
0.63
51.18
0.34
61.51
0.63
69.73
0.68
JRip
57.88
0.58
53.83
0.41
59.69
0.61
71.40
0.68
DecisionTable
60.67
0.64
54.81
0.35
62.20
0.67
71.69
0.71
IBk
50.63
0.46
46.30
0.31
54.81
0.50
55.64
0.52
MLP(5,5)
57.04
0.56
52.71
0.40
56.48
0.52
65.27
0.61
RBFNetwork
59.55
0.59
55.36
0.48
59.55
0.57
65.55
0.64
SMO
59.97
0.64
55.64
0
60.80
0.63
70.15
0.72
BayesNet
47.70
0.46
51.18
0.42
52.71
0.51
63.04
0.58
NaiveBayes
50.35
0.49
51.60
0.45
53.83
0.53
60.39
0.58
SimpleLogistic
60.25
0.62
55.23
0.47
61.64
0.65
71.26
0.72

نتايج صحت طبقهبندي جدول ‏4-67 براي مدل نهايي که در آن تمام مشخصههاي پيشبين وارد مدل شده است، حاکي ست DecisionTable با قدرت طبقهبندي 71.69 و دقّت پيشبيني 0.71 بهترين مدل پيشبين با تمام مشخصهها است. البته رگرسيون لجستيک ساده نيز عملکرد مطلوبي داشته است.
با حذف معدل ترم اول دانشجو، عملکرد مدلها کاهش مييابد. حتي با حذف معدل ترم اول DecisionTable با قدرت طبقهبندي 62.20 و دقّت پيشبيني 0.67 بهترين مدل پيشبين است. مدل آماري رگرسيون ساده نيز عملکرد نسبتاً مطلوبي داشته است.
مقايسه عملکرد الگوريتمهاي مختلف نشان ميدهد با متغيرهاي پرسشنامهاي عملکرد SMO با صحت طبقهبندي 55.64 درصد صحت طبقهبندي از ساير الگوريتمها بالاتر است. اما از آنجا که شاخص دقّت پيشبيني اين الگوريتم براي طبقه F صفر است و ميتوان نتيجه گرفت اين الگوريتم در پيشبيني دانشجويان ناموفق صفر درصد است. بنابراين الگوريتم شبکه عصبي RBFNetwork با صحت طبقهبندي 55.36 درصد و دقّت پيشبيني 0.48 تنومندترين الگوريتم است. شاخص دقّت براي الگوريتم RBFNetwork نشان ميدهد با مدل شامل مشخصههاي پرسشنامهاي نتايج بالانستري براي طبقات مختلف دارد به گونهاي که شاخص دقت براي طبقه A، 0.417 براي متوسط 0.576 براي طبقه F، 0.476 بوده است.
با نتايج مقايسهاي عملکرد الگوريتمها در جدول ‏4-67 با مشخصههاي ورودي ميتوان نتيجه گرفت DecisionTable با صحت طبقهبندي 60.67 درصد و دقّت پيشبيني (0.64) تنومندترين الگوريتم است.
به طور خلاصه DecisionTable، مدل آماري رگرسيون لجستيک مدلهاي قويّاي براي حل مسئله طبقهبندي در پژوهش حاضر در مرحله آموزش هستند. البته بايد توجه داشت کارايي اين الگوريتم با متغيرهاي پرسشنامهاي در پيشبيني دانشجويان کلاس الف (A) بسيار ضعيف و در حد صفر بوده است. به اين معني که اين الگوريتم در پيشبيني دانشجويان موفق خوب عمل نميکند. اين بدان معنا است که ممکن است دانشجويان موفق را طبقه مشمول افت يا متوسط قرار دهد.
در راستاي نقاط ضعف الگوريتمهاي طبقهبندي جدول ‏4-67 توجه به ملاحظات زير ضروري است:
* شاخص دقت براي کلاس الف (A) براي الگوريتم SimpleCart در مدل تمام مشخصهها بدون معدل ترم اول و مشخصههاي ورودي، صفر بوده است. به اين معني که اين الگوريتم در پيشبيني دانشجويان موفق، ناتوان است.
* شاخص دقت براي کلاس الف (A) در الگوريتم SimpleCart در مدل مشخصههاي پرسشنامهاي 0.16 بوده است. به اين معني که اين الگوريتم در پيشبيني دانشجويان موفق، بسيار ضعيف عمل ميکند.
* شاخص دقت براي کلاس الف (A) در الگوريتم DecisionTable در مدل مشخصههاي پرسشنامهاي صفر بوده است. به اين معني که اين الگوريتم در پيشبيني دانشجويان الف (موفق) کاملاً ناتوان بوده است.
* شاخص دقت براي کلاس الف (A) و (F) در الگوريتم SMO در مدل مشخصههاي پرسشنامهاي

پایان نامه
Previous Entries پایان نامه با واژگان کلیدی اضطراب امتحان، استفاده از تلفن همراه، سلسله مراتب، تلفن همراه Next Entries پایان نامه با واژگان کلیدی اضطراب امتحان، عادت به مطالعه