
مقدار تغيير در يك وزن سيناپسي شبكه با مشتق متناسب است، به اين نتيجه ميرسيم كه براي تابع محرك سيگموئيدي، وزنهاي سيناپسي بيشتر براي آن نورونهايي در شبكه تغيير ميكنند كه در آنها سيگنالهاي كاري در حد وسط خود باشند. اين ويژگي يادگيري پس انتشار است كه به پايداري آن به عنوان يك الگوريتم يادگيري كمك ميكند.
تابع تانژانت هيپربوليك: تابع تانژانت هيپربوليك صورتي ديگر از غير خطي سيگموئيدي است كه به صورت كلي به شكل زير تعريف ميشود:
(2-48)
كه در آن a و b ثابت هستند. در واقع تابع تانژانت هيپربوليك همان تابع لجستيك است كه مقياس گذاري مجدد گرديده و باياس ميشود. مشتق آن نسبت به به صورت زير فرض ميشود:
(2-49)
براي نورون j كه در لايه خروجي قرار دارد گراديان محلي عبارت است از:
(2-50)
براي نورون j در لايه مخفي داريم:
(2-51)
با استفاده از معادلات (2-47) و (2-48) براي تابع لجستيك و معادلات (2-50) و (2-51) براي تابع تانژانت هيپربوليك ميتوانيم گراديان محلي را بدون قطعي از تابع محرك محاسبه كنيم.
2-8-7 نرخ يادگيري
الگوريتم پس انتشار يك «تقريب» از مسيري است كه وزنها بر مبناي الگوريتم شيبترين كاهش در فضا طي مي كنند. هر چه پارامتر نرخ يادگيري را كوچكتر كنيم، تغييرات وزنهاي سيناپسي در شبكه از گامي به گام بعد كوچكتر ميشوند و مسير فضاي وزن هموارتر ميشود. گرچه اين بهبود به بهاي كاهش نرخ يادگيري بدست ميآيد. از طرف ديگر، اگر پارامتر نرخ يادگيري را به منظور سرعت بخشيدن به نرخ يادگيري بسيار بزرگ كنيم، تغييرات بزرگي كه در وزنهاي سيناژسي به وجود ميآيد ممكن است منجر به ناژايداري (نوساني شدن) شبكه گردد. يك روش ساده براي افزايش نرخ يادگيري با اجتناب از خطر ناپايداري، تعديل كردن قانون دلتاي معادله (2-26) با در نظر گرفتن عبارت مومان است كه به صورت زير نمايش داده ميشود:
(2-52)
كه در آن معمولاً عدد مثبتي است كه ثابت مومان ناميده ميشود. معادله (2-52) با نام قانون دلتاي تعميم يافته شناخته ميشود و شامل قانون دلتاي معادله (2-26) در حالت خاص ميشود.
براي مشاهده تأثير توالي ارائه الگوها در وزنهاي سيناپسي بر مبناي ثابت مومان معادله (2-52) را به صورت سري زماني با انديس t بازنويسي ميكنيم. انديس t از زمان اوليه صفر به زمان حال n ميرود. ميتوانيم معادله (2-52) را به صورت معادله ديفرنس درجه اول در اصلاح وزن در نظر بگيريم. براي حل اين معادله براي مينويسيم:
(2-53)
كه يك سري زماني به طول (n+1) را معرفي ميكند. از معادلات (2-24) و (2-25) متوجه ميشويم كه حاصل ضرب مساوي با است. در نتيجه ميتوانيم معادله (2-53) را به صورت معادل زير بنويسيم:
(2-54)
بر اساس اين رابطه ميتوانيم به مشاهدات زير دست يابيم:
تنظيم كنوني مجموع سريهاي زماني وزن يافته نمايي را ارائه ميكند. براي آنكه سريهاي زماني همگرا شوند، ثابت مومان بايد به محدوده محدود باشد. وقتي صفر باشد الگوريتم پسانتشار بدون مومان عمل ميكند. همچنين ثابت مومان ميتواند مثبت يا منفي باشد، گرچه احتمال اينكه يك مفي در عمل بكار رود بسيار كم است.
هنگامي كه مشتق جزئي در مراحل گام به گام متوالي علامت جبري ثابت داشته باشد، دامنه مجموع وزن دار نمايي كاهش مييابد، همچنين به يك مقدار كوچك تنظيم ميگردد. با در نظر گرفتن جمله مومان در الگوريتم پسانتشار اثر پايدارسازي در جهتي كه علامت مثبت و منفي نوسان ميكند، افزايش مييابد. در اين حالت جمله مومان در الگوريتم پسانتشار تأثير اندكي بر اصلاح وزن ميگذارد.
به كارگيري مومان ميتواند تأثيرات مثبتي بر رفتار يادگيري الگوريتم داشته باشد. همچنين مومان ميتواند در جلوگيري از اتمام فرآيند يادگيري در يك حداقل محلي كوچك بر روي رويه خطا جلوگيري كند. در مشتق گيري الگوريتم پس انتشار فرض كرديم كه پارامتر نرخ يادگيري ثابتي است كه با نماد نشان داده ميشود در حالي كه در واقعيت بايد به صورت نشان داده شود. اين به معني اين است كه پارامتر نرخ يادگيري بايد وابسته به اتصال باشد. واضح است كه اگر در اعمال الگوريتم پس انتشار بتوانيم تمام وزنهاي سيناپسي را قابل تنظيم انتخاب كنيم به نتايج قابل توجهي خواهيم رسيد.
لازم به ذكر است كه در كاربردهاي عملي به كارگيري الگوريتم پسانتشار ميتوانيم تمامي وزنهاي شبكه را قابل تنظيم در نظر بگيريم يا اينكه تعدادي از وزنها را در طول فرايند تنظيم ثابت نگه داريم. در مورد دوم سيگنالهاي خطا در طول شبكه به صورت عادي پس انتشار مييابند و وزنهاي سيناپسي ثابت نيز بدون تغيير باقي ميمانند. اين كار با صفر قرار دادن پارامتر نرخ يادگيري براي وزن سيناپسي انجام ميپذيرد.
2-8-8 مودهاي آموزشي انبارهاي34 و ترتيبي 35
در كاربرد عملي الگوريتم پس انتشار ، يادگيري در نتيجه ارائه تعداد زيادي مجموعههاي معين از نمونههاي آموزشي به پرسپترون چند لايه حاصل ميگردد. همانطور كه قبلاً نيز گفته شد به هر ارائه كامل تمامي مجموعه آموزش در طول فرآيند يادگيري يك اپوك گفته ميشود. فرآيند يادگيري تا زماني كه وزنهاي سيناپسي و سطوح باياس شبكه پايدار شوند و ميانگين خطاي مربعات در تمام مجموعه آموزش به كمترين مقدار همگرا شود، به صورت اپوك به اپوك ادامه مييابد. يك تجربه جالب توجه تصادفيكردن ترتيب ارائه نمونهي آموزش از اپوكي به اپوك ديگر است. اين تصادفي كردن باعث ميشود از ايجاد سيكلهاي محدود در هنگام جستجو در فضاي وزن جلوگيري به عمل آيد. براي يك مجموعه اموزش معلوم يادگيري پس انتشار ميتواند به يكي از دو روش اصلي زير انجام شود:
مود ترتيبي: مود ترتيبي يادگيري پس انتشار با عنوانهاي مود هم زمان، الگويي و يا احتمالي انجام ميشود. اين مهمترين مود عملياتي است كه مشتق گيري از الگوريتم پس انتشار در آن كاربرد دارد. براي توضيح دقيقتر يك اپوك با N نمونه (الگو) به ترتيب( (x(1)،d(1) (x(N)،d(N)،…، در نظر بگيريد. اولين جفت نمونه (x(1)،d(1) اپوك به شبكه ارائه ميشود و محاسبات پيش رو و پس رو كه قبلاً ذكر شد انجام ميشود كه موجب تنظيم وزن هاي سيناپسي و سطوح باياس شبكه ميگردد. سپس دومين جفت نمونه (x(2)،d(2) اپوك ارائه ميشود و مجدداً توالي محاسبات پيش رو و پس رو تكرار ميشود و در نتيجه تنظيمات بيشتري بر روي وزنهاي سيناپسي و سطوح باياس اعمال ميشود. اين روند تا زماني كه زوج نمونه (x(N)،d(N)اپوك ارائه شود ادامه مييابد.
مود انبارهاي: در مورد انبارهاي يادگيري پس انتشار ، اصلاح وزن پس از ارائه تمام نمونههاي آموزش موجود در اپوك اجرا ميشوند. براي يك اپوك خاص تابع هزينه را به صورت ميانگين مربعات خطاي معادلات (3-15) و (3-16) تعريف ميكنيم كه در اينجا به صورت تركيبي بازنويسي شده است.
(3-55)
كه در آن سيگنال خطاي برابر با اختلاف بين و است كه به ترتيب نشان دهنده المان j از بردار پاسخ مطلوب و مقدار خروجي مطلوب شبكه ميباشد. در معادله (2-55) جمع داخلي نسبت به j بر روي تمام نورونها در لايه خروجي شبكه انجام ميشود، در حالي كه جمع خارجي نسبت به n بر روي كل مجموعه آموزش اپوك موجود اجرا ميگردد. براي پارامتر نرخ يادگيري تنظيمات اعمال شده بر روي وزن سيناپسي كه نوزون i را به نورون j متصل ميكند توسط قانون دلتاي زير تعريف ميشود:
(2-56)
براي محاسبه مشتق جزئي همان روش قبلي را اجرا ميكنيم. با توجه به معادله (2-56) تنظيم وزن در مورد انبارهاي تنها پس از ارائه كل مجموعه آموزشي به شبكه انجام ميشود.
از ديدگاه عمليات «هم زمان»، مود آموزشي ترتيبي به علت اينكه ذخيره محلي كمتري براي هر اتصال سيناپسي دارد، به مود انبارهاي ترجيح داده ميشود. علاوه بر اين، اگر الگوهايي كه شبكه ارائه ميشوند به صورت تصادفي مرتب شوند، استفاده از روش الگو به الگوي اصلاح وزنها موجب جستجوي تصادفي در فضاي وزن ميگردد. در عوض اين ويژگي موجب ميشود كه الگوريتم پس انتشار در يك حداقل محلي گرفتار نشود.
به همين ترتيب ماهيت تصادفي مود ترتيبي دستيابي به شرايط تئوري لازم براي همگرايي الگوريتم را مشكل ميكند. در مقابل استفاده از مود لحظهاي آموزش موجب به دست آمدن تخمين دقيقي از بردار گراديان ميشود. بنابراين همگرايي به حداقل محلي در شرايط ساده تضمين ميشود. علاوه بر آن ساختار مود انبارهاي عمليات موازي را نسبت به مود ترتيبي آسانتر ميكند. هنگامي كه دادههاي آموزشي متواتر هستند (يعني مجموع داده ها چندين كپي از الگوي يكسان را دارد) متوجه ميشويم كه مود ترتيبي بر خلاف مود انبارهاي ميتواند از اين تواتر به اين علت كه نمونهها يك به يك در زمان ارائه ميشوند استفاده كند. به طور خلاصه، به استثناي اين حقيقت كه مود ترتيبي يادگيري پس انتشار معايبي دارد، به دو دليل عملي مهم به ويژه براي پاسخ دادن به مسائل طبقه بندي الگو بسيار مورد توجه است:
الگوريتم به راحتي قابل اجرا است.
پاسخهاي موثري براي مشكلات بزرگ و پيچيده ارائه ميكند.
2-8-9 معيار توقف
اثبات همگرايي الگوريتم پس انتشار در حالت كلي امكان پذير نيست و هيچ معيار تعريف شده دقيقي براي توقف عملكرد آن وجود ندارد. در عوض چندين معيار قابل قبول با ويژگيهاي تجربي وجود دارند كه ميتوانند براي اتمام تنظيم وزن مورد استفاده قرار گيرند. براي به دست آوردن روابط چنين معياري، منطقي است كه به خصوصيات منحصر به فرد يك حداقل عمومي يا محلي رويه خطا توجه كنيم. فرض كنيد نشان دهنده يك حداقل محلي يا عمومي باشد. يك شرط لازم براي حداقل بودن اين است كه بردار گراديان (يعني مشتق جزيي مرتبه اول) رويه خطا نسبت به بردار وزن در صفر باشد. در نتيجه ميتوانيم يك معيار همگرايي معنادار براي يادگيري پس انتشار به صورت زير بنويسيم:
الگوريتم پس انتشار هنگامي كه نُرم اقليدسي بردار گراديان آن به آستانه به اندازه كافي كوچكي برسد همگرا ميشود.
پس زمينه معيار همگرايي فوق اين است كه زمان يادگيري براي اين تلاشهاي موفق ممكن است طولاني باشد. همچنين محاسبه بردار گراديان نيز ضروري است.
ويژگي منحصر به فرد ديگري كه ميتوان از آن بهره برد اين است كه تابع هزينه يا معيار خطاي در نقطه ايستا است. پس ميتوانيم معيار ديگري نيز براي همگرايي ارائه دهيم:
الگوريتم پس انتشار هنگامي همگرا ميشود كه نرخ مطلق تغيير در ميانگين مربعات خطا در هر اپوك به قدر كافي كوچك باشد.
نرخ تغيير در ميانگين خطاي مربعات معمولاً به اندازهاي كوچك است كه در محدوده 1/0 تا 1درصد در هر اپوك قرار گيرد. گاهي از مقداري به كوچكي 1% در هر اپوك نيز استفاده ميشود. متأسفانه اين معيار ممكن است به پايان نادرستي از فرآيند يادگيري منتهي شود. معيار قابل استفاده و با پشتوانه تئوري ديگري براي همگرايي وجود دارد. پس از هر گام يادگيري شبكه براي تعميمدهي امتحان ميشود. فرآيند يادگيري هنگامي كه تعميمدهي كافي باشد و يا هنگامي كه نزديك است تعميمدهي به اوج خود برسد، متوقف ميشود.
2-9 رگرسيون
رگرسيون يكي از ابزارهاي مهم آماري است كه تقريباً در هر زمينهاي از جمله مهندسي، فيزيك، اقتصاد، مديريت، علوم زيستي و … جهت برآورد و پيشبيني مورد استفاده وسيع قرار ميگيرد و ميتوان گفت تحليل رگرسيوني، پركاربردترين روش در بين تكنيكهاي آماري بوده و روشهاي متنوعي جهت بررسي فرضيهها و مدلهاي آن مطرح و موجود ميباشد.
براي تحليل رگرسيون در الگوهاي پارامتري با يك روش مناسب به برآورد پارامترها پرداخته و به برآوردي از منحني رگرسيون ميرسيم. اين برآورد يك منحني از خانواده منحنيهايي است كه به عنوان يك الگو انتخاب شده و با دادهها نيز هماهنگي دارد. با اين حال رگرسيون پارامتري داراي شرطهايي
