پایان نامه ارشد رایگان درمورد روش حداقل مربعات، ارزیابی توان، محدودیت سخت

دانلود پایان نامه ارشد

کمتري نسبت به ماتريس A ميباشد و ماتريس T ناميده ميشود. به اين ترتيب تعدادي از متغيرهاي ماتريس A که به ساير متغيرها وابسته بوده و حاوي اطلاعات زائد بودند، در اين روش حذف ميشوند و ابعاد ماتريس A کاهش مييابد. با استفاده از بردارهاي ويژه بهعنوان فاکتور، فاکتورهايي که حاوي نوفه مـيباشند حذف مـيشوند و ابـعاد فضا کاهش مييابد و اين يکي از مزيتهاي استفاده از بردارهاي ويژه بهعنوان فاکتور ميباشد [259،265،279].
بردارهاي ويژه ترکيبي خطي از متغيرهاي اصلي موجود در ماتريس A هستند. در صورتي که V ماتريس بردارهاي ويژه باشد، ميتوان از تصوير A بر روي فضاي تعريف شده توسط V به ماتريس T با ابعاد کمتر از A دست يافت.
(8-2) AV = T
به ماتريس T که در فضاي جديد بهدست آمده و ترکيبي خطي از ستونهاي ماتريس A ميباشد، ماتريس اسکور206 گفته ميشود. متغيرهاي موجود در ماتريس A را ميتوان به طريق مشابه بهصورت ترکيبي خطي از اسکورها تعريف نمود.
(8-3) AVV´ = TV´ A = TV´(VV´)-1
V´(VV´)ˉ¹ را ماتريس لودينگ مينامند و با P نمايش ميدهند که اعضاي آن کسينوس زواياي بين بردارهاي ويژه و محورهاي مربوط به متغيرها بوده و مقاديرشان از 1+ تا 1- متغير است. بهعبارت ديگر اعضاي اين ماتريس ارتباط بين مختصات اصلي و مختصات جديد را نشان ميدهند. با توجه به بحث فوق ميتوان معادله 8-3 را بهصورت زير نوشت.
(8-4) A = TP + EA
در صورتي که تعداد i بردار لودينگ براي n نمونۀ استاندارد داشته باشيم و طيف هر يک از اين نمونهها در w طول موج ثبت گردد، A يک ماتريس w×n از مقادير جذب، T يک ماتريس i×n از اسکورها، P يک ماتريس w×i از لودينگ ها و EA يک ماتريس w×n از خطاهاي طيفي ميباشد. مرحله دوم PCR، استفاده از روش MLR براي برازش ماتريس C بر ماتريس T طبق معادله 8-5 ميباشد که ماتريس B در این معادله توسط روش حداقل مربعات طبق معادله 8-6 تخمين زده ميشود. در مرحلۀ پيشبیني طيف A نمونه مجهول در ماتريس بردارهاي ويژه (V) ضرب ميشود تا طبق معادله 8-2 مقدار T حاصل شود. سپس با ضرب کردن T در B حاصل از مرحلۀ درجهبندی، بردار C براي نمونۀ مجهول بهدست ميآيد [276-264].
(8-5) C = TB + EC
(8-6) B = (T’T)−1T’C
روش حداقل مربعات جزئي (PLS) برای اولين بار توسط کووالسکي در اواخر دهه 1970 در رشته شيمي مورد استفاده قرار گرفت و معرفي الگوريتم PLS در سال 1983 توسط سوانته ولد انجام گرفت [265،280]. مدل PLS بسيار شبيه PCR است، اما با اين تفاوت که بهطور همزمان فاکتورهاي مربوط به هر دو ماتريس A و C را مييابد و بدين ترتيب از اطلاعات ماتريس غلظت نيز در مدلسازي استفاده ميکند. هدف اصلي PLS بهدست آوردن اطلاعات غلظتي بيشتر از آن است که بهوسيله بردار لودينگ ممکن بوده است. در واقع PLS داراي اين مزيت است که بين دادههاي طيفي و غلظت اجزاء ارتباط برقرار مـيکند. مدلهاي تشکيل شده بهصورت زير ميباشند.
(8-7) E + A = TP
(8-8) C = UQ + F
عبـارت U مـاتريس اسکور براي غلظت (C) و عبارت T مـاتريس اسکور براي A مـيباشد. عبـارت P و Q بهترتيب ماتريسهاي لودينگ مربوط به مدلسازي AوC ميباشند. عبارات Eو F نيز بهترتيب ماتريس خطاهاي مربوط به مدلسازي A و C با روش PLS ميباشند. هدف PLS تعريف ماتريس C به بهترين نحو ممکن و کوچک کردن F تا حد امکان و در عين حال دستيابي به رابطهاي سودمند ميان Aو C ميباشد. بين دو ماتريس Uو T رابطۀ زير برقرار است که در آن B يک ماتريس قطري است و ضرايب برازش بين ستونهاي متناظر در Uو T را در بر ميگيرد و عبارت EU در رابطه زير خطاي اين ارتباط را بيان ميکند [259،264،265].
(8-9) U = TB + EU
مدل تشريح شده در بالا بهترين حالت ممکن نيست، چون فاکتورها بهطور جداگانه براي دو ماتريس A و C بهدست ميآيند و لذا ارتباط ضعيفي با يکديگر دارند. اگر به هر يک از ماتريسهاي اسکور اطلاعاتي در مورد ديگري داده شود، اين ماتريسها بهطور جزئي بهطرف يکديگر چرخش مينمايند و در مقايسه با PCR هر يک از بردارهاي T به فضاي C نزديکتر ميشود. لذا الگوريتم PLS بهنحوي نوشته ميشود که ستونهاي ماتريس A براي تخمين فاکتورهاي C و بهطور همزمان ستونهاي C براي تخمين فاکتورهاي A بهکار روند و اين زماني عملي است که دو ماتريس اسکورهاي خود را با هم تعويض نمايند. در مورد يک نمونۀ مجهول، به کمک طيف جذبی نمونه و P محاسبه شده توسط مدل، مقدار T بهدست ميآيد. با استفاده از معادله 8-9 با داشتن T و ضريب برازش مقدار U بهدست ميآيد. سپس به کمک معادله 8-8 با داشتن U و Q حساب شده توسط مدل، بردار C براي نمونۀ مجهول محاسبه میگردد [259،265]. مزيت روش PLS در این اسـت که اطـلاعات موجود در محلولهاي استـاندارد به گونۀ بهتري نسـبت به PCR مورد استفاده قرار ميگيرند و از هر دو ماتريس AوC استفاده ميکند [264،270]. همچنین زمان محاسبات در PLS نسبت به PCR کوتاهتر است و در PLS روشهاي سادهاي براي تشخيص نمونههاي انحرافي وجود دارد [264،281،282].
روش تحلیل خطی هیبریدی207 (HLA) یکی از الگوریتمهای درجهبندی خطی براساس فاکتورهای خطی میباشد. این روش هنگامی میتواند بهکار رود که دادههای مربوط به گونۀ مورد اندازهگیری بهطور خالص در دسترس باشند [283]. این روش هیبریدی ترکیبی از مزیت دانستن طیف جزء خالص (مشابه CLS) و مزیت مدلسازی صرفنظر از گونـههای دیگر (مشابه PLS و PCR) میباشد. نکتۀ مـهم در HLA بهدست آوردن تعداد محدودی از فاکتورهای ماتریس دادههاست که مشارکت گونۀ مورد اندازهگیری در آنها باید حذف گردد که براساس محاسبات علامت خالص ماده مورد تجزیه208 (NAS) میباشد [284،285]. کمیتهای گزینشپذیری، حساسیت و مقادیر نسبت علامت به نوفه (S/N) اطلاعاتی هستند که میتوان از NAS بهدست آورد [285]. از کاربردهای NAS انتخاب طول موج براساس محاسبات منحنی برازش علامت خالص مادۀ مورد تجزیه جهت حذف اثرات مزاحمتهای طیفی مدلسازی نشده میباشد [286،287]. انحراف منحنیهای برازش NAS از حالت خط مستقیم ناشی از حضور مزاحمتهای طیفی مدلسازی نشده در دادههای طیفی میباشد. در اغلب روشهای برازش چندمتغیره نظیر PLS، PCR و HLA خطی بودن ارتباط میان پاسخ و غلظت گونۀ مورد اندازهگیری از فرضهای اساسی میباشد. اگر این ارتباط غیرخطی باشد، فنون درجهبندی چندمتغیره غیرخطی نظیر شبکههای عصبی مصنوعی209 (ANN) بهکار میروند [288].
فنون درجهبندی بر پایۀ فاکتور نظیر PLS و HLA اغلب قادر به مدلسازی پاسخهای غیرخطی شامل اجزاء اصلی اضافی یا متغیرهای مخفی در مدل درجهبندی هستند، اگرچه نوفههای با سطح بالا در اجزاء اصلی باقیمانده و یا متغیرهای مخفی میتوانند باعث عدم موفقیت در این امر شوند [292-289]. انتخاب طول موج بر پایه NAS میتواند مناطق طیفی غیرخطی را حذف کند [293]. با استفاده از ناحیه خطی انتخاب شده از طیفها طی فرآیند فوق نیاز به وارد کردن اجزاء اصلی اضافی نیست. در این روش مدلهای درجهبندی خیلی پایدار HLA و PLS با استفاده از تعداد کمی اجزاء اصلی قابل دسترسی هستند [284].
منبع دستگاهی محتمل برای پاسخهای غیرخطی در اندازهگیریهای طیفنورسنجی شامل پاسخ غیرخطی آشکارساز و نور هرز در مقادیر جذب بالاست. یکی از منابع غیرخطی شدن پاسخ، بهدلیل تغییر در ترکیب حلال در غلظتهای بالای مـواد مـورد تجزیه میباشد. این امـر مـوجب تغییر بـزرگی در قـدرت دیالکتریک مـحلول میگردد و مـیتواند باعث تغییر در موقعیت و پهنای پیک جذبی گردد. این عوامـل میتوانند بهعنوان منابعی برای غیرخطی شدن در اندازهگیریهای طیف نورسنجی باشند [294،295].

8-1-1-3- روشهای پیشپردازش210 اطلاعات طیفی
روشهای پیشپردازش متفاوتی برای تصحیح متغیرهای ناخواسته در پاسخهای چندمتغیره ابداع شده که از جملۀ آنها میتوان به الگوریتم تصحیح علامت اورتوگونال211 (OSC) و الگوریتم علامت خالص مادۀ مورد تجزیه (NAS) اشاره نمود. روش OSC برای اولین بار توسط ولد و همکاران [296] و NAS برای اولین بار توسط لوربر212 [297] ارائه گردید. ارتباط میان OSC و PLS توسط اسونسون213 و همکاران [298] بیان شد که نشان دادند الگوریتم OSC به دو گروه تقسیمبندی میشوند: یک گروه که محدودیت سختی بر حذف اطلاعات اورتوگونال اعمال میکنند و گروه دیگر این محدودیتها را در نظر نمیگیرند. آنها گزارش نمودند که الگوریتم OSC در ارتباط با برازش PLS میباشد که بهصورت OSC/PLS بیان میشود. پیشپردازش OSC میتواند باعث کاهش پیچیدگی مدل PLS گردد، اما نمیتواند باعث تقویت قدرت پیشبینی مدل PLS گردد [299].
الگوریتم NAS نیز در ارتباط با برازش PLS میباشد که بهصورت NAS/PLS بیان میشود [299]. ندلر214 و همکاران [300،301] گزارش نمودند که کارایی مدل PLS و NAS در زمینه دادههای بدون نوفه یکسان میباشد. ارگون215 و همکاران [302] نشان دادند که پیش پردازش NAS شامل انتقال اسکورهاست، در حالیکه پیش پردازش OSC شامـل انتقال لودینگها مـیباشد. مـرحله کلیدی در الگوریتمهای NAS میتواند بهطور مستقیم بر روی ماتریسهای اسکور طیفها با متغیرهای مخفی (A) باشد، در حالیکه ماتریس Z در الگوریتم OSC فرن216 بر روی وزن لودینگهای اولین PLS میباشد [303،304].
اولیوری217 و همکاران [304] یک مقایسهای از OSC و پردازش خالص مادۀ مورد تجزیه218 (NAP) انجام دادند و بهصورت تجربی و تئوری نشان دادند که هر دو پردازش براساس استخراج قسمتی از علامت هست که بهطور مستقیم به غلظت گونۀ مورد اندازهگیری ارتباط دارد. نای219 و همکاران [299] الگوریتمهای NAS و چندین نسخه از الگوریتمهای OSC را گزارش نمودند و نشان دادند که ارتباطی میان الگوریتمهای NAS و OSC وجود دارد که این قضاوت از روی خطاهای پیشبینی بر روی دادههای تجربی انجام شد. همچنین آنها خاطر نشان نمودند که انجام پیشبینی توسط برازش PLS بعد از بهکار بردن الگوریتمهای NAS/NAP و OSC نتایج یکسانی نشان دادند که این الگوریتمها تداخلات چندمتغیره را حذف میکنند.

8-1-2- تعیین تعداد فاکتورهای بهینه
يکي از جديدترين روشها براي تعيين تعداد فاکتورهاي معنيدار در روش درجهبندی چندمتغيره الگوريتم ارزیابی تقاطعی220 است که در هر زمان يک نمونه را بيرون ميگذارد و با بقيه نمونهها مدل ميسازد. براي مثال اگر پانزده طيف در مجموعۀ درجهبندی داشته باشيم، مدلسازی PLSو PCR با چهارده طيف مجموعۀ درجهبندی انجام ميشود و با استفاده از اين مدل ساخته شده، غلظتهاي بهدست آمده براي ترکيبات در هر نمونه با غلظتهاي واقعي ترکيبات در نمونه استاندارد مقايسه ميشود و مجموع مربعات خطای باقیمانده پیشبینی221(PRESS) محاسبه ميگردد. هر بار که تعداد فاکتورها زياد ميشود، اين عمليات تکرار ميگردند و به ازاي هر تعداد فاکتور، PRESS محاسبه ميگردد و تعداد فاکتورهاي مطلوب در حداقل PRESS بهدست ميآيد. معادله PRESS بهصورت زير بيان ميشود:
(8-10)
در معادله فوق غلظت واقعي گونۀ مورد اندازهگیری در نمونه i و غلظت تخمين زده شده گونه در نمونه i و n تعداد نمونههاي بهکار رفته در مجموعۀ درجهبندی میباشد [305]. اگر تعداد فاکتورها بيشتر از اين مقدار انتخاب شود، PRESS زياد ميشود که به معناي پيشبینی ضعيفتر میباشد. چون نوفۀ موجود در ماتريس جذب نيز در مدلسازي شرکت ميکند [269،306،307].
يک معيار بهتر براي انتخاب تعداد بهينۀ فاکتورها، مقايسه PRESS با مدلهاي داراي فاکتورهاي کمتر است که تست آماري F براي اين منظور بهکار ميرود. توماس222 و همکاران [270] مشخص کردند که اگر نسبت F ها (F تجربی به F بحرانی) 75/0 باشد، انتخاب خوبي است. تعداد نصف استانداردها بهعلاوه يک، بهعنوان بيشترين مقدار فاکتورهاي اوليه و بهترين تعداد فاکتورهاي محاسبه شده براي اولين مقدار PRESS بهکار ميرود [308،309].

8-1-3- کمیتهای آماری برای ارزیابی توانايي پيشبینی مدل
1- خطاي نسبي پيشبینی223 ((REP: برابر جذر مجموع مربع

پایان نامه
Previous Entries پایان نامه ارشد رایگان درمورد روش حداقل مربعات Next Entries پایان نامه ارشد رایگان درمورد ضریب همبستگی، نقطه مرکز