دانلود پایان نامه ارشد درمورد ماشین بردار پشتیبان، فرآیند تحلیل، ناسازگاری

دانلود پایان نامه ارشد

ستخراج می‏نماید.
مزایا و معایب روش‏های مبتنی بر پیکره:
مزیت اینگونه روش‏ها در این است که می‏توانند دانش مفیدی را از پیکره‏های آموزشی کسب نمایند، که کسب آن‏ها در سایر روش‏ها نیازمند محاسبات سنگین و زمان بر و حتی گاهی اوقات غیر ممکن می‏باشد. با این وجود کسب چنین دانشی تنها از روی پیکره‏های زبان‏شناسی بسیار بزرگ ممکن است. به‏علاوه، ابزارهای زبان‏شناسی مناسبی(مانند تجزیه‏گر آماری) برای پردازش پیکره‏ها نیاز است. چنین پیکره‏ها و ابزارهایی در بسیاری از زبان‏های طبیعی به‏خصوص زبان پارسی وجود ندارد.
2-1-۳-۴.روش‏های جايگزين:
2-1-۳-۴-۱.روش هم‏آموزی121
هم‏آموزی گونه‏ای از یادگیری باناظر ضعیف می‏باشد که در آن دو رده‏بند مجزا بر روی دو یا چند جنبه122ی متفاوت از یک داده‏ی یکسان آموزش می‏بینند بنابراین فرآیند یادگیری دارای افزونگی نخواهد بود.[3] در سال ۲۰۰۱، مولر123 و همکاران از روش هم‏آموزی در فرآیند تشخیص مرجع مشترک استفاده‏نمودند که برای انجام آن داده‏ها به دو جنبه تقسیم می‏شوند.[17] منظور از جنبه‏ها در اینجا همان ویژگی‏ها می‏باشد. (البته تقسیم آن‏ها به دو بخش لزوما یک افراز معنادار برای ویژگی‏ها محسوب نمی‏شود). در این روش داده‏ها براساس نوع عبارت اسمی به سه مجموعه تقسیم می‏شوند و با توجه به هر یک از این مجموعه‏ها الگوریتم ارائه شده متفاوت عمل می‏کند. از طرفی دیگر، ان جی124 و کاردیه125 در سال ۲۰۰۳ با دیدی متفاوت این مسئله را مورد بررسی قرار دادند، چرا که نمی‏توان با روش قبل یک افراز واضح و مشخص از ویژگی‏های مورد استفاده در زنجیره‏های عبارت‏های اسمی هم‏مرجع داشت و یا اگر هم امکان پذیر باشد، یافتن چنیِن اِفرازی مشکل خواهد بود. بنابراین ان‏جی و کاردیه الگوریتم خودراه‏اندازِ126 یک جنبه‏ای را به کار بستند. براساس آزمایشات مشابهی که آن‏ها بر روی مجموعه داده‏های MUC-6 و MUC-7 انجام دادند، الگوریتم ارائه شده‏ی آن‏ها بهتر از الگوریتم هم‏آموزی ارائه شده توسط مولر و همکارانش عمل می‏کند.[100]
در روش‏های قبلی، از شیوه‏های حریصانه برای یافتن بهترین افراز ویژگی‏ها استفاده می‏شد، ولی این روش به جای بهره بردن از چندین جنبه گوناگون، از یک جنبه به همراه چندین الگوریتم یادگیری متفاوت بهره می‏برد. از آن جایی که عامل‏های یادگیرنده متفاوت، گرایش127‏های متفاوتی دارند، فرضیات متفاوتی از داده‏ها را در نظر می‏گیرند و در نتیجه خروجی آن‏ها می‏تواند مکمل یکدیگر باشند. در نتایج ارائه شده در [100]، الگوریتم خودراه‏اندازی که با چند عامل یادگیرنده عمل می‏کند، بسیار بهتر از عامل یادگیرنده‏ی هم‏آموزی است که بر روی چند جنبه متفاوت از داده‏ها عمل می‏نمایند. به طور کلی در این پژوهش از عامل یادگیرنده بِِیزین ساده و لیست های تصمیم128 به کار رفته است.
2-1-۳-۴-۲.مدل احتمالاتی مرتبه اول129
در سال ۲۰۰۷، کولتا 130و همکارانش روشی ارائه دادند که از منطق مرتبه اول احتمالاتی برای نمایش ویژگی‏ها استفاده می‏نماید. در منطق مرتبه اول احتمالی، به هر یک از مستندات131، احتمالی تخصیص داده می‏شود. بنابراین یک پیکربندی132 برای مسئله می‏تواند با مجموعه‏ای از مستندات نمایش داده شود که به هر یک، پارامتری تخصیص داده می‏شود و از طرفی دیگر، احتمال هر پیکربندی با ترکیب این مستندات وزن‏دار متناسب می‏باشد.[4]
استنتاج133، در این روش مستقیماً بر روی مجموعه‏ای از مستندات انجام می‏شود و تنها به یک جفت از عبارات اسمی محدود نیست. بنابراین می‏توان ویژگی‏هایی را در نظر گرفت که برای تصمیم‏گیری کل مجموعه عبارات را در نظر می‏گیرند. که این در مورد روش‏هایی که بر اساس یک جفت عبارات اسمی عمل می‏کردند، قابل اعتماد نبود.
مدلی که کولتا و همکارانش ارائه دادند، از نظر قدرت نمایشی134، قدرتی برابر با شبکه‏های منطقی مارکوف135[66] دارد که در آن می‏توان معادلات دلخواهی در منطق مرتبه اول ساخت. به این منوال فرآیند تشخیص مرجع مشترک را توصیف می‏نماید و می‏تواند وزن نمونه‏های136 این معادلات را فرابگیرد. نویسندگان این مقاله، راهکارهایی برای انتخاب نمونه‏های آموزشی و تنظیم پارامترها ارائه داده‏اند که موجب بهبود و کارائی سیستم می‏شود.
مزایا و معایب مد ل احتمالی مرتبه اول
مزیت این مدل در این است که ویژگی‏ها بر اساس مجموعه‏ای از عبارات اسمی استخراج می‏کند و بنابراین می‏تواند ویژگی‏های پیچیده‏تری را در نظربگیرد. به عنوان مثال، یک ویژگی می‏تواند بررسی‏کند که آیا تمام عبارات اسمی موجود در یک مجموعه ضمیر هستند یا خیر در اینصورت از تشکیل زنجیره‏های هم‏مرجعی که تمام عبارات اسمی آن ضمیر هستند، جلوگیری می‏شود. به علاوه، چون این مدل بر روی مجموعه‏ای از عبارات اسمی تصمیم می‏گیرد، روابط متعدی نیز رعایت می‏شوند. از طرفی دیگر، مشکل این مدل در پیچیدگی آن می‏باشد.
2-1-۳-۴-۳.رتبه‏بندی137
در سال ۲۰۰۷، دنیس138 و همکارانش، از روش رتبه‏بندی برای تشخیص مرجع ضمیر استفاده کردند. همانطور که در بخش رده‏بندی اشاره شد، روش‏های رده‏بندی در هر زمان تنها یک یا دو مقدم کاندیدا را برای یک عبارت اسمی در نظر می‏گیرند، در حالیکه رتبه‏بندی اجازه می‏دهد تا تمامی کاندیداها با یکدیگر ارزیابی شوند. با استفاده از این روش خطا تا 9.7% نسبت به بهترین روش‏های رده‏بندی که مدل کاندیداهای دودوئی139 [109]است، کاهش می‏یابد. [74]
برای اینکه مسئله تشخیص مرجع مشترک را در قالب یک مسئله رده‏بندی در بیاوریم، جفت عبارات مقدم و تالی را در نظر گرفته و آنرا در دو دسته‏ی«هم‏مرجع» و «غیر هم‏مرجع» رده‏بندی می‏کنیم. سپس با استفاده از یکی از روش‏های خوشه‏بندی «اول-بهترین» و یا «اول-نزدیک‏ترین140» یکی از مقدم‏ها به عنوان مرجع نهائی انتخاب می‏شود.
مشکل اصلی در استفاده از روش رده‏بندی، در این است که مقدم‏های کاندیدا به صورت مستقل ارزیابی می‏شوند. احتمالی که به هر جفتِ مقدم و تالی نسبت داده می‏شود، احتمال هم‏مرجع بودن این جفت را بررسی می‏کند. به بیان دیگر، روش رده‏بندی بررسی نمی‏کند که با در نظر گرفتن سایر کاندیداها، این کاندیدا، مناسب‏ترین مرجع است یا خیر. به همین دلیل مدل کاندیداهای دوتائی به عنوان بهبودی برای این روش ارائه شده‏است. مدل کاندیداهای دوتائی مستقیماً دو جفت از کاندیداها را با یکدیگر مقایسه می‏نماید، و هنگام آموزش به ازای هر عبارت اسمی تالی، یک مقدم هم‏مرجع و یک مقدم غیر هم‏مرجع در نظر می‏گیرد. به این ترتیب، کارائی روش رده‏بندی برای انتخاب مراجع مشترک مناسب افزایش می‏یابد.[109]
راه آسان‏تر و کاراتری که در آن می‏توان کاندیداهای مختلف را با یکدیگر مقایسه نمود، حل مسئله تشخیص مرجع مشترک در قالب یک مسئله رتبه‏بندی است. الگوریتم‏های آموزشی تبعیضی متفاوتی مانند مدل حداکثر آنتروپی، ماشین بردار پشتیبان و پرسپترون141 می‏توانند برای آموزش رتبه‏بندی‏کننده تشخیص مرجع مشترک به کار روند. از آنجائیکه با وجود داشتن ویژگی‏های ساده، احتمال اینکه هر عبارت اسمی بتواند با چندین کاندیدای قبلی خود پیوند داشته‏باشد، زیاد است، بهتر است کاندیداها را به صورت مجزا در نظر نگیریم و این قابلیت را فراهم‏آوریم که تمام کاندیداها را به طور مستقیم با یکدیگر مقایسه شوند.
مزایای رتبه‏بندی
مزیت این روش در این است که تمام کاندیداها را مستقیماً با یکدیگر مقایسه می‏کند. بنابراین می‏تواند بهترین مرجع و یا مقدم کاندیدا را برای تالی مورد بررسی انتخاب نماید.
2-1-۳-۴-۴. فيلدهای تصادفی شرطی142
مک کالوم143 و همکارانش در سال ۲۰۰۴ فیلدهای تصادفی شرطی را برای حل مسئله‏ی اسامی هم‏مرجع به کار بردند. مدل ارائه شده توسط آن‏ها، نمونه‏ای از مدل‏های گرافی غیر جهت‏دار بود. این روش‏ها برخلاف اکثر روش‏های ارائه شده از نوع رابطه‏ای بوده است. بنابراین در آن‏ها نیازی به این فرض نیست که تصمیم‏گیری درباره‏ی جفت عبارات اسمی به صورت مستقل از یکدیگر انجام شود. از طرفی دیگر، بر خلاف سایر مدل‏های رابطه‏ای که تولیدی144 هستند، مدل شرطی معرفی شده‏ی مک کالوم از نوع تبعیضی145 است. این مدل، ویژگی‏های متنوع بسیاری از داده‏های ورودی را در نظر می‏گیرد، بدون اینکه نگران وابستگی‏های میان آن‏ها باشد. به این ترتیب می‏توان از مزایای فیلد تصادفی شرطی و مدل مارکوف پنهان146 به طور هم‏زمان بهره‏برد[7]
معمولا برای فرآیند تشخیص مراجع، هر جفت از عبارات اسمی به صورت مستقل در نظر گرفته می‏شود. به این ترتیب به ازای هر جنسیت، معیار فاصله‏ای تعیین می‏گردد. البته این معیار فاصله ذاتاَ دارای خطا می‏باشد و پاسخ هر یک از تصمیماتی که به ازای هر جفت از عبارات گرفته می‏شود، مستقل از دیگری نیست.[7]
در پژوهش انجام شده توسط مک کالوم، سه مدل متفاوت ارائه شده است:
مدل اول، یک مدل کلی تبعیضی می‏باشد که در آن ساختار وابستگی نامحدود است. در این مدل تصمیمات هم‏مرجع بودن و ویژگی‏های هر موجودیت، به‏عنوان متغیرهای تصادفی در نظر گرفته می‏شوند. این تصمیمات و ویژگی‏ها، بر عبارت‏های اسمی‏ای که بر یک موجودیت اشاره دارند، مقید می‏شوند. توابع ویژگی نیز به متغیر تصمیم هم‏مرجع بودن، y، مجموعه‏ای از ویژگی‏های هر موجودیت، a، تمام عبارات اسمی که مرجع واحد دارند، x، بستگی دارد.
در مدل دوم، وابستگی میان متغیرهای تصمیم، y، حذف شده و با متغیر تصادفی دودویی Yij به ازای هر جفت از عبارات اسمی جایگزین شده‏است. در این مدل، گروه‏های اسمی به گروه‏های دوتایی محدود شده‏اند، در حالیکه در مدل پیشین تمام عبارات اسمیِ هم‏مرجع، یک گروه را تشکیل می‏دادند.
مدل سوم شبیه مدل دوم است با این تفاوت که از ویژگی‏های موجودیت‏ها، به‏عنوان متغیر تصادفی استفاده‏نشده است. به این ترتیب از پیچیدگی مدل دوم کاسته‏شده است. نویسندگان این مقاله تنها مدل سوم را پیاده‏سازی کرده‏اند و بر اساس نتایج ارائه شده‏ی آن‏ها این مدل بهتر از روش کاردیه [101]عمل می‏کند.
مزایا و معایب روش فیلد تصادفی شرطی
فیلدهای تصادفی شرطی وابستگی میان داده‏ها را در نظر می‏گیرند و تصمیم‏گیری در مورد جفت عبارت‏های اسمی به صورت مستقل انجام‏نمی‏شود. در نتیجه می‏توان گفت از مسائلی همچون ناسازگاریِ سه‏گانه جلوگیری جلوگیری نمود. مشکل روش فیلدهای تصادفی شرطی در پیچیدگی محاسباتی و پیاده‏سازی آن است.
2-1-۳-۴-۵. خوشه‏بندی
یکی از پر کاربردترین روش‏ها برای انجام فرآیند تحلیل مرجع مشترک، استفاده از انواع الگوریتم‏های خوشه‏بندی می‏باشد. استفاده از این روش تقریباً با تولد تحلیل مرجع مشترک شروع شد و تا کنون نیز به عنوان یک روش مناسب مورد توجه اغلب پژوهشگران می‏باشد. نخستین بار کاردیه و همکارانش بودند که در سال ۱۹۹۹، استفاده از خوشه‏بندی را پیشنهاد ‏دادند. روش پیشنهادی آن‏ها به این‏ترتیب بود که هر یک از عبارات اسمی با یک بردار ویژگی نمایش داده‏شده و سپس الگوریتم خوشه‏بندی بر روی این بردارهای ویژگی اعمال می‏شود. پس از اجرای خوشه‏بندی، عبارت‏های اسمی موجود در یک خوشه به عنوان زنجیره‏ای از عبارت‏های اسمی هم‏مرجع در نظر گرفته‏می‏شوند. این روش، یک روش بدون‏نظارت147 کامل نمی‏باشد، چرا که معیار فاصله‏ای که برای مقایسه استفاده ‏شده‏است، از ضرایب ثابتی استفاده می‏کند که به صورت اکتشافی148 تنظیم شده‏اند.[15] کاردیه و همکارش در سال ۲۰۰۲، استفاده از خوشه‏بندی با نظارت دیگری به نام خوشه‏بندی اولین-بهترین را پیشنهاد نمودند. این الگوریتم برای هر عبارت اسمی، از راست به چپ، به دنبال عبارت اسمی هم‏مرجع می‏گردد و در نهایت عبارت اسمی انتخاب می‏شود که نسبت به عبارت‏های اسمی ماقبل خود، دارای بیشترین مقدار تشابه149 باشد.
در سال ۲۰۰۳، وگستاف150، گونه‏ی دیگری از الگوریتم‏های خوشه‏بندی را برای مسئله تشخیص مرجع مشترک ارائه نمود که خوشه‏بندی اجباری یا محدود‏شده151 نامیده‏می‏شود. در این الگوریتم محدودیت‏هایی به الگوریتم خوشه‏بندی اضافه می‏شود. از جمله مهمترین آن‏ها، محدودیت«باید متصل شوند» و محدودیت «نمی‏توانند متصل شوند» می‏باشد. محدودیت اول، مشخص می‏کند که کدامیک از عبارات

پایان نامه
Previous Entries دانلود پایان نامه ارشد درمورد درخت تصمیم، ناسازگاری، زبان عربی Next Entries دانلود پایان نامه ارشد درمورد سلسله مراتبی، یادگیری ماشین، سلسله مراتب