دانلود پایان نامه ارشد درمورد سلسله مراتبی، یادگیری ماشین، سلسله مراتب

دانلود پایان نامه ارشد

اسمی باید در یک خوشه قراربگیرند. در حالیکه محدودیت دوم، مشخص می‏کند که کدامیک از عبارات اسمی نباید در یک خوشه قرار بگیرند. بطور کلی بیشتر محدودیت‏های ارائه شده در این پژوهش، از نوع محدودیت «نمی‏توانند متصل شوند» بودند که هر یک از این محدودیت‏ها نیز به نوبه خود یکی از محدودیت‏های زبانی را مدل می‏سازد. به‏عنوان مثال مطابقت جنس، عدد و کلاس معنایی می‏توانند در قالب این محدودیت مدل شوند.[56]
انگلوتا152 و همکارنش در سال 2004، نیز مانند [15]، از روش خوشه‏بندی سلسله مراتبی153 پایین به بالا برای تحلیل مرجع مشترک استفاده کردند.به این ترتیب که در ابتدا هر عبارت اسمی به خودی خود یک خوشه‏ی یگانه را تشکیل می‏داد و در نهایت خوشه‏هایی که به اندازه کافی با یکدیگر مشابه بودند با یکدیگرادغام می‏شدند.[79]
در سال ۲۰۰۵، فینلی154 و همکارش، گونه دیگری از خوشه‏بندی با نظارت، برای تشخیص مرجع مشترک ارائه نمودند. در مدل ارائه شده توسط آن‏ها با استفاده از معیار مشابهتی الگوریتم، آموزش داده می‏شود. به این ترتیب بوسیله آن، خوشه‏بندی‏های مورد نظر تولید می‏شوند. این شیوه با شیوه‏ی رده‏بندی جفت عبارت‏ها تفاوت دارد و این مفهوم آموزش داده می‏شود که «آیا به یک خوشه تعلق دارد یا خیر» این روش مانند سایر روشهای خوشه‏بندی گفته‏شده، رابطه‏ی تعدی را در نظرمی‏گیرد و هدف آن حداکثر کردن مرز میان خوشه‏هاست.[95] تابع هدف این روش همانند تابع هدف روش بانسل155 و همکارانش می‏باشد.[72]اما مشکلی که در این روش وجود دارد، این است که تعداد محدودیت‏ها با افزایش تعداد عبارت‏های اسمی، به صورت نمایی افزایش می‏یابند و بهینه کردن تابع هدف مسئله‏ای از نوع NP-Complete می‏باشد؛ در نتیجه به جای جواب مسئله سعی در بدست آوردن تخمینی از آن است.
در سال ۲۰۰۷ نیز اِنگای156 و همکارش از خوشه‏بندی K-means ویرایش شده برای مسیریابی و شناسایی موجودیت‏ها در زبان چینی استفاده نمودند157 آن‏ها بر خلاف انگلوتا، یک الگوریتم سلسله مراتبی بالا به پایین ارائه دادند، که از خوشه‏بندی K-means تکرار شونده استفاده می‏کند. انگای و همکارانش از رویکرد ارائه شده توسط فلوراین158 پیروی می‏کردند. به این ترتیب که در گام نخست به شناسایی موجودیت‏ها پرداخته و در گام دوم، موجودیت‏هایی که به شخص، مکان و… ثابت اشاره داشتند را در یک گروه قرار می‏دهند.[35]
بر خلاف پژوهش‏های پیشین، حقیقی و کلین در سال ۲۰۰۷، برای نخستین بار استفاده از روش بدون نظارت کامل را برای تحلیل مرجع مشترک پیشنهاد دادند، روش آن‏ها در [5]بر مبنای یک فرآیند سلسله مراتبی بود که مراجع هر اشاره را در متن پیدا می‏کرد. حقیقی و کلین در نهایت روش پیشنهادی خود را برای تحلیل مرجع مشترک در متون متقاطع به کار بستند. یک سال بعد، ان‏جی159 نیز فرآیند تحلیل مرجع مشترک را به عنوان یک مسئله بدون نظارت در نظر گرفت، اما او برای فرضیه خود الگوریتم EM160 را پیشنهاد داد( که در آن تعداد خوشه‏ها از پیش مشخص نشده بود) در روش او به جای اینکه برای توزیع یکنواخت خوشه‏ها مقداردهی اولیه شود، الگوریتم خوشه‏بندی به دو مرحله تقسیم می‏شود. در مرحله اول، مدل با تعداد کمی از داده‏های برچسب دار مقداردهی شده تا این داده‏ها به عنوان ورودی مرحله اول(اولین تکرار از این الگوریتم) محسوب شوند، به این ترتیب مقدارN محاسبه شده و در مرحله‏ی دوم به عنوان پارامتر ورودی الگوریتم EMدر نظر گرفته می‏شود.[98]پس از آن پون161 و همکارش، یک مدل بدون نظارت دیگری پیشنهاد دادند که تلفیقی از خوشه‏بندی EM و شبکه منطقی مارکوف162 بود.[42] عملکرد مدل‏های ارائه شده توسط اِن جی و پون بسیار بهتر از مدل ارائه شده توسط حقیقی بود .این عملکرد بهتر به این دلیل بود که مدل اِن جی و پون، امکان استفاده از ویژگی‏های بیانی بیشتری (به عنوان نمونه، بدل یا عطف بیان) داشت.
درسال 2010، استونایو163 و همکاران از الگوریتم یادگیری پرسپترون به عنوان رده‏بند استفاده کردند و سپس الگوریتم خوشه‏بندی سلسله مراتبی تک پیوندی164 بر روی جفت عبارت‏های مثبت اعمال نموده و نسبتاً به نتایج مناسبی دست‏یافتند.[102]
یک سال بعد، نیز چن165 و همکارانش از روش خوشه‏بندی برای پیدا کردن زنجیره عبارت‏های اسمی هم‏مرجع استفاده کردند. مدل ارائه شده‏ی آن‏ها، بر ویژگی‏های زبان‏شناسی غنی و شناسایی عبارات اسمی استوار است؛ به این ترتیب که محدوده عبارات اسمی با استفاده از رده‏بند حداکثر آنتروپی شناسایی شده و در نهایت با استفاده از الگوریتم خوشه‏بندی اولین بهترین166، هر اشاره با تمام اشاره‏های پیش از خود مقایسه می‏شود و با در نظر گرفتن مقایسه‏ی ضریب اطمینان167 بدست آمده از رده‏بند و مقایسه آن با یک آستانه ثابت، و با توجه به بیشترین احتمال خوشه‏بندی صورت می‏گیرد. هر اشاره که احتمال آن بالاتر از حد آستانه باشد در خوشه‏ای جدید قرار خواهد گرفت.[22]
2-۳. معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند

روش رده‏بندی
روش‏های افراز
امتیاز
Cai et al, 2011
Compute hyper edge weights on 30% of training data
Recursive 2-way Spectral clustering
(Agarwal, 2005)
57.8
Sapena et al 2010
Decision Tree + Relaxation Labeling
Iterative
59.5
Stoyanov et al , 2010
Averaged perceptron
Single-link clustering by computing transitive closure between pairwise positives.
58.4
Nugue et al
Logistic Regression (LIBLINEAR)
Closest-first clustering for pronouns and Best-first clustering for non-pronouns
58.6
Santos et al
ETL(Entropy guided Transformational Learning) committee and Random Forest (WEKA)
Limited number of preceding mentions 60 for automatic and 40 given gold boundaries; Aggressive-merge clustering (Mccarthy and Lenhert, 1995)
56.6
Song et al
MaxEnt (OpenNLP)
Pre-clusters, with singleton pronoun pre-clusters, and use closest-first clustering. Different link models based on the type of linking mentions NP-PRP, PRP-PRP and NP-NP
59.9
Kobdani et al 2011
Decision Tree
Best-first clustering. Threshold of 100 words
used for long documents
64.3
Yang et al
MaxEnt (MALLET)
Maximum 23 sentences to the left;
Constrained clustering
52.3
Xinxin et al
ILP/Information gain
Best-first clustering followed by ILP
optimization
46.6
Bunescu et al , 2012
Rule-based(lee et al 2001)
Adaptive clustering
80.4
Denic et al , 2009
ILP/Information gain
closest-first link-clustering
66.2
Bansal et al 2012
Stoyanov et al. (2009). + Decision tree
Web-scale distributional
clustering(based on k-means)
69.9
Chen et al 2011
Maximum Entropy
best-first clustering
59.1
بنسکو168 نیز در سال 2012،مانند استونایو عمل نمود و الگوریتم سلسله مراتبی پایین به بالا برای تشخیص مراجع مشترک به کار بست. بنسکو، با پیروی از رویکرد لی169 [37] که یک روش چند گذری را برای تحلیل مرجع مشترک در نظر می‏گیرد، مبنای کار خود را اجرای سه گذر متفاوت قرار داد به طوریکه برخی ضمایر از سایر عبارت‏های اسمی جداگانه تحلیل می‏شوند.[82]
برخی از پژوهش‏هایی که از تکنیک‏های خوشه‏بندی برای تحلیل و شناسایی عبارت‏های اسمی هم‏مرجع استفاده نموده‏اند، در جدول 2-۳ آورده شده است.
مزایای روش‏های خوشه‏بندی
مزیت این روش نیز همانند روش‏های درختِ بل و فیلدهای تصادفی شرطی، در رعایت روابط متعدی است. به این ترتیب که در الکوریتم خوشه‏بندی، در هر مرحله‏ای که یک عبارت به یک خوشه اضافه می‏شود، سازگاری آن با سایر عبارت‏های موجود در خوشه بررسی می‏شود. دلیل برطرف شدن مشکل ناسازگاری‎های سه‏گانه این است که در روش‏های خوشه‏بندی و روش‏های مشابه آن، روابط متعدی در نظر گرفته می‏شوند.[95]
2-1-۴.جمع‏بندی:
در این فصل، روش‏های ارائه شده برای تشخیص مرجع مشترک را معرفی نمودیم. ما این روش‏ها را در دو دسته زبان‏شناسی و یادگیری ماشین مورد مطالعه قرار‏دادیم. از آن جایی که امروزه روش‏های زبان‏شناسی جای خود را به روش‏های یادگیری ماشین داده‏اند، در این فصل به تفصیل اغلب روش‏های ارائه شده مبتنی بر یادگیری ماشین را شرح داده و دسته بندی نمودیم.

بخش دوم

2-2. ايجاد پيکره با نشانه‏های اشاره و هم‏مرجعی
برای داشتن یک سیستم استخراج اطلاعاتی که بتواند اطلاعاتِ موجودیت‏های متون دریافتی خود را به خوبی بررسی و پردازش کند، به ماژول‏هایی نیاز داریم که بتوانند برای هر موجودیت؛(1)نوع اصلی، (2) نوع فرعی، (3)کلاس موجودیت، (4)نوع اشاره‏ای که به آن موجودیت اشاره می‏کنند، و اطلاعات انواع رابطه‏ها و وابستگی‏های میان اشاره‏ها را باید مشخص و ثبت نماید.
یکی از اهداف اصلی این پایان‏نامه تولید یک پیکره مناسب برای کشف اشاره و تشخیص مرجع مشترک می‏باشد. بر اساس همین رویکرد، ما پیکره «بیژن‏خان» را به عنوان مبنای کار در نظر گرفته و عبارت‏های اسمی مورد نظر را در قالب انواع اشاره‏های گفته شده نشانه‏گذاری نموده‏ایم.
2-2-1.پيکره نشانه‏گذاری شده توسط اطلاعات هم‏مرجع‏
عملکرد روش‏های‏ یادگیری ماشین، به کیفیت پیکره‏ای که بر روی آن آموزش داده می‏شوند، بستگی دارد. در این فصل به نحوه‏ی ایجاد نشانه‏گذاری و اهمیت نشانه‏گذاری اطلاعات هم‏مرجعی و ویژگی‏های پیکره تولید شده برای این پایان‏نامه خواهیم پرداخت.
نشانه‏گذاری یک پیکره با اطلاعات هم‏مرجع، از دیدگاه محاسباتی و همچنین از دیدگاه زبان‏شناسی حائز اهمیت است. از دیدگاه زبان‏شناسی پیکره‏ای که با اطلاعات هم‏مرجع‏ نشانه‏گذاری شده است، دانشی را در مورد نوع رابطه‏ای که میان دو اشاره‏ی هم‏مرجع‏ وجود دارد و فراوانی انواع متفاوت روابط هم‏مرجعی و امثال این‏ها در اختیار قرار می‏دهد. از دیدگاه محاسباتی، چنین پیکره‏هایی جهت توسعه و ارزیابی سیستم‏هایی که به صورت خودکار آموزش دیده اند، مناسب هستند. نمونه‏هایی از به کارگیری چنین پیکره‏هایی برای توسعه و ارزیابی سیستم‏های ارائه شده عبارتند‏از [13،14،15،33،52،65،67،99،100،101،105]. علاوه بر کاربردهای یاد شده، پیکره با اطلاعات عبارات هم‏مرجع‏ می‏تواند‏ برای ارزیابی سیستم‏هایی که تنها بر پایه اطلاعات زبان‏شناسی هستند و از اطلاعات آماری استفاده نمی‏کنند، نیز مفید واقع شود.
با این وجود، تعداد پیکره‏هایی که با عبارات اسمی هم‏مرجع‏ نشانه‏گذاری شده‏اند و در دسترس همگان قرار دارند، محدود است. پیکره‏های MUC و ACE از جمله پیکره‏هایی هستند که زبان‏هایی مانند انگلیسی، عربی، چینی و… به صورت وسیعی در آموزش و ارزیابی سیستم‏های تعیین عبارات اسمی هم‏مرجع‏ نشانه‏گذاری شده‏اند. از طرفی دیگر از آن جایی که که چنین پیکره‏ای برای زبان پارسی مهیا نبود، به منظور به کارگیری تکنیک‏های یادگیری ماشین در فرایند تشخیص مرجع مشترک، یک پیکره مناسب به نام لوتوس170 تهیه نمودیم. این پیکره بر پایه یکی از پیکره‏های موجود در زبان پارسی ‏‏‏به نام بیژن‏خان تهیه شده است. در بخش‏های بعد به بررسی دو پیکره مورد اشاره یعنی لوتوس و بیژن‏خان می‏پردازیم.
2-2-2.پيکره بيژن‏خان
پیکره بیژن‏خان[68] از حجم انبوهی از متون الکترونیکی پارسی ‏‏‏نشانه‏گذاری شده تشکیل شده است و داده‏های زبان وسیعی را در حیطه‏های مختلف در بر دارد. می‏توان پیکره بیژن‏خان را به عنوان یک جامعه آماری کامل از متون پارسی ‏‏‏در نظر گرفت. پیکره بیژن‏خان شامل مجموعه برچسب‏های مقوله نحوی معنایی بوده و به صورت نیمه خودکار در سطح واژه و گروه‏های نحوی، تقطیع و برچسب‏دهی شده است. بیژن‏خان از 4300 متن نشانه‏گذاری شده مختلف تشکیل شده است. این متون از منابع معتبر پارسی ‏‏‏همچون مقالات هفتگی سروش و یا واحد مرکزی خبر بر گرفته شده‏اند و شامل موضوعات متنوعی همچون موضوعات اجتماعی، اطلاعاتی، فرهنگی، مذهبی، هنری، تاریخی، داستانی، اقتصادی، پزشکی،

پایان نامه
Previous Entries دانلود پایان نامه ارشد درمورد ماشین بردار پشتیبان، فرآیند تحلیل، ناسازگاری Next Entries دانلود پایان نامه ارشد درمورد ساختار سازمانی، سازمانهای دولتی، های غیر دولتی