دانلود پایان نامه ارشد درمورد یادگیری ماشین

دانلود پایان نامه ارشد

ره ارجاع*
Sentence_ID
Attribute
جمله‏ای که اشاره در آن واقع شده است
Document_ID
Attribute
متنی که اشاره در آن واقع شده است

4-۲-۲. سيستم شناسايی اشاره
این سیستم، پس از دریافت فایل متنی پیکره، اطلاعات پیکره را بررسی می‏نماید. شکل 4-2 شمای کلی سیستم و شکل 4-3 شمای نمایشی اشاره‏های مشخص شده در سیستم را نشان می‏دهند.

شکل 4-2 : شمای کلی سیستم شناسایی اشاره

شکل 4-3: شمایی از نمایش خروجی سیستم نمایش اشاره
با وجود داشتن چنین اطلاعات ساختارمندی می‏توانیم عبارت‏های اسمی هم‏مرجع یا به عبارت بهتر اشاره‏هایی که به یک موجودیت واحد در دنیای واقعی اشاره دارند را بهتر مورد بررسی قرار دهیم. در شکل 4-4 نیز اطلاعات تمام واژگان موجود در پیکره نمایش داده می‏شود.

شکل 4-4 : شمایی از نمایش خروجی سیستم نمایش تمام واژگان
4-۳.تشخيص اشاره‏های هم‏مرجع
جهت استفاده از تکنیک‏های یادگیری بانظارت، به یک مجموعه آموزشی که حاوی اشاره‏های برچسب زده شده ‏باشد، نیاز است. این نمونه‏ها شامل جفت‏های (ویژگی، مقدار) می‏باشد که اطلاعات مورد نیاز موتور یادگیری را فراهم می‏کنند. مجموعه ویژگی‏های انتخاب شده، در موفقیت سیستم تشخیص مرجع مشترک، تاثیر چشم‏گیری دارند، یک مجموعه ویژگی ایده‏‏آل، مجموعه‏ای از ویژگی‏هاست که تا حدامکان حاوی اطلاعات مفید باشد و به بهینه‏سازی ماشین یادگیر کمک کند.

4-3-1. ويژگی‏ها
به طور کلی پیش از به کارگیری تکنیک‏های یادگیری ماشین در فرآیند تشخیص مرجع مشترک، طیف گسترده‏ای از ویژگی‏های زبانی در این فرآیند در نظر گرفته می‏شد. استخراج برخی از ویژگی‏ها مانند ویژگی‏های معنایی و ویژگی‏های دانش دامنه214، فرآیند زمان‏بر و پرخطا هستند و به قدرت محاسباتی زیادی احتیاج دارند. پس از گسترش کاربرد تکنیک‏های یادگیری ماشین در تشخیص مرجع مشترک، ویژگی‏هایی که به دانش زبان‏شناسی زیادی نیاز داشتند، جای خود را به وبژگی‏های زبانی ساده و ویژگی‏های آماری دادند. در مورد زبان‏های غنی مانند انگلیسی، نتایج گزارش شده از روش‏های آماری به خوبی و در برخی موارد بهتر از نتایج بدست آمده از روش‏های زبان‏شناسی هستند.
ازآنجائیکه ابزارهای آماری زبان‏شناسی موجود در زبان پارسی بسیار محدود هستند، در این پایان‏نامه تنها ویژگی‏هایی به کار رفته‏اند که با ابزارهای موجود و به سادگی قابل محاسبه می‏باشند. به عنوان نمونه نقش گرامری هر اشاره در تشخیص مراجع ضمایر و اسامی اشاره بسیار موثر است. اما محاسبه‏ی این ویژگی به یک تجزیه‏گر آماری نیاز دارد؛ زیرا یک تجزیه‏گر غیرآماری با وجود گرامر پرباری مانند گرامر زبان پارسی، تعداد زیادی درخت تجزیه به ازای هر جمله بدست می‏آورد، درنتیجه ممکن است به ازای هر عبارت اسمی، چندین نقش گرامری بدست آید که در این صورت ویژگی نقش گرامری کارایی چندانی نخواهد داشت. ویژگی‏های به کار رفته در این پایان‏نامه، مطابق ویژگی‏های بکاررفته در [105]، انتخاب شده‏اند، جدول4-3 فهرست ویژگی‏های به کار رفته را به همراه توصیف آنها برای هرجفت اشاره نشان می‏دهد.
4-3-2. الگوريتم‏های يادگيری
مطالعات نظری انجام شده در زمینه یادگیری ماشین، بیانگر آن است که هیچ یک از الگوریتم‏های استقرائی عموماً بهتر از دیگری عمل نمی‏کند. بدین معنا که از کارائی هر یک از الگوریتم‏های استقرائی، بر روی توزیع یکنواخت، میانگین بگیریم، صفر خواهد شد. به منظور اینکه برای یک مسئله یادگیری زبان، یک یادگیر مناسب انتخاب کنیم( برای مثال می‏توان به [69] مراجعه کرد). هرچقدر که عامل یادگیر، با خصوصیات آن حوزه خاص متناسب‏تر باشد، آنگاه مدل استنتاج شده توسط آن یادگیر، بهتر به داده‏های جدید آن حوزه تعمیم پیدا می‏کند. در زبان‏هایی مثل انگلیسی، عربی و چینی زمینه‏ی چنین مقایسه‏هایی با بوجود آمدن پیکره‏های تحقیقاتی فراگیری مانند MUC ، ACE و OntoNote که روش‏های متفاوتی بر روی آنها ارزیابی شده است، فراهم شده است.
پس از تعیین ویژگی‏ها، نوبت به تعیین نمونه‏های مثبت و منفی مورد نیاز برای الگوریتم یادگیری ماشین می‏رسد. نمونه‏های مثبت با جفت کردن اشاره‏های هم‏مرجع ایجاد می‏شود و نمونه‏های منفی به جفت‏هایی که باهم هم مرجع نیستند، اطلاق می‏گردد. تعداد نمونه‏های منفی در برابر نمونه‏های مثبت بسیار بیشتر خواهد ‏‏‏بود و همین امر موجب می‏شود که داده‏های آموزشی نامتوازن215 شوند. بطوریکه به عنوان مثال داده‏های آموزشی حاصل از پیکره لوتوس، شامل 180483 نمونه منفی و 24524 نمونه مثبت می‏باشد، البته با ایجاد، برخی محدودیت‏ها تعداد نمونه‏های منفی تا 111492 کاهش پیدا کرد؛ به عنوان نمونه زمانیکه که هر دو اشاره، ضمیر یا شبه ضمیر باشند، آن‏ها را به عنوان جفت در نظر نمی‏گیریم. و یا در متون طولانی، محدودیت جفت‏گیری اشاره‏ها را تا دامنه 100 واژه در نظر می‏گیریم. نهایتا حدودً 18% نمونه‏های ایجاد شده، نمونه‏مثبت و حدود 81% آنها، نمونه‏های منفی می‏باشد. نتایج حاصل از جفت‏های مثبت ومنفی که توسط سیستم لوتوس ایجاد شده‏است را در شکل 4-5 مشاهده می‏شود.

جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک

ویژگی
مقدار
شرح
1
Num-I-RepeadD
1,2,3,…
تعداد تکرار اشاره در متن درچقدر است؟
2
Num-I-RepeadS
1,2,3,…
تعداد تکرار اشاره در جمله آخر چقدر است؟
3
Num-J-RepeadD
1,2,3,…
تعداد تکرار اشاره در متن درچقدر است؟
4
Num-J-RepeadS
1,2,3,…
تعداد تکرار اشاره در جمله آخر چقدر است؟
5
I-Length
1,2,3,…
تعداد کلمات تشکیل دهنده اشاره اول چقدر است؟
6
J-Length
1,2,3,…
تعداد کلمات تشکیل دهنده اشاره دوم چقدر است؟
7
DIST-S
1,2,3,…
فاصله جملاتی که دو اشاره در آن قرار دارند چقدر است؟
8
DIST-W
1,2,3,…
تعدا کلماتی که میان دو قرار دارند چقدر است؟
9
I-Pronoun
True/false
آیا اشاره اول ضمیر است؟
10
J-Pronoun
True/false
آیا اشاره دوم ضمیر است؟
11
STR-Match
True/false
آیا هسته‏های دو اشاره با هم یکی تطابق رشته‏ای دارند؟
12
Number
True/false
آیا از نظر تعداد (جمع / مفرد) یکسان هستند؟
13
Proper-Name
True/false
آیا اشاره اول اسم خاص است؟
14
Proper-Name
True/false
آیا اشاره دوم اسم خاص است؟
15
APP-Match
True/false
آیا اشاره دوم ، بدل اشاره اول کی باشد؟
16
Entity-Match
True/false
آیا از نظر Entity-Type با هم یکی هستند؟
17
Sub-Entity-Match
True/false
آیا از نظر Entity-Sub-Type با هم یکی هستند؟

پایان نامه
Previous Entries دانلود پایان نامه ارشد درمورد سلسله مراتبی، سلسله مراتب، ماشین بردار پشتیبان Next Entries مقاله درباره محدودیت ها، دانش آموزان نوجوان، هویت شخصی