دانلود پایان نامه ارشد درمورد یادگیری ماشین، فرآیند تحلیل، کانون توجه

دانلود پایان نامه ارشد

ندارند، به عنوان خارج ‏از اشاره62 در نظر گرفته می‏شوند. در مرحله‏ی دوم نیز فرآیند تحلیل عبارت‏ها‏ی اسمی‏هم‏مرجع انجام خواهد شد.
1-3.جمع‏بندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هم‏مرجع در متن می‏باشد. در پژوهش‏ها‏ی انجام شده گاهی یک ارتباط هم‏مرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب می‏شود. حتی گاهی ما یک ارتباط را هم‏مرجع می‏پنداریم که هم‏مرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکره‏ای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکره‏ای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت می‏تواند به انتخاب راهکار‏های مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهايت نيز شناخت روابط و راهكارهاي مناسب براي تشخيص هر كدام از انواع روابط ميان عبارت‏هاي اسمي مرتبط با هم، مي تواند به ايجاد يك سيستم چند گذري، مانند آنچه لي 2011، بنسکو2012 ارائه داده اند كمك كند. [41،80]به اين ترتيب كه در هر گذر، يكي از انواع و حالت‏هاي موجود مورد بررسي و تحليل قرار گيرد و در نهايت با اجماع نتايج حاصل شده، فرايند تحليل اتمام يابد.

فصل دوم

بخش اول

2-۱-1. پيشينه تشخيص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشاره‏هایی) که به یک موجودیت واحد اشاره دارند، همراه می‏باشد.[58]به این ترتیب که این اشاره‏ها تشکیل یک زنجیره‏ی هم‏مرجع را می‏دهند. در این فصل برخی از روش‏هایی که در زمینه تشخیص مرجع مشترک بکارگرفته شده‏اند را بررسی می‏نماييم. از آنجائیکه تا کنون پژوهش منتشر شده‏ای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روش‏های ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) می‏پردازیم.
به طور کلی روش‏های تشخیص مرجع مشترک به دو دسته کلی زبان‏شناسی و روش‏های یادگیری ماشین تقسیم می‏شوند. به این ترتیب که در روش‏های زبان‏شناسی، بسیار نیازمند دانش زبان‏شناسی هستیم. استخراج این دانش از متن، فرآیندی زمان‏بر و پر‏خطاست. نخستین الگوریتم‏های زبان‏شناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آن‏ها از دانش زبان‏شناسی و معنایی بسیاری استفاده شده‏است.[19،60] پس از آن، با گذر زمان و فراهم شدن پیکره‏های زبان‏شناسی، این روش‏ها، جای خود را به روش‏های آماری دادند. در روش‏های آماری، دانش مورد نیاز بیشتر با استفاده از پیکره‏های بزرگ و روش‏های آماری کسب می‏شود و نسبت به روش قبل، به دانش زبان‏شناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست مي‏آيد.[105] در ادامه‏ی این بخش نخست به مرور مختصری از شیوه‏های کلی روش‏های زبان‏شناسی می‏پردازیم. سپس روش‏های یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
2-1-۲. روش‏های زبان‏شناسی
عموماً روش‏های زبان‏شناسی به منظور تشخیص مرجع مشترک، از مجموعه‏ای از فاکتورها بهره می‏گیرند. تطابق63 جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیت‏های تطبیق معنایی، مشابهت معنایی64، مشابهت نحوی65، بارز بودن66، مجاورت67 و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک می‏باشند. این فاکتورها می‏توانند «حذف‏کننده68» یا «امتیاز‏دهنده69» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذف‏کننده» و «امتیازدهنده» نمایش می‏دهد.
جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذف‏کننده»
«امتیاز‏دهنده»
تطبیق جنس و تعداد
تطبیق معنایی
مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت
در روش‏های زبان‏شناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هم‏مرجع) کاندیدای آن تعیین مي‏گردد. پس از آن با استفاده از فاکتورهای «حذف‏کننده»، برخی از کاندیداها حذف می‏شوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده می‏پردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هم‏مرجع می‏باشد، انتخاب خواهد شد.
2-1-۲-۱.فاکتورهای «حذف کننده»
2-1-2-1-1.تطبيق جنس و عدد
این دو فاکتور بررسی می‏پردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال1:
همان طور که مشاهده می‏شود در مثال بالا “her sisters” نمی‏تواند با “him” هم‏مرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
2-1-2-1-2 .تطبيق معنايی
این فاکتور از این جهت به کار می‏رود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هم‏مرجع آن نیز باید در آن محدوده‏ی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال 2
همانطور که مشاهده می‏شود، ضمیر it”” تنها می‏تواند با عبارت اسمی “window” که غیرجاندار و قابل تمیز کردن است هم‏مرجع باشد.
2-1-۲-۲. فاکتورهای امتيازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذف‏کننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارت‏های اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح می‏دهیم.
2-1-2-2-1. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق می‏گیرد که نقش نحوی آن با عبارت اسمی هم‏مرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال3:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی “prolog” با “it” نقش نحوی یکسانی دارد، برای هم‏مرجع بودن با آن امتیاز بیشتری به عبارت اسمی “Pascal” دارد.
2-1-2-2-2. مشابهت معنايی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستم‏هایی می‏توانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری می‏دهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال4:
در مثال فوق، احتمال هم‏مرجع بودن ضمیر “him” با ” Reza”بيشتر است به این دلیل که عبارت اسمی “”Reza، نسبت به “”Ali دارای امتیاز بالاتری می‏باشد و همچنین نقش نحوی “Reza” باHim” ” یکسان است.
2-1-2-2-3.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتمل‏تر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار می‏روند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم می‏باشد. بارزترین عنصر70 در زبان‏شناسی محاسباتی71، به‏عنوان کانون توجه72 و یا مرکز73 در نظر گرفته می‏شود [10،60]
Jennyi put the cupj on the platek and broke it? مثال 5 :
همان طور که در مثال بالا مشاهده می‏نمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر “it” را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، می‏توان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال 6 می‏توان مشاهده نمود که “The cup” بارزترین موجودیت در متن بوده و به همین دلیل به‏عنوان کانون توجه در کل متن در نظر گرفته می‏شود.
مثال6:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب می‏توان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرآیند تعیین عبارت مقدم، به فرآیند تعیین بارزترین عنصر جمله تبدیل می‏شود.
همان طور که گفته شد، روش‏های زبان‏شناسی، برای تشخیص مرجع مشترک از دانش‏های نحوی، معنایی، ریخت شناسی74 و حتی دانش جهان75 استفاده می‏پردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکره‏های بزرگ زبان‏شناسی، پژوهشگران به سمت استفاده از روش‏های آماری ترغیب شدند.
2-1-۳. روش‏های يادگيری ماشينی
در سیستم‏های مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتم‏های یادگیری و مجموعه داده‏های آموزشی کسب می‏شود. شاید بتوان گفت که استفاده از روش‏های یادگیری ماشینی در فرآیند تشخیص مرجع مشترک نخستین بار توسط مک کارتی76 و همکارانش در سال ۱۹۹۵ و با به کارگیری مدل‏های درخت تصمیم77 انجام شد[52]
یکی از رویکرد‏های ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان78 می‏باشد؛ این رویکرد می‏تواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازش‏ها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آن‏ها عبارت‏های اسمی‏ای که به موجودیت‏ها ارجاع دارند، در قالب «اشاره‏ها» نشانه‏گذاري شده باشند.[63] به طوریکه هر اشاره دارای برچسب‏های باشد تا ویژگی‏های آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازش‏هایی مانند برچسب‏گذاری‏ ادات سخن، شناسایی موجودیت‏های نامدار و … استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازش‏ها را با هم ادغام نمودند. به این ترتیب آن‏ها توانستند به اطلاعات مناسبی برای اشاره‏ها دست پیدا کنند. به دنبال آن‏ها این مسئله به طور گسترده‏تر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهش‏هایی که از انواع روش‏های رده‏بندی برای تشخیص ارتباط میان اشاره‏ها استفاده شده‏است، مشخص نمودن مجموعه‏ای از ویژگی‏های مناسب یک مسئله حیاتی برای شروع کار محسوب می‏شود. این مجموعه ویژگی‏ها در تعیین اینکه آیا دو عبارت اسمی با هم، هم‏مرجع هستند یا خیر، موثر می‏باشند. بعلاوه، این ویژگی‏ها باید به اندازه کافی عمومی‏باشند تا بتوان آن‏ها را برای متن ها در زمینه79‏های متفاوت و انواع گوناگون اسم‏ها و عبارت‏های اسمی به کار برد.
2-1-۳-۱. ويژگی‏ها:
از لحاظ زبان‏شناسی ویژگی‏های گفته شده به چهار دسته‏ی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم می‏شوند.[105] البته، در طی سال‏های اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنه‏ی ویژگی‏ها را گسترش داده‏اند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگی‏های غنی وجود داشته‏باشد، حتی یک مدل ساده نیز می‏تواند مانند تکنولوژی‏های جدید عمل نماید.[45]در جدول2-۲ یک طبقه‏بندی از ویژگی‏های رایج برای تحلیل مرجع مشترک آورده شده است.
2-1-۳-۲. مدل‏های جفت اشاره80:
یکی از روش‏های رایج برای تحلیل مرجع مشترک، استفاده از رده‏بندی دودوئی می‏باشد؛ در روش‏های رده‏بندی، تصمیم‏گیری بر اساس یک جفت اشاره صورت می‏گیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک رده‏بند دریافت می‏شود و درنهایت مشخص می‏شودکه آیا دو عبارت با

پایان نامه
Previous Entries دانلود پایان نامه ارشد درمورد فرآیند تحلیل، منطق فازی، علی کریمی Next Entries دانلود پایان نامه ارشد درمورد درخت تصمیم، ماشین بردار پشتیبان، اسم مستعار