
ندارند، به عنوان خارج از اشاره62 در نظر گرفته میشوند. در مرحلهی دوم نیز فرآیند تحلیل عبارتهای اسمیهممرجع انجام خواهد شد.
1-3.جمعبندی:
در این فصل، تحلیل مرجع مشترک را به طور دقیق تر مورد بررسی قرار دادیم، آنچه مشخص است این فرآیند به دنبال پیدا کردن ارتباطات هممرجع در متن میباشد. در پژوهشهای انجام شده گاهی یک ارتباط هممرجع با ارتباط مشابه دیگری به نام ارتباط پیشایندی مترادف محسوب میشود. حتی گاهی ما یک ارتباط را هممرجع میپنداریم که هممرجع نیست.
از آنجائیکه ما برای انجام تحلیل مرجع مشترک در زبان پارسی نیاز به پیکرهای با برچسب گفتمان خواهیم داشت، لازم بود تا این ارتباطات را به طور دقیق بشناسیم. تا بر اساس آن بتوانیم پیکرهای با روابط صحیح ایجاد نمائیم. به علاوه این شناخت میتواند به انتخاب راهکارهای مناسب برای فرآیند تحلیل مرجع مشترک نیز کمک شایانی داشته باشد و در نهايت نيز شناخت روابط و راهكارهاي مناسب براي تشخيص هر كدام از انواع روابط ميان عبارتهاي اسمي مرتبط با هم، مي تواند به ايجاد يك سيستم چند گذري، مانند آنچه لي 2011، بنسکو2012 ارائه داده اند كمك كند. [41،80]به اين ترتيب كه در هر گذر، يكي از انواع و حالتهاي موجود مورد بررسي و تحليل قرار گيرد و در نهايت با اجماع نتايج حاصل شده، فرايند تحليل اتمام يابد.
فصل دوم
بخش اول
2-۱-1. پيشينه تشخيص مرجع مشترک
تشخیص مرجع مشترک، یکی از مهمترین وظایف استخراج اطلاعات است که با شناسایی عبارات اسمی (اشارههایی) که به یک موجودیت واحد اشاره دارند، همراه میباشد.[58]به این ترتیب که این اشارهها تشکیل یک زنجیرهی هممرجع را میدهند. در این فصل برخی از روشهایی که در زمینه تشخیص مرجع مشترک بکارگرفته شدهاند را بررسی مینماييم. از آنجائیکه تا کنون پژوهش منتشر شدهای در این زمینه در زبان پارسی پیدا نکردیم، در این بخش به بررسی روشهای ارائه شده در سایر زبان ها(انگلیسی، عربی، چینی و…) میپردازیم.
به طور کلی روشهای تشخیص مرجع مشترک به دو دسته کلی زبانشناسی و روشهای یادگیری ماشین تقسیم میشوند. به این ترتیب که در روشهای زبانشناسی، بسیار نیازمند دانش زبانشناسی هستیم. استخراج این دانش از متن، فرآیندی زمانبر و پرخطاست. نخستین الگوریتمهای زبانشناسی مرتبط با تشخیص مرجع مشترک در اواخر دهه هفتاد ارائه شدند که در آنها از دانش زبانشناسی و معنایی بسیاری استفاده شدهاست.[19،60] پس از آن، با گذر زمان و فراهم شدن پیکرههای زبانشناسی، این روشها، جای خود را به روشهای آماری دادند. در روشهای آماری، دانش مورد نیاز بیشتر با استفاده از پیکرههای بزرگ و روشهای آماری کسب میشود و نسبت به روش قبل، به دانش زبانشناسی کمتری نیاز است و همچنین به نتایج بهتری نیز بدست ميآيد.[105] در ادامهی این بخش نخست به مرور مختصری از شیوههای کلی روشهای زبانشناسی میپردازیم. سپس روشهای یادگیری ماشین را با تفصیل بیشتری بیان خواهیم نمود.
2-1-۲. روشهای زبانشناسی
عموماً روشهای زبانشناسی به منظور تشخیص مرجع مشترک، از مجموعهای از فاکتورها بهره میگیرند. تطابق63 جنس و عدد (چندم شخص ، مفرد/ جمع)، محدودیتهای تطبیق معنایی، مشابهت معنایی64، مشابهت نحوی65، بارز بودن66، مجاورت67 و غیره از جمله فاکتورهای متداول برای تشخیص مرجع مشترک میباشند. این فاکتورها میتوانند «حذفکننده68» یا «امتیازدهنده69» باشند. جدول 2-۱ این فاکتورها را به تفکیک «حذفکننده» و «امتیازدهنده» نمایش میدهد.
جدول2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک
«حذفکننده»
«امتیازدهنده»
تطبیق جنس و تعداد
تطبیق معنایی
مشابهت معنایی
مشابهت نحوی
بارز بودن
مجاورت
در روشهای زبانشناسی، روال کار به این صورت است که ابتدا به ازای یک عبارت تالی، عبارات مقدم(عبارات هممرجع) کاندیدای آن تعیین ميگردد. پس از آن با استفاده از فاکتورهای «حذفکننده»، برخی از کاندیداها حذف میشوند، سپس فاکتورهای امتیازدهنده به امتیازدهی کاندیداهای باقیمانده میپردازند. در نهایت نیز کاندیدایی که بیشترین امتیاز را کسب کرده باشد به عنوان عبارت مقدم که با عبارت اسمی مورد نظر هممرجع میباشد، انتخاب خواهد شد.
2-1-۲-۱.فاکتورهای «حذف کننده»
2-1-2-1-1.تطبيق جنس و عدد
این دو فاکتور بررسی میپردازند که آیا دو عبارت اسمی از نظر جنس و تعداد با یکدیگر مطابق هستند یا خیر.
Alii asked Zahraj and Herj sistersk that leave himi alone مثال1:
همان طور که مشاهده میشود در مثال بالا “her sisters” نمیتواند با “him” هممرجع باشد چراکه از نظر جنس و تعداد با یکدیگر مطابقت ندارند.
2-1-2-1-2 .تطبيق معنايی
این فاکتور از این جهت به کار میرود که اگر یک عبارت اسمی در یک حوزه معنایی صادق بود، عبارت اسمی هممرجع آن نیز باید در آن محدودهی معنایی صادق باشد.
Alii closed the windowj and cleaned itj : مثال 2
همانطور که مشاهده میشود، ضمیر it”” تنها میتواند با عبارت اسمی “window” که غیرجاندار و قابل تمیز کردن است هممرجع باشد.
2-1-۲-۲. فاکتورهای امتيازدهنده
فاکتورهای امتیازدهنده، برخلاف فاکتورهای حذفکننده که الزاماً باید بررسی شوند اجباری نیستند. به این ترتیب لزومی ندارد که تمامی عبارتهای اسمی با مرجع مشترک دارای این فاکتورها باشند. در این بخش سه فاکتور مشابهت نحوی، مشابهت معنایی و بارز بودن را به همراه مثال شرح میدهیم.
2-1-2-2-1. مشابهت نحوی
این امتیاز زمانی به یک عبارت اسمی تعلق میگیرد که نقش نحوی آن با عبارت اسمی هممرجع کاندیدا یکسان باشد.
The programmeri finally combined the Prologj with Pascalk, currently heiمثال3:
had combined itj with Cm
در مثال فوق، از آن جایی که عبارت اسمی “prolog” با “it” نقش نحوی یکسانی دارد، برای هممرجع بودن با آن امتیاز بیشتری به عبارت اسمی “Pascal” دارد.
2-1-2-2-2. مشابهت معنايی
مشابهت معنایی، نسبت به فاکتور قبل، تاثیر بیشتری در امتیازدهی دارد. با این تفاوت که تنها سیستمهایی میتوانند از آن بهره ببرند که قادر به تعیین خودکار نقش معنایی هر عبارت باشند. این فاکتور، به عبارت اسمی که نقش معنایی یکسانی با عبارت اسمی مورد نظر داشته باشد، امتیاز بیشتری میدهد.
Alii gave the book to Rezaj; Zahrak also gave himj a notebook مثال4:
در مثال فوق، احتمال هممرجع بودن ضمیر “him” با ” Reza”بيشتر است به این دلیل که عبارت اسمی “”Reza، نسبت به “”Ali دارای امتیاز بالاتری میباشد و همچنین نقش نحوی “Reza” باHim” ” یکسان است.
2-1-2-2-3.بارز بودن
هر چند دو فاکتور قبل در انتخاب یک مقدم برای تالی مورد نظر، بسیار قوی هستند، اما این فاکتورها همیشه برای تفکیک میان مجموعه کاندیدا از عبارات اسمی مقدم کافی نیستند. بعلاوه این عوامل به جای پیشنهاد کاندیدای محتملتر، بیشتر مانند یک فیلتر برای حذف کردن کاندیدای نامناسب به کار میروند.
در این میان، هنگامی که در انتخاب مقدم کاندیدا ابهام وجود داشته باشد، معمولا عبارت اسمی که بارزتر از سایرین است، دارای امتیاز بیشتری برای عبارت اسمی مقدم میباشد. بارزترین عنصر70 در زبانشناسی محاسباتی71، بهعنوان کانون توجه72 و یا مرکز73 در نظر گرفته میشود [10،60]
Jennyi put the cupj on the platek and broke it? مثال 5 :
همان طور که در مثال بالا مشاهده مینمایید نه تنها رایانه، بلکه حتی انسان نیز قادر نیست تا مرجع ضمیر “it” را مشخص نماید. البته در صورتی که این جمله، بخشی از یک متن باشد، میتوان بارزترین عنصر را در متن شناسایی نمود. به این ترتیب با توجه به متن مثال 6 میتوان مشاهده نمود که “The cup” بارزترین موجودیت در متن بوده و به همین دلیل بهعنوان کانون توجه در کل متن در نظر گرفته میشود.
مثال6:
Jenny went window shopping yesterday and spotted a nice cup. She wanted to buy it, but she had no money with her, nevertheless, she knew she would be shopping the following day, so she would be able to buy the cup then. The following day, she went to the shop and bought the coveted cup. However, once back home and in her kitchen, she put the cup on a plate and broke it…
به این ترتیب میتوان نتیجه گرفت که هرگاه دو کاندیدا در شرایط یکسانی قرار گرفته باشند، فرآیند تعیین عبارت مقدم، به فرآیند تعیین بارزترین عنصر جمله تبدیل میشود.
همان طور که گفته شد، روشهای زبانشناسی، برای تشخیص مرجع مشترک از دانشهای نحوی، معنایی، ریخت شناسی74 و حتی دانش جهان75 استفاده میپردازند. به این ترتیب کسب این حجم عظیم از اطلاعات فرآیندی پرهزینه، زمانبر و همچنین پرخطا را به دنبال خواهد داشت. به همین دلیل و به علت پدید آمدن پیکرههای بزرگ زبانشناسی، پژوهشگران به سمت استفاده از روشهای آماری ترغیب شدند.
2-1-۳. روشهای يادگيری ماشينی
در سیستمهای مبتنی بر یادگیری ماشین، دانش مورد نیاز از طریق استفاده از الگوریتمهای یادگیری و مجموعه دادههای آموزشی کسب میشود. شاید بتوان گفت که استفاده از روشهای یادگیری ماشینی در فرآیند تشخیص مرجع مشترک نخستین بار توسط مک کارتی76 و همکارانش در سال ۱۹۹۵ و با به کارگیری مدلهای درخت تصمیم77 انجام شد[52]
یکی از رویکردهای ارائه شده در تحلیل مرجع مشترک، تحلیل مرجع مشترک پایان به پایان78 میباشد؛ این رویکرد میتواند به دو صورت دنبال شود، (۱) دریافت متن خام و انجام تمام پیش پردازشها بر روی متن و در نهایت تحلیل مرجع مشترک، (۲) استفاده از متونی که در آنها عبارتهای اسمیای که به موجودیتها ارجاع دارند، در قالب «اشارهها» نشانهگذاري شده باشند.[63] به طوریکه هر اشاره دارای برچسبهای باشد تا ویژگیهای آن اشاره را نمایان سازد.
با تکیه بر این مسئله نخستین بار سون و همکارانش در ۲۰۰۱، از پیش پردازشهایی مانند برچسبگذاری ادات سخن، شناسایی موجودیتهای نامدار و … استفاده کرده و در نهایت تمام نتایج حاصل از پیش پردازشها را با هم ادغام نمودند. به این ترتیب آنها توانستند به اطلاعات مناسبی برای اشارهها دست پیدا کنند. به دنبال آنها این مسئله به طور گستردهتر مورد توجه پژوهشگران قرار گرفت. به طوریکه در اغلب پژوهشهایی که از انواع روشهای ردهبندی برای تشخیص ارتباط میان اشارهها استفاده شدهاست، مشخص نمودن مجموعهای از ویژگیهای مناسب یک مسئله حیاتی برای شروع کار محسوب میشود. این مجموعه ویژگیها در تعیین اینکه آیا دو عبارت اسمی با هم، هممرجع هستند یا خیر، موثر میباشند. بعلاوه، این ویژگیها باید به اندازه کافی عمومیباشند تا بتوان آنها را برای متن ها در زمینه79های متفاوت و انواع گوناگون اسمها و عبارتهای اسمی به کار برد.
2-1-۳-۱. ويژگیها:
از لحاظ زبانشناسی ویژگیهای گفته شده به چهار دستهی لغوی، نحوی، معنایی و فاصله (مکانی) تقسیم میشوند.[105] البته، در طی سالهای اخیر پژوهشگران برای بهبود نتایج تحلیل مرجع مشترک دامنهی ویژگیها را گسترش دادهاند، به طوریکه برخی از پژوهشگران معتقدند اگر یک بازنمائی مناسب از ویژگیهای غنی وجود داشتهباشد، حتی یک مدل ساده نیز میتواند مانند تکنولوژیهای جدید عمل نماید.[45]در جدول2-۲ یک طبقهبندی از ویژگیهای رایج برای تحلیل مرجع مشترک آورده شده است.
2-1-۳-۲. مدلهای جفت اشاره80:
یکی از روشهای رایج برای تحلیل مرجع مشترک، استفاده از ردهبندی دودوئی میباشد؛ در روشهای ردهبندی، تصمیمگیری بر اساس یک جفت اشاره صورت میگیرد. عموماً روال کار به این ترتیب است که دو اشاره توسط یک ردهبند دریافت میشود و درنهایت مشخص میشودکه آیا دو عبارت با
