
زبانشناسی جای خود را به روشهای یادگیری ماشین دادند. در یادگیری ماشین، به محاسبات زبانشناسی پیچیده و سطح بالای روشهای زبانشناسی نیاز نیست به طوریکه با استفاده از دانش اندکی در زمینه زبانشناسی نیز میتوان به نتایج خوب و قابل توجهی دست یافت.
از سوی دیگر، امروزه اغلب پژوهشگران فرآیند تشخیص مرجع مشترک را به دو مرحله تقسیم می کنند. (۱) کشف و شناسایی اشاره؛ برای شناسایی عبارتهای اسمی که به موجودیت28 ها در دنیای واقعی اشاره دارند، (۲) شناسائی اشارههایی که به یک مرجع واحد اشاره دارند. به این ترتیب در مرحله اول، اکثر عبارتهای اسمی تحت عنوان اشاره29 و در قالب چهار گروه اصلی ضمایر30، اسامی خاص31، اسامی عام32 و غیر اشارهها33 قرار میگیرند،[8،910،16،48،53،72] سپس این فرآیند مشخص میکند که هر اشاره به کدام موجودیت در دنیای واقعی اختصاص دار[26]ميتوان گفت که فرآیند کشف اشاره، توسعه یافتهی فرآیند شناسایی موجودیتهای نامدار میباشد که علاوه بر شناسایی اسامی خاص، به شناسایی اسامی عام و ضمایر نیز میپردازد. [،23،72،81،113،114]از آنجائیکه بررسی فرآیندهای شناسایی اشاره و تحلیل مرجع مشترک به طور همزمان خارج از حوزهی این پایاننامه است، ما عبارتهای اسمی را در قالب انواع اشارههای گفته شده در پیکرهای تحت عنوان لوتوس برچسبگذاری مینمائیم و نتيجهي آن را برای تحلیل مرجع مشترک به کار خواهیم برد.
چارچوب کلی این پایاننامه به این صورت میباشد: در بخش دوم این فصل گذری کوتاه بر انواع روابط ميان دو عبارت اسمی و به خصوص ارتباطهای هممرجعی خواهیم داشت. سپس در بخش اول فصل دوم، روشهای ارائه شده برای تشخیص مرجع مشترک را مورد بررسی و مطالعه قرار میدهیم و در بخش دوم آن، به نحوه ایجاد پیکرهای مناسب برای کشف اشاره و تحلیل مرجع مشترک خواهیم پرداخت. در فصل سوم، به الگوریتمهای مناسب برای این پایاننامه را معرفی می نمائیم. سيستم پیشهنادی براي شناسايي اشارههاي ارجاع شده در فصل چهارم معرفی خواهد شد و همچنین در این فصل الگوریتمهای یادشده را مورد ارزیابی قرار میدهیم. در نهايت در فصل پنجم نیز به نتيجه گيري و پيشنهاد كارهاي آتي در ادامهي اين پژوهش خواهيم پرداخت.
1-2.بررسی ارتباط هممرجعی
یکی از ویژگیهای خاص گفتمان این است که میتوان در یک متن آزادانه در مورد یک یا چند موجودیت صحبت کرد و برای اشاره به هر موجودیت از انواع مختلف عبارتها مانند ضمیر (او)، اسم عام (دانشمند)، اسم خاص (لطفعلی عسگر زاده) و یا یک عبارت اسمی(بنیانگذار منطق فازی) بهره برد تا به این ترتیب از تکرار عبارتها کاسته و شیوایی مطلب نیز افزایش یابد. همین ویژگی موجب میشود که زنجیرههای بالقوهای از تمام عبارتهای اسمیکه به یک موجودیت واحد در متن ارجاع دارند، ایجاد گردد. (مانند: او، دانشمند، لطفعلی عسگر زاده، بنیانگذار منطق فازی که به شخص پرفسور زاده اشاره دارند).
یکی از اهداف مهم استخراج اطلاعات، شناسایی این زنجیرهها در متن است که در فرآیند تحلیل مرجعمشترک انجام میپذیرد. برای شروع، مثال ۱ را در نظر بگیرید34:
مثال۱: (سیستم آبیاری گلاب) ۱Ant, در روز سه شنبه رونمایی شد. (این سیستم)۱Ana, محصول اندیشهی (دکتر سارا شکری)۲Ant, است. (او) Ana,2، ( یک پژوهشگر)Ana در (شرکت آبیاری لاله)۳ است.
اگر فرض کنیم که پیمانههای نشانهگذاری تا کشف اشاره به عنوان پیش پردازشهایی بر روی متن اجرا شوند، با اجرای این پیمانهها، انواع عبارتهای اسمیموجود در متن (سیستم آبیاری، این سیستم، دکتر سارا شکری، او، یک پژوهشگر و شرکت آبیاری لاله) تعیین و نشانهگذاری میشوند. سپس با اجرای پیمانه تشخیص مرجعمشترک، ارتباطات میان این عبارتها و اطلاعات نهفته در مورد موجودیتهای شرکت کننده در متن آشکار میشود. به عنوان نمونه، میدانیم «او» و «سارا شکری» (با اندیسِ۲) به یک فرد مشخص و همچنین «سیستم آبیاری گلاب» و «این سیستم» (با اندیسِ۱) نیز به یک سیستم مشخص اشاره میکنند.
استفاده از اصطلاح موجودیت در تحلیل مرجعمشترک، این سؤال را مطرح میکند که چه چیزهایی موجودیت محسوب میشوند؟ تاکنون گروهبندیهای متعددی برای انواع موجودیتها ارائه شده است، به عنوان نمونه35ACE، یک تقسيم بندي هفت موجودیتی برای انواع موجودیتها (شخص، سازمان، مکان، سیاسی، تسهیلات، سلاح و خودرو) و تعداد زیادی زیرگروه (به عنوان مثال شخص: فرد، گروه) و کلاس برای هر موجودیت پیشنهاد کرده است و[۶۴] که اغلب پژوهشگران همه این موجودیتها و یا گاهي اوقات برخی از آنها را مورد مطالعه و بررسی قرار میدهند.
یکی از ویژگیهای تحلیل مرجعمشترک این است که علاوه بر انواع موجودیتهای رایج، ميتوانیم در حوزههای متفاوت از تعاریف پیش فرض خود نیز برای موجودیتها نیز استفاده نماییم. همین ویژگی موجب شده است تا برخی از پژوهشگران مانند[97] به تحلیل مرجعمشترک در متون پزشکی پرداخته و بررسی موجودیتهایی مانند انواع دارو، بیماری، ژن وغیره را هدف پژوهش خود قرار دهند.
با توجه به آنچه تاکنون گفته شد، انتظار میرود که با بررسی مراجع مشترک در مثال ۱، عبارت «یک پژوهشگر» نیز به همراه «او» و «سارا شکری» در یک زنجیره واحد قرار گیرد، اما خروجی پیمانه تحلیل مرجعمشترک چنین نیست. هر چند از نظر ما این ارتباط کاملاً بدیهی است اما واقعیت این است که عبارت «یک پژوهشگر» به عنوان ارجاع به موجودیت شخص (در مثال ۱: سارا شکری) که در دنیای واقعی زندگی میکند در نظر گرفته نمیشود، چون منظور از «یک پژوهشگر» میتواند هر شخص دیگری نیز باشد. در این حالت فرآیند دیگری تحت عنوان تحلیل پیشایند ميتواند ارتباط میان «یک پژوهشگر» و «سارا شکری» را تشخیص دهد.
همان طور که مشاهده شد، تحلیل مرجعمشترک و تحلیل پیشایند دو مفهوم نزدیک به هم میباشند به طوری که عموماً به موازات تحلیل مرجعمشترک، با تحلیل پیشایند روبرو میشویم و حتی برخی به اشتباه این دو عبارت را معادل یکدیگر میپندارند. با وجود اینکه این دو پیمانه از بسیاری از جهات با یکدیگر مشابه هستند، اما از جهاتی نیز با یکدیگر تفاوت دارند، و عدم توجه به این مسئله موجب سردرگمیو ایجاد ابهام در تحلیل متن میگردد.در این بخش، هدف ما بررسی هرکدام از این فرآیندها و مطالعه برخی از شباهتها و تفاوتهای میان این دو فرآیند میباشد.
1-۲-۱.هممرجع در مقابل پيشايند
برای اینکه بخواهیم یک سیستم تحلیل مرجعمشترک و یا یک سیستم تحلیل پیشایند را انتخاب کنیم لازم است ابتدا دو پدیده زبانشناسی پیشایند36 و هممرجع37 را به خوبی بشناسیم. شباهتها و تفاوتهای میان آنها را درک کنیم. همان طور که پیشتر نیز اشاره شد، اغلب دو عبارت پیشایند و هممرجع را به عنوان دو عبارت نزدیک یا گاهاً مترادف میشناسند به طوری که در بسیاری از پژوهشها این دو اصطلاح را به جای هم استفاده میکنند[59،85،90]
نخستین بار ارتباط میان عبارتهای اسمیتوسط کلرک38 در سال ۱۹۷۵ مطرح شد که آنرا تحت عنوان پلزنی پیشایند مطرح میکرد. [43] پس از آن هیرست39 در سال ۱۹۸۱، عبارت پیشایند را بیشتر به منظور تفسیر مخففها در متن به کار برد. هیرست معتقد بود پیشایند یک ابزار ساخت، در گفتمان است که با استفاده از آن یک مخفف به یک یا چند عبارت غیر مخفف که پیش از آن در متن آمدهاند، اشاره میکند تا به این ترتیب با استفاده از عبارتهای پیشین، عبارت مخفف تفسیر شود. مفهوم پیشایند با یک جفت عبارت همراه است که عموماً عبارت ارجاعدهنده را با عنوان «تالی40» و عبارت مفسر را با عنوان «مقدم41» یا «مرجع» میشناسیم. هیرست این دو عبارت ارجاع دهنده و مرجع را با هم «همارجاع42 » و فرآیند شناسایی یک مقدم برای یک تالی، را «تحلیل43» مینامد.[ 34]
در سال 1998 نيز هیرسکمن44 و چینکور45 اصطلاح هممرجع را کنفرانس تشخیص پیام46 یا به اختصار MUC استفاده کردند[24،59] آنها و بسیاری از پژوهشگران دیگر، زمانی دو عبارت را با یکدیگر هممرجع در نظر میگیرند که هر دو عبارت دقیقاً به یک موجودیت در دنیای واقعی اشاره داشته باشند. البته این پژوهشگران تفاوتی میان دو رابطهی هممرجعی و پیشایندی در نظر نگرفته بودند، تا اینکه این مسئله با انتقاد ون47 و کیبل48 مواجه شد به طوری که آنها این دو اصطلاح را از دیدگاهی دیگر مورد بررسی قرار دادند و برخي از نقاط مشترك و تفاوت هاي آنها را مطرح نمودند.[۵۸]
1-۲-۱-۱.ارتباط هممرجع:
ارتباط میان دو عبارت اسمیمانند ۱a و ۲a زمانی به عنوان ارتباط هممرجع در نظر گرفته میشود که هر دو عبارت اسمی به عنوان ارجاعهایی مشخص، یک موجودیت فرا زبانشناسی واحد را تفسیر نمایند. به واسطهی این تعریف نیاز است تا به طور جداگانه مرجع هرکدام از عبارت اسمیReference(ai) شناسایی شود. در نهایت یک ارتباط هممرجعی به صورت ذیل خواهد بود :
(۱) عبارات اسمی۱a و ۲a با یکدیگر هممرجع هستند اگر و تنها اگر Reference(a1)= Reference(a2) باشد.
مثال ۲: (باراک اوباما)۱Ant,، به سوریه سفر کرد. (او) ۱Ana, گفت…
جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع و پیشایند
هممرجعی
پیشایندی
۱) یک رابطه هممرجعی یک رابطهی هم ارزی است به عنوان نمونه «او» و «باراک اوباما» هر دو به یک موجودیت اشاره دارند.
۱)یک رابطهی پیشایندی، متقارن نیست. به این معنا که اگر ۱a به عنوان مقدم برای 2a در نظر گرفته شود عبارت اسمی۲ a نمیتواند متقابلاً نقش مقدم را برای عبارت اسمی۱a ایفا نماید.
۲)رابطه هممرجعی یک رابطهی متقارن است، به این معنا که اگر «او» با «باراک اوباما» هممرجع است «اوباما» نیز با «او» هممرجع میباشد.
۳)ارتباط میان عبارتهای اسمیهممرجع، متعدی است به این معنا که اگر «او» با «باراک اوباما» هممرجع است و «او» نیز با «رئیس جمهور آمریکا» هممرجع باشد بنابراین حتماً «باراک اوباما» نیز با «رئیس جمهور آمریکا» هممرجع میباشد.
۲)رابطهی پیشایندی یک جفت از عبارتهای اسمیرا در نظر میگیرد به طوری که در این رابطهیک عبارت نقش مفسر و دیگری نقش ارجاع دهنده را دارند. بنابراین به طور ذاتی این رابطه غیرمتعدی میباشد.
۴) یک ارتباط هممرجعی یک ارتباط فرا متنی است به این معنا که تفسیر هیچ کدام از عبارتهای اسمیهممرجع به محتوای متن وابسته نمیباشد. به عبارت دیگر، دو عبارت هممرجع لزوماً برای تفسیر به یکدیگر وابسته نیستند.
۳)این رابطه به محتوای متن حساس است به این دلیل که تالی یا عبارت ارجاعدهنده برای اینکه مفهوم باشد نیاز به مفسر یا تفسیر دارد.
۵)یک رابطهی هممرجعی خالص میتواند در تحلیل مرجعمشترک در متون متقاطع به کار رود.
۴)معمولاً تالی یا عبارت ارجاعدهنده در یک رابطهی پیشایندی، به دیگر اجزای تشکیلدهنده در همان جمله و یا نزدیکترین اظهارات ممکن در گفتمان اشاره دارد.
۶) برخی از عبارتهای اسمیذاتاً با یکدیگر هممرجع هستند به عنوان مثال «پرفسور زاده» و «بنیان گذار منطق فازی»، این دو عبارت هر کجا که باشند به یک موجودیت به نام «پرفسور زاده» اشاره خواند داشت. به عبارت دیگر چنین ارتباطی یک ارتباط هممرجعی خالص نامیده میشود
۵) یک تالی تنها نیاز به یک مفسر دارد تا آنرا تفسیر نماید بنابراین اگر چندین مفسر برای آن در متن وجود داشته باشد مناسبترین و نزدیکترین آنها انتخاب خواهد شد.
۷)بیشتر برای استخراج اطلاعات در خصوص یک یا چند موجودیت در متن به کار میرود.
۶) به درک بهتر متن و رفع ابهام برخی از واژگان در متن کمک میکند.
1-۲-۱-۲.ارتباط پيشايندی:
یک ارتباط پیشایندی49، از یک جفت عبارت اسمی(۱aو۲a) تشکیل میشود به طوری که عبارت اول نقش مفسر را برای عبارت دوم ایفا نماید. بنابراین یک ارتباط پیشایندی به صورت ذیل تعریف میشود:
(2)عبارت اسمیاول(۱a) به عنوان مقدم برای عبارت اسمیدوم (۲a) در نظر گرفته میشود اگر و تنها اگر ۲a برای تفسیرش به ۱a وابسته باشد
مثال ۳: هنگامیکه پسر وارد (اتاق)Ant شد، (درب)Ana ب
