
64
2-2-۴-۱-۳. موجودیت مکان 66
2-2-۴-۱-۴. موجودیت سیاسی 66
2-2-۴-۲.کلاس هر موجودیت 68
2-2-۴-۲-۱.غیر ارجاعی 69
2-2-۴-۲-۲.ارجاعی 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی 69
2-2-۴-۲-۲-۲.ارجاعی خاص 70
2-2-۴-۲-۲-۳.ارجاعی عمومی 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده 70
2-2-۴-۳.انواع اشاره/سطوح اشاره 71
2-2-۴-۳-۱.اشاره ساده 72
2-2-۴-۳-۱-۱.محدوده اشاره 72
2-2-۴-۳-۱-۲. هسته اشاره 72
2-2-۴-۳-۱-۳.انواع اشاره ساده 72
2-2-۴-۳-۲.ساختارهای پیچیده 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل 75
2-2-۵.جمعبندی 75
فصل 3: الگوریتمهای پیشنهادی 76
3-۱. رده بندی دودویی 76
3-1-1.جدا کنندههای خطی 77
3-1-1-1 پرسپترون 78
3-1-1-2 ماشین بردار پشتیبان 80
3-1-1-3 درخت تصمیم 85
3-۲.خوشهبندی 88
3-2-1 .الگوریتمهای افراز بستهای 89
3-2-1-1 .خوشهبندی سلسله مراتبی پایین به بالا 90
3-2-1-2 .آموزش الگوریتم خوشهبندی سلسله مراتبی 93
3-3.جمعبندی 96
فصل 4: سیستم ارزیابی 97
4-۱.مقدمه 97
4-۲.سیستم شناسایی اشاره لوتوس 98
4-2-1 .بانک اطلاعاتی 98
4-2-2.سیستم شناسایی اشاره 102
4-3.تشخیص اشارههای هم مرجع 103
4-3-1 ویژگیها 104
4-3-2.الگوریتم یادگیری 105
4-3-3.معیار ارزیابی 107
4-3-4.نتیجه ارزیابی 110
4-3-4-1.نتایج بدست آمده 110
4-3-4-.2چالشها و تحلیل خطا 112
4-4.جمعبندی 115
فصل 5 :نتیجه گیری و پیشنهادها 116
5-۱.نتیجهگیری 116
5-2.پیشنهادها 118
فصل .6 منابع 121
فهرست جدولها
عنوان
صفحه
جدول 1-۱: مقایسه ویژگیهای دو ارتباط هممرجع وپیشایند ۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک 23
جدول 2-۲: برخی از ویژگیهای ارائه شده در تحلیل مرجع مشترک 30
جدول 2-۳: معرفی برخی از پژوهشهایی که از خوشهبندی استفاده کردهاند 55
جدول 2-4: مشخصات مربوط به انواع موجودیتها 62
جدول2-5: زیر گروههای موجودیت مشخص 64
جدول2-6: زیر گروههای موجودیت سازمان 65
جدول 2-7: زیر گروههای موجودیت مکان 66
جدول 2-8: زیر گروههای موجودیت سیاسی 67
جدول 2-9: حالتهای خاص موجودیتهای سیاسی 68
جدول 2-10: انواع طبقهبندی اشاره 71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان 100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشارهها 101
جدول 4-3: فهرست ویژگیهای به کار رفته در تشخیص مرجع مشترک 106
جدول 4-4: حالتهای ممکن نتایج یک ماشین یادگیر 108
جدول 4-5: نتایج ارزیابی الگوریتمهای پایه مورد بررسی 110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هستههای متفاوت 111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدلهای متفاوت 112
فهرست شکلها
عنوان
صفحه
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی 12
شکل1-۲. میزان ارتباط میان حوزهها با انواع دانشهای زبانشناسی و واژگانی ۱6
شکل2-۱. نمونهای از نمونههای مثبت و منفی که توسط ۴.5C تولید شده است 31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی 37
شکل2-3. شمایی از نشانهگذاری پیکره بیژنخان 60
شکل2-4. شمایی از نشانهگذاری اشارههای هم مرجع در پیکره لوتوس 62
شکل3-۱. شمایی از دادههای خطی و غیر خطی جداییپذیر 77
شکل3-۲. الگوریتم پرسپترون میانگیندار 80
شکل3-3. نمونهای از یک درخت تصمیمگیری 86
شکل3-4.الگوریتم C5 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارتهای اسمی هممرجع 92
شکل3-6. الگوریتم خوشهبندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشهبندی حریصانه 94
شکل3-8.الگوریتم بروزرسانی 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس 99
شکل4-2 :شمای کلی سیستم شناسایی اشاره 102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره 102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان 103
شکل4-5: شمایی از نمایش خروجی تعیین نمونههای مثبت و منفی 107
شکل4-6: نمودار مقایسه الگوریتمهای پایه مورد بررسی 111
فهرست علائم و اختصارات
ACE
Automatic Content Extraction
ADR
Address Sub Entity
AI
Artificial Intelligence
ANA
Anaphor
ANT
Antecedent
APP
Apposition Construction mention type
AR
Anaphora Resolution
BAR
Bare Sub Entity
BND
Boundary Sub Entity
CLS
Celestial Sub Entity
CLUS
Cluster Sub Entity
COM
Commercial Sub Entity
CONT
Continent Sub Entity
CR
Coreference Resolution
DIS
District Sub Entity
EDU
Educational Sub Entity
EM
Expectation Maximization
ENT
Entertainment Sub Entity
GEN
General Entity class
GOV
Government Sub Entity
GR
Group Sub Entity
HLS
Headless nominal mention type
IE
Information Extraction
IND
Individual Sub Entity
IR
Information Retrieval
JPE
Geo political Entity
LOC
Location Entity
MD
Mention Detection
MED
Media Sub Entity
ML
Machine Learning
MT
Machine Translation
MUC
Message Understanding
NAM
Name mention
NAMMH
Name which is head of mention
NAMPOS
Post modifier mention of name head
NAT
Nation Sub Entity
NEG
Negative Quantified Entity class
NER
Named Entity Recognition
NGOV
Non-government Sub Entity
NOMH
Nominal which is head of mention
NOMH
Nominal mention
NOMPOS
Post modifier mention of nominal head
NP
Noun phrase
ORG
Organization Entity
PER
Persons Sub Entity
POP
Population Sub Entity
PRO
Pronominal mention
PTV
Portative Construction mention type
RBFN
Radial Basis Function Network
REF
Refential Entity class
REG
Region Sub Entity
REL
Religious Sub Entity
SPC
Specific Entity class
SPE
Special Sub Entity
SPO
Sport Sub Entity
STAT
state Sub Entity
SVM
Support Vector Machine
TLT
Title Sub Entity
USP
Underspecified referential Entity class
WAT
Water body Sub Entity
WHO
WH_Question Words and specific mention type
فصل اول
۱-۱.مقدمه و بيان مسئله
امروزه رایانه در تمام لایههای زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبانشناسی، بیش از پیش احساس میشود. «پردازش زبان طبيعي1»شاخهاي از علم «هوش مصنوعي2» است كه به ماشيني كردن فرآيند زبان شناسي سنتي میپردازد. به این ترتیب با استفاده از رايانه میتوان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانهها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهشهایی مانند طبقهبندی متون3، برچسبگذاری ادات سخن4، تعیین و ابهامزدایی از معانی واژگان5 و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشتهاند و در نتیجه راه حلهایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب میشوند. تمامي اين حوزههاي جزئي بايد حل شوند تا در نهايت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و يا آنها را بسازد.
وظایف زبان طبیعی را میتوان به ریز کاربردها6 و کلان کاربردها7 افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازشهایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیتهای نامدار8 و … ) و یا در سطح کل متن (تشخیص هرزنامه9، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربردها نیز مانند استخراج اطلاعات10، تشخیص مرجع مشترک11 و ماشین ترجمه12 در سطح بینابین قرار گرفتهاند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگیهای معنایی متون، انواع متفاوتی از ویژگیهای سطح پایینتر (مانند ویژگیهای لغوی13 و نحوی14) نیز لازم است، اما به لطف سیستمهای جدید که تا حد زیادی به روشهای آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی ویژگیهای سطح پایینتر نیازی نیست. علت اینکه روشهای یادگیری ماشین توانستهاند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم میآورد که برای بسیاری از کاربردها کافی بوده و میتواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روشهای آماری محدود است و هرگز نمیتوانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستمهایی که واژگان و جملات درست را از غلط تشخیص میدهند، به طور گستردهای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوههای تجزیه کردن15 به صحتی برابر با ۹۰%، و شناسایی موجودیتهای نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب میشود، که مجموعهاي از تکنیکهای ردهبندي16، خوشهبندی17 و قوانين وابستگي18 است و خروجی استخراج اطلاعات شامل، شناسايي موجوديتها19 ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديتها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، ميباشد.[71[ در نهایت ميتوان گفت كه خلاصه سازي، بازيابي اطلاعات20، دادهكاوي21، پرسش و پاسخ22 و درك زبان23 از جمله كاربردهاي اين سيستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارتهای اسمی که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین میگردند. هدف نهایی این پایاننامه شناسایی اشارههای هم مرجع شامل ضمیر و اسم اشاره در متون پارسی میباشد. برای تحقق این هدف نیاز به انجام پیش پردازشهایی بر روی متون خام میباشد تا دادههای مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره24 به عنوان یک پیش پردازش میتواند در کنار سایر پیمانههای پیش پردازشی مانند تجزیهگر، شناسایی موجودیتهای نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارتهای اسمی هممرجع از مهمترین زیر وظایف استخراج اطلاعات میباشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستمهای مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژولهایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل میشود. روشهای موجود در این حوزه، به دو دسته روشهای زبانشناسی25 و روشهای یادگیری ماشین26 تقسیم میشوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی، مراجع کاندیدا تعیین میشود و سپس با به کارگیری مجموعهای از قواعد زبانشناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی میشوند و درنهایت کاندیدایی به عنوان مرجع برگزیده ميشود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبانشناسی مورد نیاز، فرآیندی زمانبر، پرهزینه و پر خطاست. البته با پیدایش پیکرههای27 زبانشناسی و موفقیت روشهای یادگیری ماشین در سایر حوزهها، روشهای
