دانلود پایان نامه ارشد درمورد یادگیری ماشین، بهبود عملکرد، سلسله مراتبی

دانلود پایان نامه ارشد

64
2-2-۴-۱-۳. موجودیت مکان 66
2-2-۴-۱-۴. موجودیت سیاسی 66
2-2-۴-۲.کلاس هر موجودیت 68
2-2-۴-۲-۱.غیر ارجاعی 69
2-2-۴-۲-۲.ارجاعی 69
2-2-۴-۲-۲-۱.ارزیابی به شکل منفی 69
2-2-۴-۲-۲-۲.ارجاعی خاص 70
2-2-۴-۲-۲-۳.ارجاعی عمومی 70
2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده 70
2-2-۴-۳.انواع اشاره/سطوح اشاره 71
2-2-۴-۳-۱.اشاره ساده 72
2-2-۴-۳-۱-۱.محدوده اشاره 72
2-2-۴-۳-۱-۲. هسته اشاره 72
2-2-۴-۳-۱-۳.انواع اشاره ساده 72
2-2-۴-۳-۲.ساختارهای پیچیده 74
2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل 75
2-2-۵.جمع‏بندی 75
فصل 3: الگوریتمهای پیشنهادی 76
3-۱. رده بندی دودویی 76
3-1-1.جدا کننده‏های خطی 77
3-1-1-1 پرسپترون 78
3-1-1-2 ماشین بردار پشتیبان 80
3-1-1-3 درخت تصمیم 85
3-۲.خوشه‏بندی 88
3-2-1 .الگوریتم‏های افراز بسته‏ای 89
3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا 90
3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی 93
3-3.جمع‏بندی 96
فصل 4: سیستم ارزیابی 97
4-۱.مقدمه 97
4-۲.سیستم شناسایی اشاره لوتوس 98
4-2-1 .بانک اطلاعاتی 98
4-2-2.سیستم شناسایی اشاره 102
4-3.تشخیص اشاره‏های هم مرجع 103
4-3-1 ویژگی‏ها 104
4-3-2.الگوریتم یادگیری 105
4-3-3.معیار ارزیابی 107
4-3-4.نتیجه ارزیابی 110
4-3-4-1.نتایج بدست آمده 110
4-3-4-.2چالش‏ها و تحلیل خطا 112
4-4.جمع‏بندی 115
فصل 5 :نتیجه گیری و پیشنهادها 116
5-۱.نتیجه‏گیری 116
5-2.پیشنهادها 118
فصل .6 منابع 121

فهرست جدول‏ها
عنوان
صفحه
جدول 1-۱: مقایسه ویژگی‏های دو ارتباط هم‏مرجع وپیشایند ۱1
جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک 23
جدول 2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک 30
جدول 2-۳: معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند 55
جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها 62
جدول2-5: زیر گروه‏های موجودیت مشخص 64
جدول2-6: زیر گروه‏های موجودیت سازمان 65
جدول 2-7: زیر گروه‏های موجودیت مکان 66
جدول 2-8: زیر گروه‏های موجودیت سیاسی 67
جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی 68
جدول 2-10: انواع طبقه‏بندی اشاره 71
جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان 100
جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشاره‏ها 101
جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک 106
جدول 4-4: حالت‏های ممکن نتایج یک ماشین یادگیر 108
جدول 4-5: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی 110
جدول 4-6: نتایج ارزیابی الگوریتم SVM با هسته‏های متفاوت 111
جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدل‏های متفاوت 112

فهرست شکل‏ها
عنوان
صفحه
شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی 12
شکل1-۲. میزان ارتباط میان حوزه‏ها با انواع دانش‏های زبان‏شناسی و واژگانی ۱6
شکل2-۱. نمونه‏ای از نمونه‏های مثبت و منفی که توسط ۴.5C تولید شده است 31
شکل2-۲. درختِ بل به ازای سه عبارت اسمی 37
شکل2-3. شمایی از نشانه‏گذاری پیکره بیژن‏خان 60
شکل2-4. شمایی از نشانه‏گذاری اشاره‏های هم مرجع در پیکره لوتوس 62
شکل3-۱. شمایی از داده‏های خطی و غیر خطی جدایی‏پذیر 77
شکل3-۲. الگوریتم پرسپترون میانگین‏دار 80
شکل3-3. نمونه‏ای از یک درخت تصمیم‏گیری 86
شکل3-4.الگوریتم C5 88
شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارت‏های اسمی هم‏مرجع 92
شکل3-6. الگوریتم خوشه‏بندی سلسله مراتبی پایین به بالا 93
شکل3-7.الگوریتم آموزش خوشه‏بندی حریصانه 94
شکل3-8.الگوریتم بروزرسانی 96
شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس 99
شکل4-2 :شمای کلی سیستم شناسایی اشاره 102
شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره 102
شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان 103
شکل4-5: شمایی از نمایش خروجی تعیین نمونه‏های مثبت و منفی 107
شکل4-6: نمودار مقایسه الگوریتم‏های پایه مورد بررسی 111
فهرست علائم و اختصارات
ACE
Automatic Content Extraction
ADR
Address Sub Entity
AI
Artificial Intelligence
ANA
Anaphor
ANT
Antecedent
APP
Apposition Construction mention type
AR
Anaphora Resolution
BAR
Bare Sub Entity
BND
Boundary Sub Entity
CLS
Celestial Sub Entity
CLUS
Cluster Sub Entity
COM
Commercial Sub Entity
CONT
Continent Sub Entity
CR
Coreference Resolution
DIS
District Sub Entity
EDU
Educational Sub Entity
EM
Expectation Maximization
ENT
Entertainment Sub Entity
GEN
General Entity class
GOV
Government Sub Entity
GR
Group Sub Entity
HLS
Headless nominal mention type
IE
Information Extraction
IND
Individual Sub Entity
IR
Information Retrieval
JPE
Geo political Entity
LOC
Location Entity
MD
Mention Detection
MED
Media Sub Entity
ML
Machine Learning
MT
Machine Translation
MUC
Message Understanding
NAM
Name mention
NAMMH
Name which is head of mention
NAMPOS
Post modifier mention of name head
NAT
Nation Sub Entity
NEG
Negative Quantified Entity class
NER
Named Entity Recognition
NGOV
Non-government Sub Entity
NOMH
Nominal which is head of mention
NOMH
Nominal mention
NOMPOS
Post modifier mention of nominal head
NP
Noun phrase
ORG
Organization Entity
PER
Persons Sub Entity
POP
Population Sub Entity
PRO
Pronominal mention
PTV
Portative Construction mention type
RBFN
Radial Basis Function Network
REF
Refential Entity class
REG
Region Sub Entity
REL
Religious Sub Entity
SPC
Specific Entity class
SPE
Special Sub Entity
SPO
Sport Sub Entity
STAT
state Sub Entity
SVM
Support Vector Machine
TLT
Title Sub Entity
USP
Underspecified referential Entity class
WAT
Water body Sub Entity
WHO
WH_Question Words and specific mention type

فصل اول

۱-۱.مقدمه و بيان مسئله
امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبيعي1»شاخه‏اي از علم «هوش مصنوعي2» است كه به ماشيني كردن فرآيند زبان شناسي سنتي می‏پردازد. به این ترتیب با استفاده از رايانه می‏توان «زبان گفتاري ونوشتاري» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبيعي به عنوان ورودي وخروجي استفاده كند. به این ترتیب یک رایانه، درهنگام دريافت ورودي، نياز به «درک» و درهنگام ارسال خروجي، نياز به «توليد» زبان طبيعي دارد. ]81[
در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون3، برچسب‏گذاری ادات سخن4، تعیین و ابهام‏زدایی از معانی واژگان5 و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامي اين حوزه‏هاي جزئي بايد حل شوند تا در نهايت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و يا آنها را بسازد.
وظایف زبان طبیعی را می‏توان به ریز کاربردها6 و کلان کاربردها7 افراز نمود. به طور کلی تا کنون تحقیقات انجام شده بیشتر بر روی پردازش‏هایی در سطح واژه و یا جمله (مانند برچسب گذاری ادات سخن، ابهام زدائی از مفهوم واژگان، شناسایی موجودیت‏های نامدار8 و … ) و یا در سطح کل متن (تشخیص هرزنامه9، رده بندی متون و…) متمرکز شده اند؛ برخی از کاربرد‏ها نیز مانند استخراج اطلاعات10، تشخیص مرجع مشترک11 و ماشین ترجمه12 در سطح بینابین قرار گرفته‏اند. ]27[بدیهی است که در توسعه یک کاربرد سطح بالاتر همانند تعیین ویژگی‏های معنایی متون، انواع متفاوتی از ویژگی‏های سطح پایین‏تر (مانند ویژگی‏های لغوی13 و نحوی14) نیز لازم است، اما به لطف سیستم‏های جدید که تا حد زیادی به روش‏های آماری یادگیری ماشین بستگی دارند، دیگر در آنها، به تمامی‏‏‏ ویژگی‏های سطح پایین‏تر نیازی نیست. علت اینکه روش‏های یادگیری ماشین توانسته‏اند با وجود سادگی، به موفقیت قابل توجهی دست یابند این است که اطلاعات آماری پایه، دانشی را فراهم می‏آورد که برای بسیاری از کاربرد‏ها کافی بوده و می‏‏‏‏تواند به کارائی قابل توجهی منجر شود. با این وجود، باید توجه داشت که روش‏های آماری محدود است و هرگز نمی‏توانند درک کاملی از محتوای معانی یک متن را فراهم آورند.
از طرفی دیگر، با فراهم شدن اطلاعات و قدرت محاسباتی بیشتر، سیستم‏‏هایی که واژگان و جملات درست را از غلط تشخیص می‏دهند، به طور گسترده‏ای در حال توسعه هستند. به عنوان مثال، در زبان انگلیسی برچسب گذاری ادات سخن به صحتی برابر با ۹۸%، شیوه‏های تجزیه کردن15 به صحتی برابر با ۹۰%، و شناسایی موجودیت‏های نامدار به صحت ۹۱% رسیده اند. [78,55,38[.
بسیاری از پژوهشگران معتقدند كه استخراج اطلاعات به عنوان یکی از مهمترین کاربردهای پردازش زبان طبیعی محسوب می‏شود، که مجموعه‏اي از تکنیک‏های رده‏بندي16، خوشه‏بندی17 و قوانين وابستگي18 است و خروجی استخراج اطلاعات شامل، شناسايي موجوديت‏ها19 ، تعيين نوع وگروه آنها، طبقه بندي ارتباط ميان موجوديت‏ها و همچنين استخراج رويدادهايي كه در آن مشاركت دارند، مي‏باشد.[71[ در نهایت مي‏توان گفت كه خلاصه سازي، بازيابي اطلاعات20، داده‏كاوي21، پرسش و پاسخ22 و درك زبان23 از جمله كاربردهاي اين سيستم هستند.
تمرکز اصلی این پژوهش بررسی فرآیند تشخیص مرجع مشترک به عنوان یکی از فرآیندهای مهم استخراج اطلاعات است؛ در تشخیص مرجع مشترک تمام عبارت‏های اسمی‏‏‏ که به یک موجودیت واحد در دنیای واقعی اشاره دارند، تعیین می‏گردند. هدف نهایی این پایان‏نامه شناسایی اشاره‏های هم مرجع شامل ضمیر و اسم اشاره در متون پارسی می‏باشد. برای تحقق این هدف نیاز به انجام پیش پردازش‏هایی بر روی متون خام می‏باشد تا داده‏های مورد نیاز برای ورود به فرآیند تحلیل مرجع مشترک فراهم شوند. فرض ما بر این است که خروجی حاصل از فرآیند کشف اشاره24 به عنوان یک پیش پردازش می‏تواند در کنار سایر پیمانه‏های پیش پردازشی مانند تجزیه‏گر، شناسایی موجودیت‏های نامدار و… بر بهبود عملکرد تحلیل مرجع مشترک موثر واقع شود. [23،38،53،83]
به هر ترتیب شناسایی عبارت‏های اسمی‏‏‏ هم‏مرجع از مهمترین زیر وظایف استخراج اطلاعات می‏باشند که بهبود عملکرد آن موجب بهبود عملکرد کلی سیستم استخراج اطلاعات و سایر سیستم‏های مرتبط با آن خواهد شد.
واحد مورد بررسی در حوزه تشخیص مرجع مشترک، متن می باشد که پس از اجرای ماژول‏هایی متفاوت، متن مورد نظر به عبارت های اسمی یا به عبارت بهتر به اشاره تبدیل می‏شود. روش‏های موجود در این حوزه، به دو دسته روش‏های زبان‏شناسی25 و روش‏های یادگیری ماشین26 تقسیم می‏‏‏شوند. [76[ در روش اول، ابتدا به ازای هر عبارت اسمی‏‏، مراجع کاندیدا تعیین می‏‏‏شود و سپس با به کارگیری مجموعه‏ای از قواعد زبان‏شناسی، برخی از کاندیداها حذف شده و کاندیداهای باقیمانده نیز امتیازدهی می‏‏‏شوند و در‏نهایت کاندیدایی به عنوان مرجع برگزیده مي‏‏‏شود که بیشترین امتیاز را کسب کرده باشد. مسئله اصلی در این روش این است که کسب اطلاعات زبان‏شناسی مورد نیاز، فرآیندی زمان‏بر، پرهزینه و پر خطاست. البته با پیدایش پیکره‏های27 زبان‏شناسی و موفقیت روش‏های یادگیری ماشین در سایر حوزه‏ها، روش‏های

پایان نامه
Previous Entries پایان نامه ارشد درمورد Personality، Miller,، C., Next Entries دانلود پایان نامه ارشد درمورد باراک اوباما، منطق فازی، یادگیری ماشین