
ورزشی، سیاسی و غیره هستند.
همان طور که اشاره شد، بیژنخان، پیکرهای مبتنی بر واژه بوده و اطلاعات اضافه شده به آن، در سطح واژه هستند. هر خط از هر یک از متون نشانهگذاری شده در بیژنخان، حاوی یک واژه و برچسبهای نحوی و معنایی مربوط به آن واژه میباشد. اطلاعات معنایی اضافه شده نیز، به عنوان نمونه مشخص میکند که واژه مذکور در کدام یک از این دستههای معنایی قرار میگیرد: شخص، مکان، فصل، ماه، روز، زمان و غیره. از کاربردهای پیشین پیکره بیژنخان میتوان به تحلیل واژه شناسی آماری [32]و استنتاج بدون ناظر گرامر زبان پارسی[68،71] اشاره کرد. شکل 2-3 شمایی از پیکره بیژنخان را نمایش میدهد.
شکل 2-3: شمایی از نشانهگذاری پیکره«بیژنخان»
2-2-3. پيکره لوتوس
پیکره لوتوس، پیکرهای است که علاوه بر اطلاعات عبارت اسمی هممرجع، دارای اطلاعات مربوط به اشاره نیز میباشد. ما این پیکره را به عنوان یک گسترش جزئی بر « بیژنخان» در نظر میگیریم که در آن 40 متن از بیژنخان با اطلاعات اشاره و هممرجعی نشانهگذاری شده است. متون نشانهگذاری شده، از موضوعات مختلف برگزیده شده اند. از آنجائیکه پیکره لوتوس، اولین پیکره اطلاعات اشاره و هممرجعی در زبان پارسی است، در نشانهگذاری تنها به مشخص کردن ارجاعات اصلی که مربوط به اشخاص، مکان ها، سازمانها و موجودیتهای سیاسی میباشد بسنده کردهایم. به منظور مشخص کردن نوع هر اشاره، نوع موجودیت، زیر گروه موجودیت، کلاس موجودیت و کد ارجاع از یک سری قوانین مشخص و اصولی پیروی کردیم. این قوانین را بر پایهی اطلاعات ارائه شده در [8،9] تهیه کردیم که با توجه به ویژگیهای زبان پارسی آن را شخصی سازی نموده ایم. روال کار به این ترتیب است که پس از تعیین محدوده هر اشاره ،نوع اشاره، نوع ارجاع، موجودیتی که به آن اشاره میشود و زیرگروه موجودیتی که به آن اشاره میشود، مشخص میشود. برچسب واژه آغازکنندهی اشاره، با نشانه “B” شروع میشود و برچسب واژههای وابسته به آن با نشانه “I” شروع خواهند شد. در هر متن نشانهگذاری شده، به دنبال اطلاعات هر اشاره، شناسه عددی منحصر به فردی قرار میگیرد که به یک موجودیت یکتا اشاره میکند. این ویژگی موجب میشود تا بتوانیم در هر متن و یا در متون مختلف، اشارههایی که به یک موجودیت واحد اشاره دارند را مشخص نمائیم.
از آنجائیکه بیژنخان پیکرهای در سطح واژه است، در صورتی که یک اشاره از چندین واژه تشکیل شده باشد، از نشانه “-” در آخر هر برچسب اشاره استفاده کرده ایم تا نشانگر این موضوع باشد که اشاره مورد نظر چندین واژهی متوالی را در بر میگیرد. نمونهای از نشانهگذاری پیکره لوتوس را در شکل 2-4 مشاهده مینمائید.
شکل 2-4: شمایی از نشانهگذاری اشارههای هممرجع در پیکره لوتوس
2-2-4. شيوه نشانهگذاری پيکره لوتوس
2-2-4-1. نشانهگذاری انواع موجوديت
همان طور که گفته شد، هر اشاره میتواند به یکی از هفت گروه موجودیتها اشاره داشته باشد، اطلاعات مربوط به هر کدام از انواع موجودیتها در جدول 2-4 آورده شده است.
جدول 2-4: مشخصات مربوط به انواع موجودیتها[8،9]
انواع
مشخصات هر گروه
شخص171
این موجودیتها به انسانها محدود میشود و میتواند شامل یک فرد تنها یا گروهی از افراد باشد.
سازمان
این موجودیتها به شرکت ها، سازمانها و دیگر گروههای مردم که در یک ساختار سازمانی قرار دارند اطلاق میشود.
سیاسی172
این موجودیتها از طریق مناطق جغرافیایی و / یا گروههای اجتماعی تعریف میشوند و شامل یک ملّت، منطقه آن، دولت آن و مردم آن میشود و میان آنها تمایزی قائل نیست.
مکان
به موجودیتهای جغرافیائی مثل مناطق جغرافیائی، سرزمینها، مناطق آبی و تشکیلات جغرافیائی اطلاق میشود.
تسهیلات173
به ساختمانها و دیگر ساختههای دست انسان و املاک و مستغلات اطلاق میشود.
خودرو
موجودیتی است که به یک دستگاه فیزیکی اطلاق میشود که موجب حرکت یک شیء از یک محل به محل دیگر به وسیله کشیدن، حل دادن، حمل کردن میشود این دستگاه میتواند خود دارای منبع قدرت باشد یا نباشد.
سلاح
به دستگاه فیزیکی گفته میشود که به عنوان ابزاری برای آسیب رساندن فیزیکی یا از بین بردن موجودیتهای دیگر استفاده گردد.
هر گروه موجودیت، میتواند از یک سری زیر گروه تشکیل شود. که یک ارجاع خاصتر به موجودیت را مشخص میکند. اطلاعات مربوط به انواع زیر گروهها برای چهار موجودیت اصلی، یعنی شخص، سازمان، مکان و سیاسی به تفکیک در ادامه توضیح داده شده است.
2-2-4-1-1. موجوديت شخص:
موجودیتهای شخص با زیر گروههایی مشخص میشود که در جدول 2-5 آمده است.
جدول2-5: زیر گروههای موجودیت شخص
توضیحات
مشخصه
فرد
اگر موجودیت انسان به یک شخص واحد اشاره کند به عنوان «شخص واحد»، برچسب میخورد.
PER-IDN
گروه
اگر موجودیت شخص به بیش از یک فرد اشاره کند به صورت «شخص گروه»، برچسب میخورد مگر آنکه مطابق با ساختار و الزامات یک سازمان باشد. به عبارتی این نوع موجودیت میتواند شامل نامهای خانوادگی و گروههای قومی و مذهبی باشد البته به این شرط که گروههای قومی و مذهبی توسط یک سازمان رسمی متحد و یکپارچه نشده باشند.
PER-GR
نامشخص174
اگر در یک متن نتوانیم تشخیص دهیم که موجودیت شخص به یک فرد اشاره دارد یا به بیش از یک فرد، آنرا با عنوان «شخص نامشخص» برچسبگذاری میکنیم. البته این مورد در زبان انگلیسی بیشتر به چشم میخورد و در زبان عربی انتظار نداریم که این مورد را ببینیم. در زبان پارسی نیز در مواردی که با احترام بیشتر در فردی را مورد خطاب قرار می دهیم به این مورد بر خواهیم خورد.
PER-BAR
عناوین [تجلیلی] و سمت ها175
اصولاً عناوین و عنوانهای تجلیلی، که همراه نام آورده میشوند، به عنوان بخشی از نام شخص در نظر گرفته نمیشوند (آنها را به عنوان اشاره در جایگاه خودشان در نظر میگیریم). بخشهای «عنوان» در صورتی به عنوان یک موجودیت در نظر گرفته میشوند که به موجودیتها اشاره داشته باشند. به عنوان مثال، در گروه اسمی «علی احمدی وزیر آموزش و پرورش ایران»، پنج اشاره از چهار موجودیت مجزا وجود دارد که به صورت زیر میتوان آنها را در نظر گرفت. در اینجا دو اشاره شخص وجود دارد که با هم، هممرجع هستند؛ به این ترتیب که «وزیر آموزش و پرورش» به صورت عنوان و «علی احمدی» به عنوان اسم شخص برچسبگذاری میشود.
PER-TLT
2-2-4-1-2. موجوديت سازمان
هر سازمان یا مجموعهای از سازمانها اشاره شده در یک متن، یک موجودیت از نوع سازمان محسوب میشوند. یک موجودیت سازمان باید یک سری قوانین تاسیس رسمی داشته باشد. نمونههای رایج آن بنگاهها، واحدهای دولتی، تیمهای ورزشی و گروههای سازمان یافته رسمی موسیقی است. بخشهای صنعتی و صنایع هم به عنوان موجودیتهای سازمان تلقی میشوند. زیر گروههای موجودیت سازمان را در جدول 2-6 مشاهده میکنید.
جدول2-6: زیر گروههای موجودیت سازمان
توضیحات
مشخصه
دولتی
سازمانهای دولتی سازمانهایی هستند که با ساختار یا امور دولت، سیاست یا کشور مرتبط هستند یا با آنها معامله دارند. خود دولت در این زیر گروهها قرار نمیگیرد و به صورت سازمان سیاسی برچسبگذاری میشود. توجه اینکه سازمانهایی که با دولت مرتبط هستند نیز از نوع سیاسی محسوب میشوند و همانند دولت برچسب میخورند.
ORG-GOV
تجاری
یک سازمان بازرگانی، یک سازمان کامل یا یک بخش قابل برچسبگذاری از یک سازمان است که بر روی ایجاد ایده، محصولات یا خدمات برای رسیدن به سود تمرکز دارد.
ORG-COM
آموزشی
یک سازمان آموزشی، یک موسسه کامل یا یک بخش قابل برچسبگذاری از یک موسسه است که بر روی پیشبرد یا ترویج آموزش / تحصیلات تمرکز دارد.
ORG-EDU
سرگرمی
سازمانهایی که خدمات سرگرمی و تفریحی ارائه میدهند. مثل سرزمین عجایب یا پارک ارم به عنوان سازمان سرگرمی محسوب میشوند، امّا شرکتهای رسانهای مثل «موسسه فرهنگی و هنری قرن 21» از این قاعده مستثنی هستند و به صورت سازمانهای بازرگانی برچسبگذاری خواهند شد.(این گونه شرکت ها با ایجاد سرگرمی، سود کسب می کنند)
ORG-ENT
غیر دولتی
سازمانهای غیر دولتی سازمانهایی هستند که نه دولتی محسوب میشوند و نه بازرگانی. نقش اصلی آنها طرفداری، خیریه و سیاست (در یک مفهوم گسترده) است. سازمانهای دولتی شامل زیر مجموعههای گوناگونی خواهند بود.
ORG-NGOV
رسانه ها
سازمانهای رسانهای، آن دسته از سازمانها هستند که توجه اولیه شان به تهیه و پخش اخبار است صرف نظر از اینکه دولتی یا خصوصی باشند. البته در این میان سازمانهایی هم هستند که به صورت سازمان بازرگانی برچسب میخورند.
ORG-MED
مذهبی
این سازمانها به طور خاص به موضوعات دینی و مذهبی میپردازند.
ORG-REL
پزشکی و
درمانی
این سازمانها، فعالیتهایی مانند استفاده و کاربرد مراقبتهای پزشکی یا پیگیری تحقیقات علمی را دنبال میکنند. بدون در نظر گرفتن اینکه دولتی یا خصوصی باشند.
ORG-SCI
ورزشی
هدف اصلی این سازمانها شرکت کردن در وقایع ورزشی یا اداره و مدیریت سازمان یافته رویدادهای ورزشی است، چه به صورت حرفهای، آماتور و چه آموزشی باشند. گروههای بازیها و ورزشهای مختلف، بازیهایکارتی و بازیهای شانسی در این طبقه قرار میگیرند.
ORG-SPO
2-2-4-1-3. موجوديت مکان
مکانها، بر پایه جغرافیایی و نجومی واقع شدهاند که در متون به آنها اشاره میشود. یک موجودیت سیاسی، موجب تشکیل یک موجودیت مکانی نمیشود. به عنوان مثال، منظومه شمسی، مریخ، رودخانه زاینده رود، تنگه واشی و… از جمله موجودیتهای مکانی هستند. باید توجه داشت که مکانهایی که تنها در آنها یک اتفاق رخ داده باشد (مثل صحنه قتل یا محل پرتاب موشک) به عنوان موجودیت در نظر گرفته نمیشوند. زیر گروههای موجودیت مکان در جدول 2-7 آمده است.
جدول2-7: زیرگروههای موجودیت مکان
توضیحات
مشخصه
آدرس
یک محل با سیستم پستی یا یک انتزاع مختصاتی (w۳۱0.۲۲0 s,) مشخص میشود. نام یک مکان در سیستم آدرس پستی نیز به عنوان یک آدرس میباشد.
LOC-ADR
مرز176
یک مکان یک بعدی مانند مرز، بین موجودیتهای سیاسی یا مکانها قرار دارد.
LOC-BND
آسمانی177
یک مکان است که یا آخرتی است یا کل جهان را شامل میشود.
LOC-CLS
پیکره آبی178
پیکرههای آبی چه به صورت طبیعی و چه به صورت مصنوعی باشند.
LOC-WAT
منطقه
زمین یا اکوسیستمهای تعین شده، مکان های غیر مصنوعی را شامل میشود.
LOC-REG
2-2-4-1-4. موجوديتهای سياسی
موجودیتهای سیاسی، با زیر گروههای موجود در جدول2-8 طبقهبندی میشوند. موجودیتهایی که در هیچ یک از این زیر مجموعهها نگنجند را برچسبگذاری نخواهیم کرد.
جدول2-8 : زیر گروههای موجودیت سیاسی
توضیحات
مشخصه
قاره179
اشارههای قابل برچسبگذاری از موجودیتهای هفت قاره تشکیل شده اند: شمال آمریکا، جنوب آمریکا، استرالیا، قطب جنوب، اروپا، آسیا و آفریقا
GPE-CONT
ملت180
اشارههای قابل برچسبگذاری از هر ملت را شامل میشود:
GPE-NAT
استان181
اشارههای قابل برچسبگذاری از موجودیتهای هر ایالت، استان یا بخش هر ملت را شامل میشوند.
GPE-STAT
بخش منطقه182
اشارههای قابل برچسبگذاری از موجودیتهای هر کشور، منطقه، حکومت، حکومت یا شبیه بندی از سر ایالت / استان / بخش است. معمولاً چنین اشاراتی در فایلهایی که اخبار گزارش میکنند مشاهده میشود.
GPE-DIS
مرکز جمعیتی183
اشارات قابل برچسبگذاری از موجودیتهای هر موجودیت سیاسی، در زیر سطح کشور یا منطقه قرار داده میشود.
GPE-POP
خوشه سیاسی184
گروههای نامگذاری شدهای که میتوانند به عنوان موجودیت سیاسی عمل کنند، مانند اتحاد جماهیر شوروی.
GPE-CLUS
خاص185
یک مجموعهی شبیه به موجودیتهای سیاسی است که به طور مستقیم به برچسبهای مرسوم پاسخ نمیدهد. موجودیتهای مذکور به عنوان موجودیت سیاسی / خاص در نظر گرفته میشوند این زیر گروه در حال حاضر محدود به فلسطین، دولت خودگردان
