پایان نامه رایگان درمورد هستی شناسی، رتبه بندی، ارزش اطلاعاتی، رویداد ورزشی

دانلود پایان نامه ارشد

استاندارد بسامد تکرار هر خصوصیت را محاسبه کرده و سپس با مقایسه با یک حد آستانه در مورد وزن و ارزش اطلاعاتی آن خصوصیت تصمیم گیری می‌کند. در صورتی که میزان این تکرار از حد آستانه تعیین شده بالاتر باشد آن را حذف می‌کند. مهمترین امتیاز این روش کارایی بالای آن است. و در صورتی که مقدار آستانه با دقت انتخاب شده باشد، دقت خروجی نیز قابل قبول است. اما انتخاب مقدار مناسب این حد آستانه خود چالش برانگیز است. اگر مقدار آستانه کمتر از مقدار بهینه انتخاب گردد خصوصیات غیر مفید نیز انتخاب میشوند. از سوی دیگر مقادیر بالاتر از نقطه بهینه نیز شانس انتخاب برخی از خصوصیات و در پی آن منابع RDF مفید را از بین میبرد.
جدول 4-1 از روی RDFهای مربوط به 100 گروه موسیقی که به شکل تصادفی از dbpedia.org استخراج شدهاند ساخته شده است. در این جدول 20 خصوصیتی را که بیشترین تکرار را داشته اند نمایش داده شده است. همانطور که دیده میشود طیف متنوعی از خصوصیات در این جدول وجود دارد، که بزودی بطور جامع درباره آن صحبت خواهد شد.
فرض شود قرار باشد با استفاده از روشی که رتبه‌بندی سه‌گانه در مرحله پیش پردازش استفاده می‌کند خصوصیات مورد نظر پالایش شوند. سئوال اساسی این است که چه حد آستانهای مطلوب است تا بیشترین میزان از خصوصیات نامطلوب حذف شوند در عین حال خصوصیات مناسب از دست نروند؟ با مراجعه به جدول پیداست که سه خاصیت اول ربطی به حوزه موسیقی ندارند. اولین خصوصیت مربوط به حوزه موسیقی به نام dbpedia:genre با تعداد تکرار 200 مرتبه و درصد تکرار %98/9 در رده چهارم جای گرفته است. دومین خصوصیت مربوط به این حوزه به نام dbpedia:currentMembers با تعداد تکرار 36 مرتبه و درصد تکرار %8/1 در رده چهاردهم جای گرفته است. در این بین خصوصیات متفاوتی جای دارند که مشخصا مربوط به دامنه موسیقی نمیشوند.
جدول 4-1: 20 خاصیت مربوط به گروههای موسیقی از dbpedia.org
ردیف
خصوصیت
تعداد تکرار
درصد تکرار
1
skos:subject
407
30/20
2
rdf:type
218
87/10
3
dbpedia:reference
210
47/10
4
dbpedia:genre
200
98/9
5
dbpedia:page
195
73/9
6
dbpedia:wikilink
141
03/7
7
dbpedia:hasPhotoCollection
90
49/4
8
dbpedia:origin
87
34/4
9
dbpedia:wikiPageUsesTemplate
82
09/4
10
dbpedia:label
69
44/3
11
dbpedia:wordnet_type
46
29/2
12
dbpedia:associatedActs
45
24/2
13
foaf:homepage
41
04/2
14
dbpedia:currentMembers
36
80/1
15
dbpedia:url
27
35/1
16
dbpedia:pastMembers
26
30/1
17
dbpedia:occupation
26
30/1
جدول 4-1: 20 خاصیت مربوط به گروههای موسیقی از dbpedia.org (ادامه)
ردیف
خصوصیت
تعداد تکرار
درصد تکرار
18
owl:sameAs
22
10/1
19
foaf:depiction
19
95/0
20
foaf:img
18
90/0
مجموع
2005

≈ 100 %
به روشنی پیداست که مشخص کردن هر مقدار حد آستانه در مثال بالا یا منتج به از دست رفتن اطلاعات مهم شده و یا باعث انتقال اطلاعات غیر ضروری به مرحلهی تحلیل می‌شود. جدول 4-2 وضعیت جدول 4-1 را پس از اعمال یک حد آستانه برابر با 10% نشان می‌دهد. همانطور که پیداست 2 خاصیت احتمالا مطلوب حذف خواهند شد در عوض 3 خاصیت نامطلوب باقی می‌ماند. و اگر آستانه به مقداری کمتر از 98/9% کاهش یابد خاصیت مهم و تاثیر گذار dbpedia:genre حذف خواهد شد. عبارت “وضعیت مطلوبیت” در این جدول که حاوی مقادیر “مطلوب” و “نامطلوب” است وضعیت ارتباط هر خاصیت را به حوزه موسیقی نشان میدهد.
جدول 4-2: بررسی مطلوبیت خاصیتها مربوط به گروههای موسیقی از جدول 4-1

خاصیت
%
وضعیت مطلوبیت
حذف شده
1
skos:subject
30/20
نامطلوب
x
2
rdf:type
87/10
نامطلوب
x
3
dbpedia:reference
47/10
نامطلوب
x
حد آستانه 10%
4
dbpedia:genre
98/9
مطلوب

5
dbpedia:page
73/9
نامطلوب

6
dbpedia:wikilink
03/7
نامطلوب

7
dbpedia:hasPhotoCollection
49/4
نامطلوب

4-3-3 عملیات وزندهی
در وزندهی نیز که در بخش 4-1-3-2 در مورد آن صحبت شد، آنچه در مورد عملیات حذف گفته شد با شدت کمتری صادق است. اما چون حذفی صورت نمیگیرد، تنها ممکن است اهمیتی که برای خصوصیات در نظر گرفته می‌شود با میزان مطلوبتر آنها فاصله داشته باشد. زیرا وزندهی نیز فقط بر اساس میزان تکرار خصوصیات انجام میگیرد.
4-4 دستهبندی خصوصیات بر اساس دامنه
همانگونه که در بخش 1 فصل سوم عنوان شد منابع RDF با استفاده از انواع خاصی از منابع دیگر به نام «خصوصیت» به یکدیگر متصل می‌باشند. این خصوصیات علاوه بر ایجاد پیوند بین منابع، نوع رابطه بین این منابع RDF را به شکل معنایی توضیح می‌دهند. هر یک از منابع موجود در داده‌های پیوندی نیز از مجموعهای از این خصوصیات برای متصل شدن به یکدیگر سود میبرند. در این تحقیق خصوصیات هر منبع به 3 دسته خصوصیات تعریف شده در استاندارد RDF، خصوصیات تعریف شده درسطح منبع داده و خصوصیات تعریف شده در یک حوزه خاص تقسیم شدهاند. هر یک از عناصر موجود در این سه دسته در واژه نامه‌ها و هستی شناسی‌های متناظر با حوزه استفاده آنها تعریف میشوند.
4-4-1 خصوصیات تعریف شده در استاندارد RDF
این نوع از خصوصیات به صورت پیش فرض در هنگام تعریف و استانداردسازی قالب RDF تعریف شدهاند و جزئی از آن به حساب می‌آیند. این خصوصیات فقط و فقط در توصیف RDF کاربرد دارند و تغییر در نحوه نگارش، معنایی و یا استفاده در حوزه‌های دیگر مجاز است. به عنوان نمونه‌هایی از این گونه از خصوصیات می‌توان به rdf:type و یا rdf:resource اشاره کرد. برای مثال عبارت rdf:resource برای ایجاد پیوند به دیگر RDF‌های موجود که می‌توانند شامل بخشی از اطلاعات و داده‌ها و یا توصیفی درباره خصوصیتی از RDF مبداء باشند استفاده می‌شود. در شکل 4-5 خصوصیت rdf:resource به RDFای که خاصیت based-near را توضیح می‌دهد پیوند دارد. در مثال بعدی از خاصیت rdf:type برای مشخص کردن نوع و یا طبقهبندی شی یا مفهومی‌که منبع RDF در مورد آن توصیف یا اطلاعاتی ارائه می‌کند استفاده می‌شود. در نمونه شکل 4-6 خاصیت rdf:type مشخص می‌کند که این RDF درباره موسیقی و هنرمندان موسیقی است.
شکل 4-5: یک RDF ساده با خاصیت resource

شکل 4-6: یک RDF ساده با خاصیت type
4-4-2 خصوصیات تعریف شده درسطح منبع داده95
هر یک از منابع دادهای که در بستر داده‌های پیوندی وجود دارند و قسمتی از آن را تشکیل می‌دهند خصوصیات دادهای و توصیفگر استاندارد و مشخصی را برای خود تعریف می‌کنند. این خصوصیات می‌توانند در حوزهی همان منبع داده معتبر باشند و یا در منابع دادهای دیگر نیز اعتبار داشته باشند. برای نمونه dbpedia:wikilink یا dbpedia:wordnet می‌توانند در این قسمت قرار بگیرند. خاصیت dbpedia:wikilink ساختار موجود میان صفحات وب ویکی‌پدیا را که به RDF تبدیل شدهاند بازسازی می‌کند. در مورد این خاصیت در بخش 4-1-3 توضیحاتی ارائه شد. dbpedia:wordnet_type به یک مجموعه معانی96 در پایگاه داده واژگان وردنت 97اشاره می‌کند.

شکل 4-7: یک RDF ساده با خاصیت wordnet_type
در مثال بالا RDF نشان داده شده دربارهی یک خواننده به نام مایکل جکسون98 است. خاصیت dbpedia:wordnet_type به مجموعه معانی در وردنت اشاره می‌کند، که مترادف با کلمه نوازنده یا هنرمند موسیقی می‌باشند.
4-4-3 خصوصیات تعریفی یک حوزه خاص
این خصوصیات فقط در حوزه معنایی خاص یک کلاس از اطلاعات تعریف شده و معتبر می‌باشند. برای مثال خصوصیات مربوط به موسیقی در حوزه ورزش یا اطلاعات جغرافیایی کاملاً بی معنا می‌باشند. در مثال زیر خاصیت music:genre نوع موسیقی را نشان می‌دهد که می‌تواند مقادیری مانند پاپ، جاز، کلاسیک را داشته باشد. همچنین music:decade نشان دهنده ی دههای است که این موسیقی در آن ساخته شده است.

شکل 4-8: یک RDF توصیفگر یک گروه موسیقی
نکتهای که درباره این دسته از خصوصیات باید در نظر گرفته شود، خصوصیات مشترک است. خاصیتی که نشان دهنده تاریخ باشد میتواند در هر زمینهای وجود داشته باشد. سال تولید یک فیلم، به بازار آمدن یک آلبوم موسیقی و یا یک رویداد ورزشی. برای سادهتر شدن مسئله این خصوصیات به صورت اختصاصی در هر حوزه بررسی میشوند. در واقع این خصوصیات ممکن است در دسته دوم نیز جای بگیرند. مثلا خاصیت dbpp:year که در واژهنامه dbpedia.org تعریف شده، در بیشتر حوزهها بکار میرود، اما زمانی که در حوزه موسیقی مورد استفاده قرار میگیرند متعلق به این حوزه و در سینما به دامنه سینما متعلق میشوند.
4-4-4 مثالی از دسته بندی خصوصیات
با بازگشت به جدول 4-1، دسته بندی که در این بخش ارائه شد به صورت کاملاً مشخص و روشن بر روی این 20 خصوصیت قابل تشخیص است. برای مثال خاصیت rdf:type در گروه اول، یعنی خاصیت استاندارد RDF قرار دارد. dbpedia:wikiPageUsesTemplate در گروه دوم جای می‌گیرد که در حوزه دیبی‌پدیا قابل تعریف است. و خاصیتی مانند dbpedia:genre کاملاً در هستیشناسی و واژهنامه مربوط به موسیقی قابل تعریف و معنایابی است. این خاصیت در دسته سوم قرار می‌گیرد.
جدول 4-3: دسته بندی خاصیتها مربوط به گروههای موسیقی از جدول 4-1

دسته 1: حوزه RDF
دسته 2: استاندارد مجموعه دادهها
دسته 3: دامنه دانش
1
rdf:type
skos:subject
dbpedia:genre
2

dbpedia:reference
dbpedia:label
3

dbpedia:page
dbpedia:pastMembers
4

dbpedia:wikilink
dbpedia:currentMembers
5

dbpedia:hasPhotoCollection
dbpedia:origin
6

dbpedia:wikiPageUsesTemplate
dbpedia:associatedActs
7

dbpedia:wordnet_type
dbpedia:occupation
8

dbpedia:url
foaf:homepage
9

owl:sameAs

10

foaf:depiction

11

foaf:img

4-4-5 رابطه تکرار خصوصیات با اهمیت آنها در موضوع
جدولهای شماره 4-1 و 4-3 نکات جالبی را درباره رابطه تکرار یک خصوصیت با اهمیت آن در موضوعات و زمینههای اطلاعاتی مختلف نشان می‌دهد. سه خاصیت اول، به ترتیبskos:subject ، rdf:type و dbpedia:reference خصوصیاتی هستند که در دسته‌های اول و دوم تقسیم بندی ارائه شده قرار می‌گیرند. خاصیت اول که موضوع این RDF‌ها را نشان می‌دهد. که به صورت music_band در skos تعریف شده است. خاصیت دوم که rdf:type است در استاندارد RDF تعریف شده و سومین خاصیت که مربوط به واژگان دیبی‌پدیا است صفحه وب معادل این RDF در ویکی‌پدیا را نشان می‌دهد. اولین خاصیت تعریف شده در حوزه موسیقی genre است که در رتبه بندی کلی مکان چهارم را به خود اختصاص داده است. همانطور که نمایان است تعداد تکرار خاصیت genre حدود 1% کمتر از خاصیت dbpedia:reference است که در رتبه سوم قرار گرفته است و این نسبت در مقایسه با خاصیت اول رتبه بندی یعنی skos:subject به چیزی کمتر از 50% تنزل می‌یابد. توجیه این نتایج به میزان عمومیت خاصیت‌های اول تا سوم یا بطور کلی عمومیت دو دسته اول به دسته سوم باز می‌گردد.
نکته غافلگیر کننده در بررسی خصوصیات رده‌های چهارم تا نهم خود را نمایان می‌سازد. همانطور که گفته شده خاصیت dbpedia:genre یک تعریف در هستی شناسی موسیقی است. در رده نهم خاصیت dbpedia:label قرار گرفته است. این خاصیت نیز به دایره واژگان موسیقی باز می‌گردد که نشان دهنده شرکت تهیه کننده موسیقی است. اما در این بین چهار خاصیت وجود دارند که به موسیقی ارتباطی ندارند پس فرض اینکه واژگان و خصوصیت‌های مربوط به موسیقی از نظر تکرار جایگاه‌ها بالاتر را بخود اختصاص دهند بی اساس به نظر می‌رسد.
4-4-6 خصوصیات ابهام آمیز99
اگر به RDF توصیف گر گروه بیتلز100 رجوع شود 3 خاصیت dbprp:lable و dbpop:lable و rdf:lable را دیده خواهد شد که هر سه به label ختم شده اند. دو خاصیت اول نشان دهنده شرکت‌های تهیه کننده آلبوم‌های این گروه می‌باشند اما خاصیت سوم بر چسب متنی یک RDF است. در مورد اول در هستی شناسی موسیقی معنای تعریف شده خاص خود را دارند اما

پایان نامه
Previous Entries پایان نامه رایگان درمورد رژیم غذایی، ساده سازی، منابع غذایی، تعقیب و گریز Next Entries پایان نامه رایگان درمورد موتورهای جستجو، نشانی اینترنتی، بازیابی اطلاعات، دسترسی به اطلاعات