پایان نامه رایگان درمورد موتورهای جستجو، نشانی اینترنتی، بازیابی اطلاعات، دسترسی به اطلاعات

دانلود پایان نامه ارشد

خاصیت سوم در استانداردRDF معنا می‌یابد. پس یکی از چالش‌های پیش روی تشخیص خصوصیات مطلوب از خصوصیات نامطلوب رفع ابهام از خصوصیات شبیه به هم است.
4-4-7 خصوصیات زائد101
در مجموعه دادهی گروه بیتلز دو خاصیت قابل توجه دیگر به چشم می‌خورد.dbpedia.org/ontology/writer و dbpedia.org/property/writerکه در هر دوی آنها به ترانه سرایان آهنگ‌های بیتلز اشاره می‌کنند. هر یک از این دو خاصیت را می‌توان به جای دیگری استفاده کرد. باید توجه داشت بهدلیل خصوصیت ذاتی داده‌های پیوندی مبنی بر باز بودن آن و امکان تعریف واژگان و خصوصیات جدید توسط همه افراد و سازمانها، خصوصیات زائد و ابهام آمیز غیر قابل اجتناب می‌باشند. این خاصیتها در فصل پیشین به نام منابع مستعار معرفی شدهاند.
4-4-8 نتیجه بررسی خصوصیات
دستهبندی پیشنهادی بر روی خصوصیات نکاتی را روشن می‌کند که دلایل را برای بازبینی راهکار رتبه‌بندی سه‌گانه تقویت می‌کند. یکم، بیشتر خصوصیات غالب از دستههای اول و دوم هستند پس میتوان بدون در نظر گرفتن میزان تکرارشان، آنها را نادیده گرفت. دوم، برخی از خاصیتهای دسته سوم فارغ از میزان تکرارشان در هنگام پیشنهاد اهمیت دارند. در مورد دومین دلیل در بخش 4-2-1 به شکل دیگری صحبت شد.
آنچه از مطالب گفته شده حاصل می‌شود بطور واضح عنوان می‌کند که بررسی‌های آماری صرف نمی‌توانند- یا به تنهایی نمی‌توانند- معیار و محکی در تشخیص خصوصیات مطلوب از نامطلوب باشند. اما درباره اینکه تعداد تکرار آنها می‌تواند به عنوان معیارهای دیگری مورد توجه قرار گیرد یا خیر در آینده صحبت خواهد شد. مسئله دیگر وجود خصوصیات ابهام برانگیز و اضافی است. که البته بخشی از این مسئله با اعمال یک گروه بندی برروی نتایج نهایی رتبه‌بندی سه‌گانه قابل حل است که در ادامه بحث آن خواهد شد.
4-5 اعمال پیش پردازش بر روی اسناد RDF
در این بخش روش پیشنهادی جهت انجام عملیات پیش پردازش در روش رتبه‌بندی سه‌گانه ارائه می‌شود. روند پیشنهادی مذکور به هرسکردن خصوصیات و امتیازدهی به آنها میپردازد. قسمتی از این پردازش با استفاده از نتایج بدست آمده از قسمت قبل درباره انواع و چگونگی خصوصیات انجام میگیرد. در این حالت خصوصیاتی که با توجه به دسته بندی انجام گرفته فاقد ارزش می‌باشند حذف خواهند شد.استفاده از مجموعه متون وب کامل کننده این روش است. متون وب مورد استفاده در این قسمت با استفاده از موتورهای جستجو بر اساس جستارهای خاصی از اینترنت جمعآوری شده و پس از انجام چند مرحله به عنوان معیار مورد استفاده قرار میگیرند. با استفاده از این معیار روش ارائه شده به ارزشگذاری بر روی خصوصیات اسناد RDF اقدام می‌کند. حاصل این ارزشگذاری مشخص می‌کند که چه خصوصیاتی میبایستی حذف شده و چه خصوصیاتی میبایستی باقی بمانند.
4-5-1 امتیازدهی و حذف خصوصیات
سیستم ارائه شده از دو مرحله برای حذف خصوصیات استفاده می‌کند. در مرحلهی اول سیستم به انبارهی خصوصیات از پیش تعریف شده رجوع می‌کند و خصوصیاتی را که با خصوصیات موجود در انباره منطبق است حذف می‌کند. پس از آن، خصوصیات باقیمانده به بخش حذف پویا انتقال مییابند. در این مرحله سیستم با استفاده از صفحات موجود در اینترنت که توسط موتورهای جستجوگر فهرست شدهاند به امتیازدهی و سپس حذف خصوصیات بدون امتیاز یا با امتیاز پایین –در صورت نیاز- اقدام می‌کند.
4-5-2 انبارهی خصوصیات از پیش تعریف شده
این انباره102 از 2 بخش تشکیل شده است. بخش اول شامل خصوصیات افزوده شده به صورت ایستا است. تعدادی از خصوصیات بسیار عمومی‌ را که از میان دسته اول و دوم خصوصیات توسط افراد خبره انتخاب شدهاند به این انباره افزوده شده است. تعداد نسبتا کم این خصوصیات، فراوانی استفاده از آنها و احتمال بسیار پایین و حتی برابر با صفر ایجاد تغییر در آنها این روش را توجیه می‌کند. نتیجه استفاده از این روش حذف میزان قابل قبولی از خصوصیات با دقت بالا و با کارایی بالا است. در طول این تحقیق 17 خصوصیت که برخی از آنها در جدول 4-4 آمده است به این انباره افزوده شد.
جدول 4-4: برخی از خاصیتهای دسته اول و دوم در انباره ایستا

خاصیت
واژهنامه
1
dbpedia:reference
dbpedia
2
dbpedia:page
dbpedia
3
dbpedia:wikilink
dbpedia
4
dbpedia:reference
dbpedia
5
foaf:img
foaf
6
rdf:type
rdf
7
skos:subject
skos
8
dbpedia:wikiPageTemplate
dbpedia
9
foaf:reference
foaf

خصوصیات موجود در قسمت پویای انباره به صورت خودکار جمعآوری شده و به آن اضافه میگردد. جدای از نحوه افزوده شدن خصوصیات به این بخش از انباره، طرز کار آن با بخش ایستای انباره یکی است. نحوه استفاده از خصوصیات موجود در هر دو بخش انباره کاملا یکسان است و هیچ یک برتری بر دیگری ندارند. چگونگی افزودن خاصیتها به صورت پویا به انباره در بخش 4-6 بحث خواهد شد.
4-5-3 امتیازدهی خصوصیات
راه‌های مختلفی را می‌توان جهت امتیازدهی و تعیین اهمیت خصوصیات مورد بحث بکار برد. یکی از این روش‌ها می‌تواند امتیازدهی ایستا باشد. در این روش می‌توان برای موضوعات مختلف یک حوزه از روش‌های آماری، استفاده از نظرات خبره و یا روش‌های دیگر اهمیت هر یک از خصوصیات را از پیش معین کرد. مزیت این روش می‌تواند در دقت عامل انسانی به عنوان معیار قضاوت در مورد خصوصیات باشد. اما در کنار این نقطه قوت موردی همچون سرعت پایین پردازش خصوصاً در شرایطی که حجم داده‌ها زیاد باشند. نقطه ضعف اساسی آن بحساب میآید. روش‌های پویا می‌تواند شامل موارد متنوعی از جمله یادگیری ماشین، تحلیل روابط معنایی توسط ماشین، روشهای آماری و یا روش‌های دیگری باشد. در این تحقیق با استفاده از مجموعه متون وب و تحلیل آماری آنها به یادگیری اهمیت خصوصیات و امتیازدهی به آنها میپردازد.
استفاده از متون وب که عمدتا بوسیله انسان و یا تحت نظارت مستقیم انسانها ساخته می‌شود میتواند معیار خوبی از اهمیت هر قطعه اطلاعاتی در اختیار قرار دهد. میتوان گفت که اطلاعات موجود در وب معنایی پیش از این به شکلی در وب فعلی موجود است. با تکیه بر دو فرض بالا، میتوان با یک نگاشت مناسب، از وب فعلی اطلاعاتی در مورد اهمیت دادههای موجود در وب معنایی را وارد سیستم کرد و بر اساس آن به امتیاز بندی گزارهها و خصوصیات موجود پرداخت.
4-5-4 وب به عنوان منبع امتیازدهی خصوصیات
وب با داشتن حجم عظیم اطلاعات می‌تواند به عنوان یکی از قابل اعتمادترین، غنی ترین، کامل ترین منابع دانش مورد استفاده قرار گیرد. وجود موتورهای جستجویی چون گوگل، بینگ و یاهو که به شکل خوبی محتویات وب را فهرست کرده اند بازیابی اطلاعات مورد نیاز را با کارایی بالایی امکان پذیر کرده است. از طرفی همهی موتورهای جستجو واسطهایی را عمدتا از طریق وب سرویسها در اختیار میگذارند که دسترسی به اطلاعاتشان را بسیار ساده و کارا کرده است. اما پیش از استفاده از وب در حل این مسئله 2 مورد میبایستی روشن شود.
آیا اهمیت یک موضوع در وب با اهمیت آن در دنیای واقعی همخوانی دارد؟
آیا امکان تشخیص اطلاعات درست از نادرست ممکن است؟ به زبان دیگر آیا میتوان به صحت اطلاعات موجود در یک فضای کنترل نشده و غیرقابل کنترل اعتماد کرد؟
مطالعات مختلف از جمله [34, 35] نشان داده اند که توزیع اطلاعات در وب بسیار شبیه به توزیع آنها در دنیای واقعی است. از سوی دیگر، بهدلیل تولید بیشتر اطلاعات موجود بر روی وب توسط انسان‌ها و یا با نظارت مستقیم آنها معناهای دریافتی از آن کاملاً می‌تواند نشان دهنده قضاوت‌های معنایی انسانها و دید آنها از موضوعات مختلف باشد. همچنین قابل استنتاج است که موارد اطلاعاتی که از نظر انسانها مهمتر و تاثیرگذارتر است بیشتر در وب تکرار شده است. در جدول 4-5 نتیجه 3 جستجو آورده شده است، که هر کدام از 10 صفحه اول نتایج گوگل استخراج شده است. لازم به ذکر است که صفحاتی که تخصصی به این مطالب پرداخته بودند نادیده گرفته شدهاند. زیرا نتایجی که از سایتی مانند سایت اند ساند103 و پایگاه IMDB استخراج میشوند بهدلیل پرداخت تخصصی به مقوله سینما موارد بسیاری را در مورد یک فیلم پوشش میدهند که با فرض اولیه در مورد اهمیت عام یک مورد اطلاعاتی در تناقض بود.

جدول 4-5: نتایج جستجو در گوگل برای 3 موضوع عمومی نتایج 10 صفحه اول

موسیقی
فیلم و سینما
خودرو
1
نوع موسیقی(6)
بازیگران(9)
قیمت(11)
2
خوانندگان(6)
کارگردان(7)
نوع خودرو(11)
3
نوازندگان(3)
نوع فیلم(6)
قدرت موتور(7)
4
ترانهسرا(1)
تدوینگر(2)
نوع سیستم جرقه زنی(0)
5
تنظیم کننده(1)
نورپرداز(0)
تکنولوژی ECU(0)
بهدلیل حجم زیاد، اطلاعات موجود حتی آنجا که دانش ارائه شده در مواردی غلط باشد اما در نهایت برآیند آنها درست خواهد بود. برای نمونه ممکن است در جایی تشکیل آب از اکسیژن و هلیوم به عنوان یک حقیقت مطرح شده باشد، اما پر واضح است که تعداد تکرار این گزاره در برابر گزاره آب از اکسیژن و هیدروژن تشکیل شده است قابل چشم پوشی است. در 4-8 یک نمونه از این مورد آورده شده است.

شکل 4-9 (الف): نتایج یک گزاره غلط

شکل 4-9 (ب): نتایج یک گزاره درست
4-5-5 امتیازدهی پویا
بعد از حذف خصوصیات با استفاده از انباره خصوصیات نوبت به وزندهی خصوصیات و حذف خصوصیات نالازم میرسد. در این مرحله به ازای هر دسته RDF مربوط به یک موضوع جستاری ساخته شده و به موتور جستجو فرستاده می‌شود. سپس نتایج موتور جستجو پردازش شده و برحسب آن نتایج امتیاز بندی خصوصیات صورت میگیرد.
4-5-6 ارسال جستار به گوگل
در اولین گام می‌بایست جستاری که نشان دهنده موضوع RDF جاری باشد برای موتور جستجوی گوگل فرستاد با توجه به ساختار داده‌های پیوندی و RDF، از بین کاندیداهای موجود خصوصیت rdf:about انتخاب شده است. زیرا مشخصاً موضوعی که RDF مذکور به آن اشاره می‌کند را نشان می‌دهد، جزء خصوصیات تعریف شده در واژهنامه RDF است پس در تمامی‌داده‌های پیوندی با معنا است. مقادیر این خصوصیات می‌توانند به دو شکل تعریف شده باشند. مقادیر ثابت متشکل از تعدادی کاراکتر و عدد، آدرس اینترنتی که خود به یک منبع RDF دیگر اشاره می‌کند. در صورتی که مقدار خصوصیت about از نوع رشته ای باشد این مقدار مستقیماً به عنوان قسمتی از جستار برای جستجو ارسال می‌شود. اما مقادیر از نوع نشانی اینترنتی ابتدا تجزیه می‌شوند و آخرین قسمت از سمت چپ به مرحله جستجو فرستاده می‌شود.
4-5-7 آماده سازی کلیدواژههای جستجو
به صورت عرفی مقادیر about به دو شکل نگارش مجارستانی104 و یا کملکیس105 که در استانداردهای کدنویسی زبان‌های کامپیوتری رایج هستند نوشته می‌شوند. تمامی‌RDF‌هایی که توسط ماشین تولید می‌شوند از یکی از این دو روش استفاده می‌کند در روش مجارستانی فضاهای خالی میان دو کلمه با زیرخط جایگزین می‌شوند و در روش کملکیس کلمات به هم می‌چسبند اما حروف اول آنها بزرگ نوشته می‌شود. اما RDF‌هایی که دستی تولید می‌شوند می‌توانند از این قاعده مستثنی باشند. در صورتی که رشته‌ها به صورت مجاری یا کمل کیس باشند کلمات به راحتی از هم جدا می‌شوند. در مواردی که کلمات خارج از این دو قاعده به یکدیگر متصل شده باشند با استفاده از سرویس تصحیح کلمات گوگل این کلمات از یکدیگر جدا می‌شوند.
4-5-8 رفع ابهام از جستار
برخی از موضوعات ممکن است تشابه اسمی ‌داشته باشند. این تشابه ابهام آمیز سبب برگرداندن نتایج بیربط به موضوع اصلی می‌شوند. برای مثال کلمه فالکون نام یک پرنده شکاری، یک فیلم، یک هواپیما ، یک مدل اتومبیل، را تداعی می‌کند. موتورهای جستجو تمامی‌موارد بالا را به عنوان نتیجه باز می‌گردانند. برای جلوگیری از این مسئله علاوه بر موضوع RDF یا همان خصوصیت about، خصوصیت rdf:type و یا skos:subject نیز که نشان دهندهی کلاس موضوع RDF است، برای موتور جستجو ارسال می‌شود. برای مثال واژه فالکون انگلیسی به عنوان یک پرنده به شکل +Falcon +bird و به عنوان یک هواپیما به صورت +Falcon +Airplane برای گوگل ارسال می‌شوند. مراحل گفته شده در 4-4-7 بر روی مقادیر rdf:type

پایان نامه
Previous Entries پایان نامه رایگان درمورد هستی شناسی، رتبه بندی، ارزش اطلاعاتی، رویداد ورزشی Next Entries منبع تحقیق با موضوع قانونمدنی، شرایط صحت، قانون مدنی، ضمن عقد