
زیرا تعداد پیوندها بعد از چند مرحله به سرعت افزایش مییابد؛ در نتیجه تعداد زیاد انتخابها برای کاربر میتواند گیج کننده باشد. کاربر بعد از بازدید از دادهای که پیوندی به آن اشاره میکند متوجه شود که آن داده برای مقصود وی ارزش اطلاعاتی چندانی ندارد پس باید بازگردد. برگشتهای احتمالی که میتوانند بسیار زیاد هم باشند یکی از مسائل مهم است. همچنین احتمال از دست دادن دادههای مفید و وجود فشار بر روی خدمات دهندههای دادههای پیوندی نیز میتوانند با این مجموعه اضافه شوند.
1-3 اهداف تحقیق
یک از مسائل اساسی که دادههای پیوندی بزودی با آن مواجه میشود، چگونگی گشت و گذار بهینه در بین حجم بسیار عظیم دادههای قابل دستیابی بر روی وب جهت یافتن موردهای اطلاعاتی و غیر اطلاعاتی مناسب است [3]؛ که در این تحقیق سعی میشود روشی به عنوان راهحل برای این مشکل ارائه شود. هدف از این تحقیق ارائه روشی است در جهت اعمال نوعی فیلترسازی بر روی پیوندهای میان دادههای موجود در دادههای پیوندی، که از طریق آن، با حذف پیوندهایی که ممکن است از نظر اطلاعاتی برای کاربر چندان مفید نباشند و امتیازدهی به پیوندهای باقیمانده بتواند نوعی سیستم پیشنهاد دهنده بر روی دادههای پیوندی و یا وب معمولی را ارائه کند که به کاربر کمک کند تا در زمانی کوتاه اطلاعات کلی در مورد یک موضوع بدست آورد. روش پیشنهادی لازم است تا خصوصیات زیر را داشته باشد:
حذف پیوندهای نا مربوط
پیشنهاد پیوندهای مرتبط
امتیازدهی به پیوندهای پیشنهادی
تجمیع پیوندهای مرتبط به هم در یک گروه
مستقل از دامنه بودن سیستم
1-4 اهمیت و ارزش تحقیق بر روی دادههای پیوندی
دادههای پیوندی به عنوان یک منبع آزاد و ساختیافته اطلاعات قابل پردازش توسط ماشین، افق جدیدی را پیش روی محققین قرار داده است. استفاده از دادههای پیوندی جهت تولید پیشنهادات به دلیل غنای اطلاعاتی آن میتواند بسیار مفید و در عین حال عملی باشد. حجم بسیار زیاد دادههای قابل درک توسط ماشین، وجود دیدگاههای مختلف نسبت به یک مورد اطلاعاتی و یا فیزیکی، وجود تعداد زیادی آنتولوژی در دسترس و پایگاه دادههای تخصصی و بسیاری مزایای دیگر لزوم استفاده از این منبع اطلاعاتی را آشکار میسازد. با این حال بیشتر محققان معتقدند این حجم عظیم دادههای مرتبط بدون پشتیبانی سیستمهایی که بتوانند قسمتهای مفیدتر را استخراج کرده، پردازش نمایند و خروجی شخصیسازی شده به کاربر ارائه کنند، چندان مفید نخواهد بود [4].
یکی از کاربردهایی که برای این تحقیق میتوان در نظر گرفت ایجاد سامانههای پیشنهاد اطلاعات مرتبط با یک موضوع، مثلا یک گروه موسیقی، یا فیلم و یا پیشنهاد اطلاعات مربوط به یک آهنگ، فیلم، یک مکان تاریخی و یا هر موضوع دیگری به کاربر را میتوان نام برد. همچنین از نتایج این تحقیق میتوان در سیستمهای اکتشاف اطلاعات5، تجمیع دادهها6 و ترکیب دادهها استفاده کرد.
1-5 ساختار تحقیق
این رساله، مدلی برای سیستمهای پیشنهاد دهنده اطلاعات موجود در دادههای پیوندی ارائه میدهد. تعریف سیستمهای پیشنهاد دهنده از دید محققان مختلف، تاریخچهی آن، اهمیت و انواع سیستمهای توصیهگر، انواع تکنولوژیهای مورد استفاده و روشهای شخصیسازی اطلاعات در فصل دوم بیان خواهند شد. در فصل سوم روشها و تکنولوژیهای مورد استفاده برای حل مشکلات این سیستمها توضیح داده میشود. این فصل حاوی مفاهیم دادههای پیوندی، RDF است و نظریه غذایابی بهینه است. راهحل پیشنهادی این رساله در فصل چهارم ارائه میشود. در فصل پنجم ارزیابی سیستم پیشنهادی نیز انجام میگیرد. در نهایت، نتیجهگیری و کارهای آینده در فصل ششم بررسی میشوند.
فصل دوم
معرفی سیستمهای پیشنهاد دهنده
2-1 مقدمه
اگرچه، اصطلاح سیستمهای پیشنهاد دهنده، در دوره ظهور نرم افزارهای تجارت الکترونیک7، د ر اواسط دهه 90 رایج شد، فعالیتهای تحقیقاتی در مورد این گونه سیستمها، به خیلی پیشتر از اینها بازمیگردد. در این میان، مدل سازی کاربر و سیستمهای پیشنهاد دهنده عمومی، میتواند به عنوان مهم ترین پایههای تحقیقاتی که به مفهوم شخصی سازی8 کمک کرده اند، در نظر گرفته شوند. ارائه وضعیت کنونی تحقیقات در این زمینه، هدف این فصل است. در این فصل، نگاه دقیق تری به تاریخچه و پیشرفتهای کنونی در زمینه سیستمهای پیشنهاد دهنده عمومی خواهد شد.
2-2 سیستمهای پیشنهاد دهنده
سیستمهای پیشنهاد دهنده، سیستمهایی هستند که پیشنهادهای منحصر به فردی را در مورد گزینههایی که کاربر ممکن است در میان تعداد زیادی از گزینههای دیگر، به آنها علاقمند باشد، به او ارائه میدهند. در فقدان یک تعریف عمومیرایج برای سیستمهای پیشنهاد دهنده در اجتماع پژوهشگران، بسیاری از نویسندگان، تعریف ارائه شده در بالا را دنبالمیکنند [5]. یک تعریف قدیمیتر، که توسط رزنیک9 و وریان10 در 1997 ارائه شد، سیستمهای پیشنهاد دهنده را محدود میکند به برنامههای کاربردی که توصیههای ارائه شده توسط کاربران را جمع آوری میکنند و آنها را به سمت گیرندگان مناسب، هدایت میکنند. همچنین، عبارتهای سیستمهای پیشنهاد دهنده، اغلب برای توصیف الگوریتمها و تکنولوژیهای خاص مثل فیلترسازی همبستگی11 یا فیلترسازی بر اساس محتوا12، به کار برده میشود. در نتیجه در چهارچوب مورد نظر این تحقیق، یک سیستم پیشنهاد دهنده، یک سیستم یا نرم افزار است که پیشنهادهایی را در مورد موردهای گوناگون با استفاده از روشها و تکنیکهای مختلف، تولید مینماید.
2-3 بررسیهای تاریخی
اگرچه، منشا سیستمهای پیشنهاد دهنده، به اواخر دهه 70 بازمیگردد، اما تحقیقات در این زمینه به شکل یک حیطه تحقیقاتی خاص خود، در اواسط دهه 90، ظهور پیدا کرد. گراندی13، یک سیستم پیشنهاد دهنده کتاب بر مبنای کلیشههای کاربر14 ، که توسط [6]، توسعه یافت، میتواند به عنوان اولین سیستم پیشنهاد دهنده در نظر گرفته شود. در سال 1992، گلدبرگ15 و همکارانش، اصطلاح فیلترسازی همبستگی16 را در حین توسعه سیستمیبه نام تاپستری17، ابداع کردند. این سیستم به کاربران کمک میکند تا جریان نامههای دریافتی خود را بر مبنای ویژگیهایی مثل رابطه کاربر–کاربر، اداره کنند. در اواخر دهه 90، آمازون18، یک سیستم پیشنهاد کتاب را به عنوان بوک مچر19، در پورتال تجارت الکترونیک خود راه اندازی کرد. اما با توجه به این که کاربران میبایست برای اینکه قادر باشند پیشنهادی را از سوی سیستم دریافت کنند، بین 20 تا 30 مورد دهند، بوک مچر، هیچ گاه به طور جدی مورد استفاده قرار نگرفت. با این حال فعالیتهای آمازون سیستمهای پیشنهاد دهنده را به محبوبیت رساند. بر اساس این تجربیات، لیندن در [7]، یک سیستم پیشنهاد دهنده جدید را بر اساس ترکیب دو روش فیلترسازی همبستگی و مبتنی بر مورد توسعه دادند که این روش توسط سرور20 نیز در [8] منتشر شده است.
2-4 طبقهبندی
از تعداد زیادی از طبقه بندیهای منتشر شده از الگوریتمهای پیشنهاد دهنده، بهترین آنها توسط [9]، انجام شده است که به عنوان مبنای بحثهای آتی استفاده میگردد.
جدول 2-1: دسته بندی روشها پیشنهاددهی
تکنیک
سابقه
ورودی
فرایند
همبستگی
امتیازدهی کاربران به موردها
امتیازهای داده شده توسط کاربر
یافتن کاربران مشابه
محتوایی
بردار خصیصه موردها
امتیازهای داده شده توسط کاربر
یافتن موردهای مشابه
آماری
اطلاعات آماری کاربران و موردها
اطلاعات آماری کاربران
یافتن کاربران مشابه از طریق روشهای آماری
برپایه سودمندی
بردار خصیصه موردها
تابع سودمندی کاربران که ترجیحاتشان را توصیف میکنند
رتبهبندی موردها با استفاده از تابع سودمندی
برپایه دانش
بردار خصیصه موردها و چگونگی نقش آنها به نیاز کاربران
توصیف نیازهای کاربران
استنتاج و یافتن یک نگاشت بین خصوصیات موردها و نیاز کاربران
2-4-1 روشهای همبستگی
فیلترسازی همبستگی، موفق ترین تکنیکی است که در سیستمهای پیشنهاد دهنده استفاده شده است. این روش شباهتهای بین کاربران را به عنوان مبنایی برای تولید پیشنهادهای جدید در نظر میگیرد. سیستم فیلترسازی همبستگی، از کاربر میخواهد که به موردهای پیشنهاد شده امتیازی را اختصاص دهد. در نتیجه پاسخی به سوال “چه کسی چه چیزی را دوست دارد؟” به دست میآید. هنگامیکه درخواستی برای پیشنهاد میآید، فهرستی از موردهایی که در گذشته توسط کاربرانی مشابه امتیاز بالا به آنها داده شده است، تولید میگردد. شباهت بین کاربران بر اساس رفتار امتیاز دهی آنها به موردهای متداول، محاسبه میگردد.
2-4-1-1 الگوریتمهای مبتنی بر حافظه
الگوریتمهای مبتنی بر حافظه کلیه رتبه بندیهای r_(v,i)، را که توسط کاربرv در موردi داده شده است را میگیرد و پیش بینی p را در مورد مورد ناشناخته j برای کاربر u، تولید مینماید. پیش بینی یک مورد j به صورت جمع وزن داده شده کلیه رایهای داده شده توسط کاربران دیگر در نظر گرفته میشود [9].
(2-1)
P_(u,j)=(r_u ) ̅+ f∑_(v=1)^n▒w(u, v)(r_(v,j)-(r_v ) ̅ )
که در اینجا r_u، امتیاز میانگین برای کاربر u است، f یک فاکتور برای انجام نرمال سازی21 است و w(u,v) وزنی است که شباهت بین دو کاربر u و v را توصیف میکند.
شباهت برداری22 یک روش متداول دیگر برا ی محاسبه شباهتهای بین کاربران است [10]. در این مورد، امتیازات r_(v,i)، برای کاربران به صورت یک بردار در نظر گرفته میگردد که در آن شباهتها بر اساس کسینوس زاویه، محاسبه میگردد، همانطور که در رابطه (2-2) آمده است:
(2-2)
w(u, v)=∑_(i=1)^n▒(r_(u,i) r_(v,i))/(√(∑_(k=1)^o▒r_(u,k)^2 ) √(∑_(l=1)^p▒r_(v,l)^2 ))
در این تعریف از شباهت برداری، هیچ تمایزی بین امتیازبندیهای مثبت و منفی، نشان داده نمیشود. کلیه امتیازبندیهای موجود، برای محاسبه شباهتها، استفاده میگردند و موردهای امتیاز داده نشده ارزش صفر میگیرند. مخرج در رابطه (2-2) به این دلیل استفاده میشود تا وزن اندازه گیریها را نرمال نماید و مطمئن شود که طول یک بردار در محاسبات در نظر گرفته میشود.
تکنیکهای ارائه شده در بالا، همه شباهتهای بین کاربران را بر اساس رتبهدهی آنها به موردهای، مورد محاسبه قرار میدهند. سیستمهای پیشنهاد دهنده مدرن با میلیونها کاربر و مورد این روش از دو حیطه از مشکلات رنج میبرند. اولین مسئله پراکندگی داده و مشکل دوم مسائل مربوط به مقیاس پذیری است.
پراکندگی: مدل کردن کاربران به صورت برداری از رتبه بندیهای آنها در مورد موردها، اغلب منجر به ایجاد محیط جستجوی پراکندهای در بسیاری از سیستمهای تجاری میگردد.
مقیاس پذیری: هزینه یافتن نزدیکترین همسایگیها، تعداد رو به رشد کاربران و موردها را افزایش میدهد.
برای روبرو شدن با این معضلات، [8] یک الگوریتم فیلترسازی همبستگی مبتنی بر مورد را ارائه کردند که در آن شباهت بین دو مورد i و j، بر اساس رتبهدهیهای یک مجموعه U از کاربران که به هر دو مورد امتیاز داده اند، تعیین میشود. به داشتن یک مجموعه U از کاربران و مورد هدف i -موردیکه برای آن باید پیش بینی انجام گیرد- الگوریتم، کلیه موردهای همزمان امتیاز داده شده کاربران u عضو U را میگیرد و شباهتهای آنها با مورد i را محاسبه کند. در مورد همبستگی پیرسون، وزن شباهتهای بین دو مورد i و j، میتواند با توجه به کاربری که به هر دو مورد i وj امتیاز داده است به صورت زیر بدست آید:
(2-3)
w(i,j)= (∑_(u∈U)▒(r_(u,i)-(r_i ) ̅ )(r_(u,j)-(r_j ) ̅ ) )/√(∑_(u∈U)▒〖(r_(u,i)-(r_i ) ̅ )^2 (r_(u,j)-(r_j ) ̅ )^2 〗)
که در اینجا r_i، میانگین امتیاز دهی برای مورد i را نشان میدهد.
با تعریف ماتریسی یه نام ماتریس موردهای کاربر(تصویر 2-3) به عنوان مینای تولید پیشنهادهای، تفاوت بنیادی در محاسبه شباهتها بین روشهای مبتنی بر کاربر و مبتنی بر مورد، این است که تکنیک مبتنی بر کاربر، شباهتها را در بین سطرهای ماتریس بررسی میکند. در حالی که الگوریتمهای مبتنی بر مورد محاسبه را در بین ستونها، انجام میدهند
