پایان نامه رایگان درمورد تجارت الکترونیک، رتبه بندی، همبستگی پیرسون، ارزش اطلاعاتی

دانلود پایان نامه ارشد

زیرا تعداد پیوندها بعد از چند مرحله به سرعت افزایش مییابد؛ در نتیجه تعداد زیاد انتخابها برای کاربر می‌تواند گیج کننده باشد. کاربر بعد از بازدید از دادهای که پیوندی به آن اشاره می‌کند متوجه شود که آن داده برای مقصود وی ارزش اطلاعاتی چندانی ندارد پس باید بازگردد. برگشتهای احتمالی که میتوانند بسیار زیاد هم باشند یکی از مسائل مهم است. همچنین احتمال از دست دادن دادههای مفید و وجود فشار بر روی خدمات دهندههای داده‌های پیوندی نیز میتوانند با این مجموعه اضافه شوند.
1-3 اهداف تحقیق
یک از مسائل اساسی که داده‌های پیوندی بزودی با آن مواجه می‌شود، چگونگی گشت و گذار بهینه در بین حجم بسیار عظیم دادههای قابل دستیابی بر روی وب جهت یافتن موردهای اطلاعاتی و غیر اطلاعاتی مناسب است [3]؛ که در این تحقیق سعی می‌شود روشی به عنوان راهحل برای این مشکل ارائه شود. هدف از این تحقیق ارائه روشی است در جهت اعمال نوعی فیلترسازی بر روی پیوندهای میان دادههای موجود در داده‌های پیوندی، که از طریق آن، با حذف پیوندهایی که ممکن است از نظر اطلاعاتی برای کاربر چندان مفید نباشند و امتیازدهی به پیوندهای باقیمانده بتواند نوعی سیستم پیشنهاد دهنده بر روی داده‌های پیوندی و یا وب معمولی را ارائه کند که به کاربر کمک کند تا در زمانی کوتاه اطلاعات کلی در مورد یک موضوع بدست آورد. روش پیشنهادی لازم است تا خصوصیات زیر را داشته باشد:
حذف پیوندهای نا مربوط
پیشنهاد پیوندهای مرتبط
امتیازدهی به پیوندهای پیشنهادی
تجمیع پیوندهای مرتبط به هم در یک گروه
مستقل از دامنه بودن سیستم
1-4 اهمیت و ارزش تحقیق بر روی داده‌های پیوندی
داده‌های پیوندی به عنوان یک منبع آزاد و ساختیافته اطلاعات قابل پردازش توسط ماشین، افق جدیدی را پیش روی محققین قرار داده است. استفاده از داده‌های پیوندی جهت تولید پیشنهادات به دلیل غنای اطلاعاتی آن میتواند بسیار مفید و در عین حال عملی باشد. حجم بسیار زیاد دادههای قابل درک توسط ماشین، وجود دیدگاههای مختلف نسبت به یک مورد اطلاعاتی و یا فیزیکی، وجود تعداد زیادی آنتولوژی در دسترس و پایگاه دادههای تخصصی و بسیاری مزایای دیگر لزوم استفاده از این منبع اطلاعاتی را آشکار میسازد. با این حال بیشتر محققان معتقدند این حجم عظیم دادههای مرتبط بدون پشتیبانی سیستم‌هایی که بتوانند قسمتهای مفیدتر را استخراج کرده، پردازش نمایند و خروجی شخصیسازی شده به کاربر ارائه کنند، چندان مفید نخواهد بود [4].
یکی از کاربردهایی که برای این تحقیق میتوان در نظر گرفت ایجاد سامانههای پیشنهاد اطلاعات مرتبط با یک موضوع، مثلا یک گروه موسیقی، یا فیلم و یا پیشنهاد اطلاعات مربوط به یک آهنگ، فیلم، یک مکان تاریخی و یا هر موضوع دیگری به کاربر را میتوان نام برد. همچنین از نتایج این تحقیق میتوان در سیستم‌های اکتشاف اطلاعات5، تجمیع دادهها6 و ترکیب دادهها استفاده کرد.
1-5 ساختار تحقیق
این رساله، مدلی برای سیستم‌های پیشنهاد دهنده اطلاعات موجود در داده‌های پیوندی ارائه می‌دهد. تعریف سیستم‌های پیشنهاد دهنده از دید محققان مختلف، تاریخچهی آن، اهمیت و انواع سیستم‌های توصیهگر، انواع تکنولوژیهای مورد استفاده و روشهای شخصیسازی اطلاعات در فصل دوم بیان خواهند شد. در فصل سوم روشها و تکنولوژیهای مورد استفاده برای حل مشکلات این سیستمها توضیح داده می‌شود. این فصل حاوی مفاهیم دادههای پیوندی، RDF است و نظریه غذایابی بهینه است. راهحل پیشنهادی این رساله در فصل چهارم ارائه می‌شود. در فصل پنجم ارزیابی سیستم پیشنهادی نیز انجام میگیرد. در نهایت، نتیجهگیری و کارهای آینده در فصل ششم بررسی میشوند.

فصل دوم
معرفی سیستم‌های پیشنهاد دهنده

2-1 مقدمه
اگرچه، اصطلاح سیستم‌های پیشنهاد دهنده، در دوره ظهور نرم افزارهای تجارت الکترونیک7، د ر اواسط دهه 90 رایج شد، فعالیت‌های تحقیقاتی در مورد این گونه سیستمها، به خیلی پیشتر از اینها بازمی‌گردد. در این میان، مدل سازی کاربر و سیستم‌های پیشنهاد دهنده عمومی، می‌تواند به عنوان مهم ترین پایه‌های تحقیقاتی که به مفهوم شخصی سازی8 کمک کرده اند، در نظر گرفته شوند. ارائه وضعیت کنونی تحقیقات در این زمینه، هدف این فصل است. در این فصل، نگاه دقیق تری به تاریخچه و پیشرفت‌های کنونی در زمینه سیستم‌های پیشنهاد دهنده عمومی خواهد شد.

2-2 سیستم‌های پیشنهاد دهنده
سیستم‌های پیشنهاد دهنده، سیستم‌هایی هستند که پیشنهادهای منحصر به فردی را در مورد گزینه‌هایی که کاربر ممکن است در میان تعداد زیادی از گزینه‌های دیگر، به آنها علاقمند باشد، به او ارائه ‌میدهند. در فقدان یک تعریف عمومی‌رایج برای سیستم‌های پیشنهاد دهنده در اجتماع پژوهشگران، بسیاری از نویسندگان، تعریف ارائه شده در بالا را دنبال‌میکنند [5]. یک تعریف قدیمی‌تر، که توسط رزنیک9 و وریان10 در 1997 ارائه شد، سیستم‌های پیشنهاد دهنده را محدود می‌کند به برنامه‌های کاربردی که توصیه‌های ارائه شده توسط کاربران را جمع آوری می‌کنند و آنها را به سمت گیرندگان مناسب، هدایت می‌کنند. همچنین، عبارت‌های سیستم‌های پیشنهاد دهنده، اغلب برای توصیف الگوریتم‌ها و تکنولوژی‌های خاص مثل فیلترسازی همبستگی11 یا فیلترسازی بر اساس محتوا12، به کار برده می‌شود. در نتیجه در چهارچوب مورد نظر این تحقیق، یک سیستم پیشنهاد دهنده، یک سیستم یا نرم افزار است که پیشنهادهایی را در مورد مورد‌های گوناگون با استفاده از روش‌ها و تکنیک‌های مختلف، تولید می‌نماید.
2-3 بررسی‌های تاریخی
اگرچه، منشا سیستم‌های پیشنهاد دهنده، به اواخر دهه 70 بازمی‌گردد، اما تحقیقات در این زمینه به شکل یک حیطه تحقیقاتی خاص خود، در اواسط دهه 90، ظهور پیدا کرد. گراندی13، یک سیستم پیشنهاد دهنده کتاب بر مبنای کلیشه‌های کاربر14 ، که توسط [6]، توسعه یافت، می‌تواند به عنوان اولین سیستم پیشنهاد دهنده در نظر گرفته شود. در سال 1992، گلدبرگ15 و همکارانش، اصطلاح فیلترسازی همبستگی16 را در حین توسعه سیستمی‌به نام تاپستری17، ابداع کردند. این سیستم به کاربران کمک می‌کند تا جریان نامه‌های دریافتی خود را بر مبنای ویژگی‌هایی مثل رابطه کاربر–کاربر، اداره کنند. در اواخر دهه 90، آمازون18، یک سیستم پیشنهاد کتاب را به عنوان بوک مچر19، در پورتال تجارت الکترونیک خود راه اندازی کرد. اما با توجه به این که کاربران می‌بایست برای اینکه قادر باشند پیشنهادی را از سوی سیستم دریافت کنند، بین 20 تا 30 مورد دهند، بوک مچر، هیچ گاه به طور جدی مورد استفاده قرار نگرفت. با این حال فعالیت‌های آمازون سیستم‌های پیشنهاد دهنده را به محبوبیت رساند. بر اساس این تجربیات، لیندن در [7]، یک سیستم پیشنهاد دهنده جدید را بر اساس ترکیب دو روش فیلترسازی همبستگی و مبتنی بر مورد توسعه دادند که این روش توسط سرور20 نیز در [8] منتشر شده است.
2-4 طبقهبندی
از تعداد زیادی از طبقه بندی‌های منتشر شده از الگوریتم‌های پیشنهاد دهنده، بهترین آنها توسط [9]، انجام شده است که به عنوان مبنای بحث‌های آتی استفاده می‌گردد.
جدول 2-1: دسته بندی روشها پیشنهاددهی

تکنیک
سابقه
ورودی
فرایند
همبستگی
امتیازدهی کاربران به مورد‌ها
امتیازهای داده شده توسط کاربر
یافتن کاربران مشابه
محتوایی
بردار خصیصه مورد‌ها
امتیازهای داده شده توسط کاربر
یافتن مورد‌های مشابه
آماری
اطلاعات آماری کاربران و مورد‌ها
اطلاعات آماری کاربران
یافتن کاربران مشابه از طریق روش‌های آماری
برپایه سودمندی
بردار خصیصه مورد‌ها
تابع سودمندی کاربران که ترجیحاتشان را توصیف میکنند
رتبهبندی مورد‌ها با استفاده از تابع سودمندی
برپایه دانش
بردار خصیصه مورد‌ها و چگونگی نقش آنها به نیاز کاربران
توصیف نیازهای کاربران
استنتاج و یافتن یک نگاشت بین خصوصیات مورد‌ها و نیاز کاربران
2-4-1 روش‌های همبستگی
فیلترسازی همبستگی، موفق ترین تکنیکی است که در سیستم‌های پیشنهاد دهنده استفاده شده است. این روش شباهت‌های بین کاربران را به عنوان مبنایی برای تولید پیشنهادهای جدید در نظر می‌گیرد. سیستم فیلترسازی همبستگی، از کاربر می‌خواهد که به مورد‌های پیشنهاد شده امتیازی را اختصاص دهد. در نتیجه پاسخی به سوال “چه کسی چه چیزی را دوست دارد؟” به دست می‌آید. هنگامی‌که درخواستی برای پیشنهاد می‌آید، فهرستی از مورد‌هایی که در گذشته توسط کاربرانی مشابه امتیاز بالا به آنها داده شده است، تولید می‌گردد. شباهت بین کاربران بر اساس رفتار امتیاز دهی آنها به مورد‌های متداول، محاسبه می‌گردد.
2-4-1-1 الگوریتم‌های مبتنی بر حافظه
الگوریتم‌های مبتنی بر حافظه کلیه رتبه بندیهای r_(v,i)، را که توسط کاربرv در موردi داده شده است را می‌گیرد و پیش بینی p را در مورد مورد ناشناخته j برای کاربر u، تولید می‌نماید. پیش بینی یک مورد j به صورت جمع وزن داده شده کلیه رای‌های داده شده توسط کاربران دیگر در نظر گرفته می‌شود [9].
(2-1)
P_(u,j)=(r_u ) ̅+ f∑_(v=1)^n▒w(u, v)(r_(v,j)-(r_v ) ̅ )
که در اینجا r_u، امتیاز میانگین برای کاربر u است، f یک فاکتور برای انجام نرمال سازی21 است و w(u,v) وزنی است که شباهت بین دو کاربر u و v را توصیف می‌کند.
شباهت برداری22 یک روش متداول دیگر برا ی محاسبه شباهت‌های بین کاربران است [10]. در این مورد، امتیازات r_(v,i)، برای کاربران به صورت یک بردار در نظر گرفته می‌گردد که در آن شباهت‌ها بر اساس کسینوس زاویه، محاسبه می‌گردد، همانطور که در رابطه (2-2) آمده است:
(2-2)
w(u, v)=∑_(i=1)^n▒(r_(u,i) r_(v,i))/(√(∑_(k=1)^o▒r_(u,k)^2 ) √(∑_(l=1)^p▒r_(v,l)^2 ))
در این تعریف از شباهت برداری، هیچ تمایزی بین امتیازبندی‌های مثبت و منفی، نشان داده نمی‌شود. کلیه امتیازبندی‌های موجود، بر‌ای محاسبه شباهت‌ها، استفاده می‌گردند و مورد‌های امتیاز داده نشده ارزش صفر می‌گیرند. مخرج در رابطه (2-2) به این دلیل استفاده می‌شود تا وزن اندازه گیری‌ها را نرمال نماید و مطمئن شود که طول یک بردار در محاسبات در نظر گرفته می‌شود.
تکنیک‌های ارائه شده در بالا، همه شباهت‌های بین کاربران را بر اساس رتبه‌دهی آنها به مورد‌های، مورد محاسبه قرار میدهند. سیستم‌های پیشنهاد دهنده مدرن با میلیون‌ها کاربر و مورد این روش از دو حیطه از مشکلات رنج میبرند. اولین مسئله پراکندگی داده و مشکل دوم مسائل مربوط به مقیاس پذیری است.
پراکندگی: مدل کردن کاربران به صورت برداری از رتبه بندی‌های آنها در مورد مورد‌ها، اغلب منجر به ایجاد محیط جستجوی پراکنده‌ای در بسیاری از سیستم‌های تجاری می‌گردد.
مقیاس پذیری: هزینه یافتن نزدیکترین همسایگی‌ها، تعداد رو به رشد کاربران و مورد‌ها را افزایش می‌دهد.
برای روبرو شدن با این معضلات، [8] یک الگوریتم فیلترسازی همبستگی مبتنی بر مورد را ارائه کردند که در آن شباهت بین دو مورد i و j، بر اساس رتبه‌دهی‌های یک مجموعه U از کاربران که به هر دو مورد امتیاز داده اند، تعیین می‌شود. به داشتن یک مجموعه U از کاربران و مورد هدف i -موردی‌که برای آن باید پیش بینی انجام گیرد- الگوریتم، کلیه مورد‌های همزمان امتیاز داده شده کاربران u عضو U را می‌گیرد و شباهت‌های آنها با مورد i را محاسبه کند. در مورد همبستگی پیرسون، وزن شباهت‌های بین دو مورد i و j، می‌تواند با توجه به کاربری که به هر دو مورد i وj امتیاز داده است به صورت زیر بدست آید:
(2-3)
w(i,j)= (∑_(u∈U)▒(r_(u,i)-(r_i ) ̅ )(r_(u,j)-(r_j ) ̅ ) )/√(∑_(u∈U)▒〖(r_(u,i)-(r_i ) ̅ )^2 (r_(u,j)-(r_j ) ̅ )^2 〗)
که در اینجا r_i، میانگین امتیاز دهی برای مورد i را نشان می‌دهد.
با تعریف ماتریسی یه نام ماتریس مورد‌های کاربر(تصویر 2-3) به عنوان مینای تولید پیشنهادهای، تفاوت بنیادی در محاسبه شباهت‌ها بین روش‌های مبتنی بر کاربر و مبتنی بر مورد، این است که تکنیک مبتنی بر کاربر، شباهت‌ها را در بین سطر‌های ماتریس بررسی می‌کند. در حالی که الگوریتم‌های مبتنی بر مورد محاسبه را در بین ستون‌ها، انجام میدهند

پایان نامه
Previous Entries پایان نامه رایگان درمورد رژیم غذایی، تخت جمشید، ارزش اطلاعات، نظریه انتخاب Next Entries پایان نامه رایگان درمورد یادگیری ماشین، همبستگی پیرسون، بازیابی اطلاعات، تجارت الکترونیک