پایان نامه رایگان درمورد یادگیری ماشین، همبستگی پیرسون، بازیابی اطلاعات، تجارت الکترونیک

دانلود پایان نامه ارشد

. با انجام این کار، شباهت در بین مورد‌ها و نه در بین کاربران شکل می‌گیرد که در صورتی که در یک پایگاه داده ذخیره شوند، می‌توانند مستقیما در فرآیندهای توصیه آنلاین مورد استفاده قرار گیرند. بر طبق این حقیقت که در سیستم‌های آنلاین تعداد کاربران نسبت به تعداد مورد‌ها به طور قابل توجهی افزایش می‌یابد. مقیاس پذیری این سیستم‌ها می‌تواند به شدت ارتقا پیدا می‌کند. ایده استفاده از مورد‌ها به جای کاربران به عنوان مبنای فیلترسازی همبستگی، توسط آمازون برای تولید سیستم‌های پیشنهاد دهنده، برگزیده شد و سپس توسط [11]، توسعه داده شد و الگوریتم‌های N-پیشنهاد بهترین23 و مبنی بر مورد‌ها را خلق کردند.

شکل 2-1: ماتریس شباهت کاربران در روش همبستگی
2-4-1-2 الگوریتم‌های مبتنی بر مدل
بر خلاف روش‌های مبتنی بر حافظه، که در آنها کلیه خروجیهای الگوریتم، برای محاسبه پیش بینی هدف استفاده می‌گردند، الگوریتم‌های مبتنی بر مدل، یک زیر مجموعه از این خروجیهای را می‌گیرند تا یک مدل را بیاموزند. که از آن برای استخراج توصیه‌ها، استفاده می‌شود [12]. یک روش احتمالی ارائه می‌دهد که در آن، رتبه مفروض برای مورد دیده نشده i، از طرف کاربر u، را بر مبنای آنچه درمورد کاربر u، میدانیم، محاسبه می‌گردد.
(2-4)
r_(u,i)=E(r_(u,i) )=∑_(k=0)^n▒〖k.p_r (r_(u,i)=k|r_(u,i),l∈I_u ) 〗
در رابطه (2-4)، فرض می‌گردد که امتیازات، دارای مقادیر صحیح از 0 تا N هستند. و عبارت احتمالی، احتمال این است که کاربر u به مورد i، بر اساس مورد‌های از قبل امتیاز داده شده، امتیاز دهد. I_i، مجموعه مورد‌هایی را نشان می‌دهد که کاربرu، به تازگی به آنها امتیاز داده است.
2-4-1-3 نقاط ضعف روشهای فیلتر همبستگی
اساسی ترین اشکال روش CF، مساله شروع سرد24 است. ، که از دو بخش مشکل مورد جدید و مشکل کاربر جدید تشکیل شده است [13]. کاربران جدید، پروفایل رفتاری ضعیفی دارند یا اصلا پروفایلی ندارند. (مثلا مورد‌های خریداری شده یا امتیاز داده شده توسط آنها). در نتیجه، مفهوم کاربران مشابه، برای چنین کاربری وجود ندارد. این مشکل در مورد ضرایب همبستگی پیرسون، نیز صادق است، که محبوب ترین معیار اندازه گیری استفاده شده در سیستم‌های است. حیطه‌های مشکلزای دیگر فیلترسازی همبستگی، عبارتند از: مسئله مورد جدید- که چگونگی نشان دادن موردی‌که قبلا امتیاز داده نشده است را مطرح می‌کند- و مشکل پراکندگی که زمانی اتفاق می‌افتد که تعداد مورد‌های امتیاز داده شده نسبت به کل مورد‌ها بسیار ناچیز باشد.
2-4-2 روش مبنی بر محتوا
ایده موجود در روش مبتنی بر محتوا، این است که مورد‌هایی را به کاربران پیشنهاد دهد که شبیه مواردی هستند که در گذشته مورد علاقه کاربر بوده است. بر‌ای محاسبه این شباهت، باید توصیفی در مورد مورد‌ها، به صورت یک پروفایل قابل خواندن توسط ماشین، یا بردار ویژگی‌های مورد‌ها به همراه نظرات کاربران در مورد آنها وجود داشته باشد [14]. بر اساس این اطلاعات، تکنیک‌های متنوعی از یادگیری ماشینی25 یا فیلترسازی اطلاعات می‌تواند به کار برده شود تا علایق کاربران را بیاموزند. این یادگیری از طریق شناسایی ویژگی‌ها یا صفات مرتبط مورد‌های ارائه شده انجام می‌گیرد.
به این دلیل که روش‌های مبتنی بر محتوا ریشه‌هایشان در تحقیقات بازیابی اطلاعات26 است، بسیاری از سیستم‌های پیشنهاد دهنده‌ی این چنینی بر روی توصیفات متنی مورد‌ها به عنوان پایه و اساس بردار ویژگی‌های27 مورد‌ها، تکیه دارند. یک تکنیک عمومی برای ایجاد پروفایل مورد‌های معنی دار خارج از متن، این است که بردارهایی را ایجاد شود که شامل عبارت‌های وزن دار مرتبط هستند. این کار با اعمال معیار (TF×IDF)، انجام می‌گیرد. وزن w_(t,d)، در رابطه (2-5)، اهمیت عبارتt را برای یک سند d، با استفاده از اهمیت محلی عبارت (TF)، و قدرت تمایز پذیری کلی آن (IDF)، توصیف می‌کند. بخش TF، از تعریف (2-5)، با محاسبه فرکانس نسبی نشان می‌دهد که عبارت t تا چه اندازه مهم است و چقدر توصیف گر سند d است. بخش IDF، از این تعریف نشان می‌دهد t، هر از چند گاه در اسناد دیگر نیز استفاده می‌گردد.
(2-5)
w_(t,d)=〖TF〗_(t,d)×〖IDF〗_T=f_(t,d)/(〖max〗_z (f_(z,d) ) ) log N/n_t
در تعریف (2-5)، f_(t,d)، نشان می‌دهد که عبارت t هر چند وقت در سند d ظاهر می‌شود. Max_Z(f_(z,d))، برای نرمالایز کردن استفاده می‌شود و بیشینه کلیه عبارت‌ها در d را نشان می‌دهد. به علاوه، N تعداد کل سندها است و n_t ، تعداد کل سندهای شامل عبارت t است. بر اساس این بردارهای ویژگی‌های مورد‌ها و امتیازدهی‌های گذشته کاربران، تکنیک‌های مختلفی می‌توانند استفاده شوند تا پروفایلی از ویژگی‌های مورد علاقه این کاربران را بیاموزند. به علاوه، N تعداد کل سندها و n_t، تعداد سندهایی است که شامل عبارت t، می‌باشند.
همانند روش‌های همبستگی، تکنیک‌های محتوایی نیز، از معضل کاربر جدید رنج میبرند، چون یک ردهبندی مناسب تنها زمانی انجام می‌گیرد که تعداد مناسبی از امتیازهای کاربران موجود باشد. یک مشکل مهم دیگر، گرایش روش‌های مبتنی بر محتوا به سوی منحصر به فرد سازی بیش از حد است. کاربری که به برخی از مورد‌ها، امتیاز بالا داده است، تنها توصیه‌هایی را در مورد مورد‌های مشابه دریافت می‌کند و گسترش افق دید کاربر در این روش پشتیبانی نمی‌شود. مخصوصا در مورد پیشنهادهای خبری، این امر به یک مشکل جدی تبدیل می‌شود، چون مقالاتی مشابه با آنچه که کاربر به تازگی مطالعه کرده است را به او پیشنهاد میدهند.
2-4-3 روش‌های مبتنی بر دانش
خصوصیت اصلی روش مبتنی بر دانش، استفاده از دانش موجود در سیستم، در جهت نگاشت موردها به نیازهای کاربران است. به عبارت دیگر دانش در مورد اینکه چگونه یک مورد خاص نیازهای یک کاربر خاص را بر آورده می‌کند. مشابه با روش‌های مبتنی بر سودمندی28 هیچ مدل طولانی مدتی از کاربر ایجاد نمی‌گردد و هیچ مجموعه از امتیازدهی‌های تاریخی مورد نیاز است. هر ساختار دانشی که نیازهای کاربر را توصیف می‌کند و استنتاج را پشتیبانی می‌کند، می‌تواند به عنوان پروفایل کاربر استفاده گردد [15]. همچنین، پایگاه دانشی که توسط سیستم‌های پیشنهاد دهنده، استفاده می‌شود، می‌تواند به فرم‌های بسیاری وجود داشته باشد. مثلا، گوگل، از ارتباط بین صفحات برای تشخیص میزان محبوبیت و سنجش اعتبار استفاده می‌کند. سایر روشها از دانش صریح یا هستی شناسی استفاده می‌کنند. انتری-سی29، یک سیستم پیشنهاد رستوران، از دانش موجود در مورد غذاهای رستوران، برای تشخیص شباهت بین آنها استفاده می‌کند. انتری-سی با داشتن یک مورد به عنوان نقطه شروع، به کاربر بر‌ای یافتن محصولات مشابه یاری میرسانند. به عنوان مثال اگر یک کاربر، رستورانی زیبا اما گران قیمت و آوانگارد را در انتری-سی بیابد، می‌تواند با قرار دادن انتقاداتی مانند “ارزانتر” و “سنتیتر”، پیشنهادهای جدیدی را دریافت کند.
در کنار این روش مبتنی بر مورد، پیشنهادهای مبنی بر محدودیت30، دومین تکنیک مشهور بر‌ای پیاده سازی سیستم‌های پیشنهاد دهنده مبتنی بر دانش را تشکیل میدهند. در اصل، روش مبتنی بر محدودیت، مساله ارائه پیشنهادهای را به صورت یک مسئله ارضاء محدودیت، حل می‌کند [16]. بر اساس توصیفات محصولات، محدودیت‌ها و یک سری سوالات، یک پایگاه دانش پیشنهاد دهنده شکل می‌گیرد. برای مثال (قیمت20000 و ضمانت=3سال) باشد.
2-4-4 روش‌های آماری31
ایده موجود در روش آماری، استفاده از طبقه بندی‌ کاربران، به صورت آماری برای پیشنهاد مورد‌ها است. (مثلا داده‌هایی مثل سن، جنسیت، شغل و غیره). مشابه با روش همبستگی، ارتباطات “کاربر با کاربر”، تنها بر اساس داده‌های آماری، ایجاد می‌گردند. هیچ تاریخچه‌ای از نظرهای کاربران مورد نیاز نیست. در نتیجه، سیستم‌های آماری بر توصیفاتی متکی هستند که باید از قبل فراهم باشند.
یابنده سبک زندگی32، که در [17] توضیح داده شده، سعی دارد که کاربران را بر طبق یک سری دسته‌های از پیش تعریف شده طبقه بندی کند، این کار با استفاده از متدی به نام تعمیم آماری انجام می‌گیرد. در گام اول، داده‌های موجود در مورد کاربر، برای تعیین بهترین دسته مناسب، استفاده می‌شود. اگر تنها یک مجموعه تعیین شود، کلیه داده‌های آن دسته به عنوان پروفایل کاربر مورد استفاده قرار می‌گیرند. اگر تعداد زیادی از دسته‌ها مناسب باشند، کلیه مقادیر مشابه این دسته‌ها، پروفایل جزئی کاربر را تشکیل میدهند.
2-4-5 روش‌های مبتنی بر سودمندی
تکنیک‌های مبتنی بر سودمندی، بر پایه یک تابع سودمندی، که مورد‌ها را با نیازهای کاربر تطبیق می‌دهد پیشنهادهایی را به کاربر ارائه می‌کنند. تمرکز این روش بر این نیست که مدل‌هایی طولانی مدت از کاربران ایجاد نماید، بلکه این روش قصد دارد مورد‌های یک چهارچوب مشخص را بر مبنای یک تابع سودمندی منحصر به فرد فیلتر نماید [18]. اگرچه، ویژگی‌های غیرمرتبط به محصول، مانند فراهم بودن، خوش اخلاق بودن فروشنده و.. نیز می‌توانند مورد محاسبه قرار گیرند، مشکل اصلی در چالش ایجاد یک تابع سودمندی مناسب نهفته است.
نظریه سودمندی صفات چندگانه33 که یک روش اساسی در شاخه تحلیل تصمیم گیری است، می‌تواند برای ایجاد یک تابع سودمندی مناسب استفاده شود [19]. اساسا ساخت و اعمال یک چنین تابعی از گام‌های زیر تشکیل شده است:
ویژگی‌های مرتبط را که به تصمیمساز کمک می‌کند شناسایی میشوند.
گستره مقادیر ممکن برای صفات را تعیین میشوند. (مثلا مرزهای پایینی و بالایی)
علایق کاربر برای یک ویژگی خاص تعیین میشوند.
توابع سودمندی تک متغیره ارزیابی میشوند.
از کلیه توابع سودمندی صفات34 برای تولید توابع سودمندی چند متغیره استفاده میشود.
برای کلیه راه حل‌های موجود، 35MAU بکار برده میشود و راه حلی که بیشترین مقدار را دارد شناسایی شده.
به طور فرمال، یک تابع MAU می‌تواند به صورت زیر رابطه گردد:
(2-6)
MAU(u_i,…,u_n )=∑_(i=1)^n▒〖w_i u_i 〗
N، تعداد ویژگی‌ها است، wi وزن ویژگی‌هاست که به صورت ∑wi=1; 0≤wi≤1 است. و ui، نشان دهنده یک تابع سودمندی تک متغیره برای صفت i است.
2-4-6 روش‌های ترکیبی
سیستم‌های پیشنهاد دهنده ترکیبی، دو یا تعداد بیشتری از روش‌های پیشنهاد دادن را با یکدیگر ترکیب می‌کنند تا مشکلات و کمبودهای هر یک از این تکنیک‌ها را بر طرف کنند. به دلیل موفقیت روش‌های همبستگی در دنیای تجارت الکترونیک، اغلب این روش‌ها با تکنیک‌های دیگر ترکیب می‌گردد [9]. برک در [9] هفت روش ترکیبی را بر‌ای پیاده سازی سیستم‌های پیشنهاد دهنده، شناسایی کرد که در جدول 2-2 لیست شده است.
جدول 2-2: انواع مدلهای ترکیبی
راهکار ترکیبی
توضیحات
وزن دار
نتایج چند پیشنهاد دهنده متفاوت دوباره وزن دهی شده و نتایج نهایی را تشکیل می‌دهند.
انتخابی
از بین نتایج چند تکنیک یکی انتخاب شده و نمایش داده می‌شود.
مخلوط
نتایج چند تکنیک همزمان نشان داده می‌شود.
ترکیب خصوصیت
خصوصیات روش‌های متفاوت با هم ترکیب شده و یک روش را می‌سازند.
آبشاری
چند تکنیک مختلف به ترتیب و پشت سرهم اعمال می‌گردد.
افزایش خصوصیت
نتایج یک روش به عنوان سابقه و ورودی در روش دیگر وارد می‌شوند.
فرامرحله
مدلی که توسط یک تکنیک فراگرفته می‌شود در تکنیک دیگری استفاده می‌شود.
2-5 سیستمهای پیشنهاد دهنده مبتنی بر داده‌های پیوندی
سیستمهای پیشنهاد دهنده مبتنی بر داده‌های پیوندی و در محیط داده‌های پیوندی بسیار تازه میباشند. این سیستمها به 2 دسته قابل تقسیم بندی هستند. دسته اول همانند سیستمهایی هستند که در ابتدای این فصل بررسی شد و با هدف شخصی سازی طراحی شدهاند. دسته دوم به مسئله پیشنهاد دهی خارج از قوانین شخصیسازی میپردازند. این گونه از سیستمها پیشنهادها را بدون توجه به شرایط کاربر خاص و به صورت عمومی مطرح میکنند. در دسته اول میتوان به پیشنهاد دهندهی باز36 و «پیشنهادگر موسیقی مبتنی بر FOAF37» [20] اشاره کرد و در دسته دوم از دیبیرک38[21] و لنا-تیآر39 [22] را نام برد.
در [20] سلما و همکارانش سیستم پیشنهاددهی موسیقی بر

پایان نامه
Previous Entries پایان نامه رایگان درمورد تجارت الکترونیک، رتبه بندی، همبستگی پیرسون، ارزش اطلاعاتی Next Entries پایان نامه رایگان درمورد واژه نامه، منابع غذایی، کارکرد اجتماعی، هستی شناسی