
آستانه انجام گرفته است. از طرفی جا دادن یک متغییر کیفی (معنا)در یک الگوریتم محاسباتی نوآوری و ابداعات خاص خود را می طلبد. یکی از الگوریتمها که در این زمینه نوآوری کرده است الگوریتم رتبهبندی سهگانه81 است. رتبهبندی سهگانه علاوه بر اینکه نوعی از معنا را برای یک موضوع و گزاره را بر حسب فراوانی آن تداعی می کند همچنین با استفاده از یک نگاشت به فضای عوامل اصلی متعامد،
امکان این را می یابد که ارتباطات معنایی را به صورت جداگانه بررسی کند و در نتیجه امتیاز بندی بهینه تری انجام دهد.
به هر حال با توجه به بهبودهایی که رتبهبندی سهگانه انجام داده همچنان پیداست که این الگوریتم نتوانسته برخی از بدیهیات را تشخیص دهد. یک دلیل شاید هم مهمترین دلیل اینست که در این روش همانند بسیاری از دیگر روشها به نحوی فراوانی در مقابل معنا قرار گرفته است و یک ارتباط یک به یک بین فراوانی و معنا فرض می شود.به عنوان مثال در مرحله پیش پردازش اطلاعاتی که تکرار بیشتری داشته باشد کم اهمیت تر فرض می شوند و نیز در مرحله پردازش زوج شی خصوصیت با بیشترین تکرار بیشترین امتیاز را دارد.
بنابراین هر چه نقش معنا را پررنگ تر شود نتایج قابل قبول تر هستند. خوشبختانه در دهه اخیر پایگاه دانشهای خوبی در همه زمینه ها ارائه شده اند.گذشته از اینکه این پایگاه دانشها مشکل ابهام و عدم سازگاری دانش دارند و مهمتر اینکه این پایگاه دانشها کامل نیستند و برپایه شبکه های معنایی هستند اما می توانند نقطه شروع خوبی باشند. یکی از این پایگاه دانشها وب است. وب پایگاه دانشی است که توسط افراد زیاد و مختلفی یاد می گیرد. از این رو می تواند قابل اعتماد باشد و برآیند نظر همه کاربران را به صورت حقیقت هایی اعلام کند. استفاده هوشمندانه از وب یکی از نقاط قوت بهینه سازیهایی است که در پی می آید
در فصل 3 نظریه ی غذایابی موجودات زنده تشریح و همچنین در مورد شباهت های یافتن اطلاعات در انسان با این نظریه بحث شد. در ادامه این فصل روشی مبتنی بر نظریه ی غذایابی ارائه خواهد شد و با استفاده از آن مرحله نهایی ارائه پیشنهاد به کاربران انجام می شود. در این مرحله اطلاعات خروجی از مدل امتیازدهی سهگانه به عنوان ورودیهای مدل انتخاب رژیم غذایی بهینه در نظر گرفته میشوند. پارامترهای مربوط به بهره و سودمندی نیز از مدل امتیازدهی سهگانه و اسناد RDF انتخاب میشوند. الگوریتم انتخاب رژیم غذایی بهینه نیز تغییراتی خواهد داشت که با دامنه مسئله سیستم پیشنهادگر هماهنگ شود. پس از اجرای الگوریتم تعدادی از کاندیداها که از قبل مشخص هم نیستند انتخاب شده و پس رتبهبندی مجدد به عنوان نتیجه نهایی به کاربر ارائه خواهند شد.
4-2 مدل رتبهبندی سهگانه
رتبهبندی سهگانه روشی است جهت اعمال رتبهبندی در زمینهی پایگاههای دانش بر پایهی RDF در وب معنایی [25]. اساس این روش سه مرحلهای بر پایهی یافتن روابط معنایی پنهان میان منابع RDF با استفاده از تحلیلهای آماری است. در مرحله اول RDFهای حاوی اطلاعات که تشکیل یک گراف را میدهند جمعآوری میشوند. سپس این گراف معنایی به یک تنسور مجاورت معادل نگاشت میشود. در دومین مرحله پردازشی برروی این تنسور اعمال میشود تا حجم دادههایی که قرار است در مرحله بعد مورد تحلیل قرار بگیرند کاسته شود و همچنین خاصیتهای پیوند دهنده منابع RDF وزندهی شوند. در مرحله سوم با استفاده از یک تکنیک تجزیه به عناصر سازنده به نام پارافک82 تنسور پردازش میشود. حاصل این پردازش امتیازاتی است که نشاندهنده امتیازات خصوصیات پیونددهنده و منابع RDF در ارتباط با یک موضوع است. شکل 4-1 این مراحل را نشان میدهد.
شکل 4-1: مدل رتبهبندی سهگانه
4-2-1 جمع آوری دادهها
اولین مرحله روش رتبهبندی سهگانه جمعآوری دادهها است. در این روش از نقطه شروع که میتواند یک RDF در مجموعه دادههای پیوندی باشد یک الگوریتم کاوش اول عرض را اجرا میکند. این کاوشگری از طریق سه پارامتر بیشینه عمق کاوش، بیشینه گزارههای جمع آوری شده و بیشینه تعداد پیوندهایی که باید به ازای هر منبع دنبال شوند کنترل میشود. پس از اجرای این الگوریتم اطلاعات جمع آوری شده به تنسورهایی تبدیل میشوند.
شکل 4-2 را در نظر بگیرید، که نمونه ساده شده یک وب معنایی را نشان میدهد. این گراف به شکل G=(V; L; E; LinkType) تعریف میشود که در آن، V منابع RDF تشکیل دهنده این گراف هستند؛ L رشتههای الفبایی موجود در این گراف و E یالهای گراف را شامل میشود . تابع LinkType :E→V ، URI خاصیتی که دو منبع از V را به یکدیگر و یا منبعی از V را به رشتهای از L متصل میکند را بر میگرداند. شکل 1، یک گراف معنایی دارای 7 منبع (آ، ب، پ، ت، ث، دوست دارد، متنفر است) و 10 یال از دو نوع دوست دارد و متنفر است را نشان میدهد.
شکل 4-2: یک گراف ساده معنایی
4-2-2 ساخت تنسور معادل گراف
شکل 4-3، تنسور83 معادل گراف شکل 4-2 را نشان میدهد؛ که هر برش آن یک ماتریس مجاورت است. در هر ماتریس مجاورت که نمایندگی ارتباطات موجود از طریق یک خاصیت را میکند، در صورتی که دو منبع از طریق آن خاصیت به یکدیگر متصل شده باشند، در نقطه تلاقی آنها عددی بزرگتر از صفر و در صورت عدم اتصال عدد صفر قرار میگیرد. در این تنسور پیوندهای نوع دوست دارد در بعد یکم و پیوندهای نوع متنفر است در بعد دوم قرار دارند. برای مثال رابطه آزاده از بهرام متنفر است در تنسور معادل به شکل= 1 (1,2,2)T نمود مییابد.
شکل 4-3: تنسور معادل گراف معنایی شکل 4-2
4-2-3 پیش پردازش
دومین مرحله از این روش اعمال یک پیش پردازش بر روی دادههای جمع شده است. دلایل اصلی انجام این عملیات کاهش حجم دادههایی که باید در مراحل بعدی تحلیل شوند، افزایش کیفیت دادههای جمع آوری شده و وزندهی خصوصیات جهت استفاده در فرایند تحلیل است.
مرحله پیش پردازش پیاده سازی شده توسط رتبهبندی سهگانهی استاندارد بر پایه این فرض بنا شده است که، خصوصیاتی که بیشترین استفاده و تکرار را در مجموعهی همهی خصوصیات را دارند و غالب هستند، معمولاً اطلاعات کمتری را ارائه میدهند و میبایستی حذف شوند. به عنوان مثالی از این نوع خصوصیتها میتوان به خصوصیت wikilink که در تمامیRDFهای مجموعه دادههای dbpedia.org وجود دارد اشاره کرد. خصوصیت wikilink پیوندهای میان منابع ویکیپدیا84 را نشان میدهد. از آنجا که RDFهای تشکیل دهندهی dbpedia.org از روی صفحات ویکیپدیا ساخته میشوند، RDFهای ساخته شده، از طریق wikilinkها روابط میان اسناد اولیهی ویکیپدیا را بازسازی میکنند. صفحه اطلاعات یک گروه موسیقی را در ویکیپدیا در نظر بگیریم، از این صفحه به صفحات اعضای گروه، آهنگها، کنسرتها و بسیاری مواد دیگر پیوندهایی وجود دارد. اگر این صفحه و دیگر صفحات مرتبط به RDF تبدیل شود، پیوندهای گفته شده از طریق خصوصیات wikilink بازسازی میشوند.
با توجه به آنچه که گفته شد، در انتهای هر خصوصیت از نوع wikilink میتواند انواع گوناگونی از اطلاعات قرار گیرد؛ یک گروه موسیقی، یک فرد، یک مکان یا هر شیء یا هر مفهوم دیگر. پس این نتیجه حاصل شدنی است که، معنایی نیز که توسط این رابطه حاصل میشود غیر شفاف است زیرا نمیتوان از روی نوع پیوند، از منبع پایانی که به آن اشاره میشود، برداشتی داشت.
یادآوری میشود که در سهگانه RDF یک عبارت85 به عنوان نهاد86 به عبارتی دیگر به عنوان هدف87 از طریق یک گزاره88 پیوند مییابد. پس با حذف هر گزاره که در عمل همان خصوصیتها میباشند، تمامیمنابعی را که توسط آن خصوصیت به آنها اتصالی ایجاد شده بود را نیز حذف کردهایم.
4-2-3-1 کاهش حجم دادهها از راه حذف خصوصیات غالب
رتبهبندی سهگانهی استاندارد برای حذف خصوصیات بیفایده یا کمفایده، از رویهی شمارش آنها و مقایسه با یک حد آستانه استفاده کرده و براساس آن به حذف خصوصیات نامطلوب اقدام میکند. در این روش خصوصیاتی که درصد تعداد تکرار آنها نسبت به همه خصوصیات بیش از این حد آستانه است، نادیده گرفته میشوند. در نهایت عبارتهایی که گزارههای آنان نسبت به گزارههای عمومیتر تکرار کمتری دارند تثبیت میشوند.
4-2-3-2 وزندهی خصوصیات
جهت از بین بردن آخرین تاثیرات خصوصیات غالب، یک فرایند وزندهی نیز بر روی باقیمانده اطلاعات اعمال میشود. هدف از این عملیات تقویت عبارات نادرتر نسبت به عبارات عمومیتر است. این تقویت به نسبت عکس میزان عمومیت گزارههای آنها صورت میگیرد. در نتیجه عباراتی که گزارههای آنها بسامد تکرار کمتری دارند به نسبت عبارات با گزارههای عمومیتر تقویت میشوند. رابطه 4-1 نوعی از این تقویت را نشان میدهد.
(4-1)
T(x; y; z)={█(1+log ∝/(links(z)) کند اشاره y به z خاصیت با x اگر@0 صورت این غیر در)┤
∝ تعداد عبارتهایی است که در آن غالبترین گزاره شرکت دارد. تابع links(v)=(links : V → N_0 ) تعداد عباراتی را که بوسیله خاصیت (گزاره) V پیوند خردهاند را باز میگرداند.
4-2-4 تحلیل پارافک
پارافک [33] تنسور ورودی را به 3 ماتریس تجزیه میکند. یک ماتریس حاوی امتیازات منابع نسبت به ارتباط89 با یالهای خروجی، -هنگامی که منبع به عنوان موضوع بررسی میشود-ماتریس دیگر حاوی امتیازات منابع نسبت به ارتباط با یالهای ورودی -زمانی که منابع به عنوان هدف بررسی میشود- و ماتریسی که حاوی امتیازات خصوصیات است. امتیاز یک منبع که نسبت به یالهای خروجی محاسبه میگردد امتیاز قطب90 و امتیاز یک منبع که نسبت به یالهای ورودی محاسبه میگردد امتیاز مرجع91 نامیده میشود .
تنسورT∈ R^(k×l×m) با استفاده از پارافک مرتبه 3، به شکل ماتریسهای سازنده U_1∈ R^(k×n) , U_2∈ R^(l×n) , U_3∈ R^(m×n) و n عامل اصلی92 که به صورت کاهشی مرتب شدهاند تجزیه میشود. با استفاده از این روش تنسور T میتواند به شکل یک تنسور کراسکال93 [33] تخمین زده شود:
(4-2)
T≈∑_(k=1)^n▒〖λ_k . U_1^k ° U_2^k ° U_3^k 〗
که در آن kλ معرف kامین فاکتور اصلیU_i^k، Kامین ستون ماتریسU_i^ و ◦ ضرب خارجی است. بزرگترین مدخل U_1^1 بهترین امتیاز قطب برای اولین فاکتور اصلی94 (f1) و بزرگترین مدخل U_2^1 بهترین امتیاز مرجع برای آن است. شکل 4-4 این روش تجزیه را نمایش میدهد.
در شکل 4-3 تنسور T حاوی اطلاعات افراد و اینکه چه کسی چه کسی را دوست دارد و یا از وی متنفر است، است. با تجزیه این تنسور به روش پارافک سه ماتریس تولید میشوند. ماتریس U1 حاوی امتیازات قطبی مربوط به میزان ارتباط موضوعات به فاکتورهای اصلی، ماتریس U2 حاوی امتیاز ماخذهای مربوط به میزان ارتباط موضوعات به فاکتورهای اصلی و U3 حاوی امتیاز خصوصیات نسبت به ارتباط آنها با فاکتورهای اصلی است.
شکل 4-4: تجزیه تنسور T به 3 ماتریس عامل
4-3 تحلیل روش رتبهبندی سهگانه
4-3-1 مرحله پیش پردازش
روش رتبهبندی سهگانه در مرحله پیش پردازش بر این نظریه استوار است که خصوصیات متداولتر اطلاعات کمتری را در اختیار قرار میدهند پس میتوان از آنها چشمپوشی کرد. رابطه ارزش اطلاعاتی عناصر تشکیل دهندهی یک بسته اطلاعاتی با عکس تکرار آنها قسمتی از نظریهی اطلاعات است که توسط شانون در سال 1943 ارائه گردید. انجام پیشپردازش در جهت کاهش حجم دادهها و افزایش کیفیت آنها در تمامی روشهای امتیازدهی مطرح هستند؛ با این حال در روش پیچیدهای مانند رتبهبندی سهگانه اهمیت آن از روشهای سادهتر کمتر است اما هنوز میتوان با اعمال یک پیش پردازش مناسب کیفیت رتبهبندی را در حد قابل اعتنایی بالا برد. از آنجا که در این تحقیق از راهکار رتبهبندی سهگانه مشخصا در جهت پیشنهاد دادههای مرتبط به یک موضوع به کاربر استفاده شده و نه فقط نشان دادن دادههای با امتیاز بالاتر، نتیجتا اعمال یک روش پیش پردازش دقیقتر بسیار مهم است. خاطرنشان میشود، معمولا دادههای با امتیاز بالاتر ارتباط بیشتری با یک موضوع دارند و رتبهبندی سهگانه هم در حقیقت تقریبا فقط دادههای مرتبطتر به یک موضوع را پیشنهاد میکند.
4-3-2 عملیات حذف
رتبهبندی سهگانه
