منبع پایان نامه درمورد نمایه سازی، موتورهای جستجو، رتبه بندی، بازیابی اطلاعات

دانلود پایان نامه ارشد

اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و … . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می‌کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می‌کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده‌ها از بعضی کلمات که بسیار رایج هستند صرفنظر می‌کند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.
آنگاه داده‌های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می‌گردد. در این بخش داده‌ها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره می‌شوند.یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می‌گردد. یکی از تفاوت‌های اصلی موتورهای جستجوگر در حجم پایگاه داده آن‌ها و همچنین روش ذخیره سازی داده‌ها در پایگاه داده است.
سرانجام در هنگام جستجو نرم افزار کاوش به کاربر این امکان را می‌دهد که از میان همه صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه بندی می‌کند. در واقع نرم افزار جستجو رابط بین کاربر و اطلاعات نمایه شده است. بخشی از این نرم افزار کار رتبه بندی اطلاعات بازیافتی را انجام می‌دهد. (مکوندی و سعیدی 1385)
معمولا به رایی رتبه بندی دو ویژگی مهم در نظر گرفته می‌شود:
➢ محل درج کلید واژه: اینکه کلید واژه در کجای صفحات وب قرار دارد. کلید واژه‌ای که در عنوان قرار دارد به کلید واژه‌های دیگر ارجحیت دارد.
➢ تعداد تکرار (بسامد) اغلب موتورهای جستجو میزان تکرر کلیدواژه‌ها را نسبت به سایر واژه‌های موجود در صفحات وب می‌سنجند و واژگانی را که از بسامد بیشتری برخوردار باشند به عنوان واژگان دارای ارتباط و تناسب بیشتر معرفی می‌کنند. همچنین در برخی موتورهای جستجو مانند اکسایت55 وجود پیوندهای بیشتر در یک صفحه وب به سایر صفحات یا ایستگاه‌های اطلاعاتی ارجحیت دارد. (منتظر،1380)
نمایه سازی موتورهای وب
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم. از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق می‌باشد. لذا رشد فناوری‌های نو ظهور، روش‌های جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری می‌طلبد. با استفاده از روش‌های نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت می‌تواند به اطلاعات مورد نیاز خود دسترسی پیدا کند. یکی از مهم‌ترین این راهکارها، نمایه سازی وب56 است.
نمایه وب منابعی را که از طریق شبکه جهانی وب57 در دسترس هستند، جمع آوری و سازماندهی می‌نماید و نقطه شروعی برای یافتن اطلاعات می‌باشد. در وب نمایه‌ها ممکن است به روش‌های گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق می‌کند، نمایه‌ها می‌توانند به طور الفبایی، موضوعی (رده‌ای) و … سازماندهی شوند. نمایه‌های موضوعی اغلب منابعشان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب می‌کنند.. نمایه‌های وب برای نشان دادن لیست‌های منابع خود ازپیوندهای فرا متن استفاده می‌کنند، آن‌ها این امکان را دارند تا از طریق لینک‌ها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایه‌ها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه می‌کنند.
نمایه های وب برای نشان دادن لیست‌های منابع خود از پیوندهای فرا متن استفاده می‌کنند، آن‌ها این امکان را دارند تا از طریق لینک‌ها صدها و بلکه هزاران منبع را در بر بگیرند.
دو عامل مهم در نمایه سازی وب
نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها می‌توانند هزاران منبع را فهرست کنند. در واقع نمایه‌های وب ما را به فهرست‌ها و راهنماها ارجاع می‌دهند. این نوع نمایه‌ها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.
الف- زبان نمایه سازی
زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار می‌گیرد. “زبان ” می‌تواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، 1382، ص 180)
عملکرد نظام بازیابی متاثر از کیفیت زبان نمایه است. وجود نمایه سازی و جستجوی خوب نمی‌تواند زبان نمایه نامناسب را جبران کند به عبارت دیگر کاربران اطلاعات فقط به آن اندازه می‌توانند عمل نمایند که زبان نمایه مجاز می شمارد. ناتواناییهای زبان نمایه بر دو نوع است: 1-عدم توانایی به خاطر ویژگی در اصطلاحات 2-عدم توانایی به خاطر ابهام یا روابط کاذب بین اصطلاحات. (لانکاستر، 1379، ص179)
عمدتا زبان‌ها دو نوع هستند:
1 زبان‌های مهار شده58
این زبان‌ها، حاوی اصطلاحاتی هستند که برای نمایه سازی مدارک انتخاب و پذیرفته شده‌اند، فهرست‌ها سر عنوان‌های موضوعی و اصطلاحنامه ها دو شیوه متفاوت زبان نمایه سازی مهار شده است. اصطلاحنامه پس از شرح زبان‌های آزاد توصیف می‌شود.
2 زبان‌های آزاد59
در این نوع زبان‌ها محدودیتی ازنظر نوع واژه وجود ندارد، هر واژه یا اصطلاح می‌تواند بدون قید و شرط از زبان طبیعی گرفته شود، یعنی عینا از زبان مدرک نقل گردد و یا متناسب با موضوع مدرک تعیین شود. ازنمایه سازی به زبان طبیعی هم می‌توان در ساخت واژگان موضوع الکترونیکی و هم در تولید نمایه نامه‌های چاپی استفاده کرد. یکی از کاربردهای نمایه سازی به زبان طبیعی تولید نمایه‌هایی است که مبتنی بر واژه‌های عنوان می‌باشد. مانند: نمایه کوئیک، نمایه کووک و نمایه جایگشتی.(داورپناه،1381،ص33)
ب- نرم افزارهای نمایه سازی وب
بسته به اینکه در وب مورد نظر چه اطلاعاتی را می‌خواهیم نمایه سازی کنیم (اطلاعات می‌توانند یک سند، یک تمام متن60، تصاویر و … باشند) نرم افزارهای گوناگونی برای نمایه سازی وب موجود می‌باشد:
نرم افزارهای نمایه سازی وب
Advanced Java Tree Menu
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
ActMon Password Recovery XP
Internet Macros Web Test Recorder
نرم افزارهای نمایه سازی لینک‌ها
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
Registry First Aid
IEManager
Advanced Java Tree Menu
نقش موتورهای جستجو در نمایه سازی وب
حجم انبوه اطلاعات وب و عدم نمایه سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار گیرند و راهکاری مناسب جهت نمایه سازی را فراهم آورند. از سوی دیگر برخی از وب‌سایت‌ها برای اطمینان از بازیابی بیشترین رتبه بندی‌های مرتبط، از اصطلاحات کلیدی استفاده می‌کنند، این در حالی است که تعدادی دیگر از نمایه سازی کور بهره می‌گیرند.
مشکل اصلی این نوع نمایه سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل می‌شود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند. (دیگان، 1382، ص 161)
موتورهای جستجو، ابر موتورها و ابر داده‌ها در واقع ابزارهای کمکی برای نمایه سازی و ارائه اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند. نمایه‌ها اساس کار موتورهای جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژه‌ها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل می‌دهد. اما بزرگ‌ترین موتورهای جستجو هم قادر به نمایه سازی وب نیستند. برخی از این موتورها نظام نمایه سازی تمام متن دارند و هر واژه موجود درمتن به جز واژه‌های فاقد بار اطلاعاتی مانند حروف اضافه، ربط و تعریف را نمایه می‌کند. برخی بخشی از منبع را نمایه می‌کنند.برخی دیگر، سرعنوانها، عناوین فرعی و فراپیوندها را همراه 20 خط ابتدای متن و 100 کلمه‌ای که از بسامد بالایی برخوردار است، نمایه می‌کنند. (داورپناه،1381،ص 84)
انواع نمایه سازی موتورهای جستجو
نمایه سازی وب می‌تواند از طریق روش‌ها و ابزارهای اتوماتیک یا به وسیله نیروی انسانی انجام بگیرد. در نمایه سازی از نوع دوم اشخاص حقیقی منابع را شناسایی و جمع اوری می‌نمایند، سپس آن‌ها را بازبینی، سازماندهی و طبقه بندی می‌کنند. موتورهای جستجویی مانند گوگل توسط یک روبات خزنده وب61 شاخص گذاری شده‌اند. نرم افزار خزنده وب ابزاری است که در لابه لای شبکه جهانی وب می‌خزد و سایت‌های جدید را مورد جستجو قرار می‌دهد؛ چنانچه وب‌سایت ‌جدیدی یافت شد آدرس آن به پایگاه داده اضافه می‌گردد.
فهرست موتور جستجوی گوگل شامل بیش از یک بیلیون یوآرال62 می‌باشد. قلب این موتور نرم افزار رتبه صفحه63 است، رتبه صفحه با استفاده از ساختار لینک معتبر بر روی خاصیت دموکراتیک منحصر به فرد تکیه می‌کند. گوگل لینک‌ها را از صفحه الف تا ب چک می‌کند و از آراهای مختلف دریافت شده برای این رتبه بندی استفاده می‌کند. صفحات با کیفیت بالا رتبه صفحه بالاتری دریافت می‌کنند که گوگل بعد از هر جستجو به خاطر می‌سپارد. گوگل از ترکیب رتبه صفحه و روش‌های پیشرفته جور کردن متن برای یافتن صفحات با اهمیت و در عین حال مربوط به متن جستجو شده استفاده می‌کند. همچنین از تعداد تکرار کلمات متن جستجو شده پا فراتر نهاده و برای تشخیص اینکه این صفحه با کلمات مورد جستجو هماهنگی دارد، تمام وجوه محتوای صفحه و صفحات متصل شده به آن را بررسی می‌کند.
موتورهای جستجوی هات بات64، آلتاویستا65 و اکسایت66 برای تفسیر پایگاه داده خود از ترکیب ماشین و انسان استفاده می‌کنند، در صورتی که موتور جستجوی یاهو توسط انسان ترجمه می‌شود. کاربران آدرس یوآرال وب‌سایت‌های خود را برای موتور جستجو ارسال می‌کنند، سپس سایت مربوطه مورد بازبینی قرار می‌گیرد و یک انسان سایت را طبقه بندی می‌کند و در مورد عبارات جستجوی مربوطه تصمیم گیری می‌کند. در موتور جستجوی یاهو ابزارهای نمایه سازی چشمشها و بازوهای انسان جهت تصمیم گیری اینکه کدام کلید واژه‌ها و اقلام مناسب هستند و سپس نمایه سازی صحیح مطرح است.
این در حالی است که بسیاری از سایت‌های وب، از روش «نمایه انتهای کتاب در وب» برنامه‌ای برای جستجوی سایت خود طراحی کرده‌اند. این برنامه‌ها همچون جستجو در فایل‌های تمام متن می‌تواند در نتایج جستجوی خود دارای مدارک نامرتبط و در اصطلاح همراه با ریزش کاذب باشد.اگر در چنین سایت‌هایی نمایه‌ای شبیه آنچه در انتهای کتاب‌ها دیده می‌شود به وجود آید، مراجعه‌کننده می‌تواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان کمتری به مدارک مورد نیاز خود وحتی به مدارک مرتبط با آن نیز دسترسی یابد (کمیجانی).
سئو67 چیست؟
معنای لغوی سئو بهینه سازی موتور جستجو می‌باشد، یعنی تولید کردن صفحات وبی که برای موتورهای جستجو جالب هستند. بهینه سازی صفحات وب این است که شما در نتایج یک موتور جستجوی بزرگ همچون گوگل بیشترین امتیاز را داشته باشید. اهمیت این موضوع از انجا ناشی می‌شود که اکثر مردم از موتورهای جستجو برای رسیدن به مطلب یا محصول مورد نظر خود استفاده می‌کنند( در ایران اکثریت مردم با گوگل سر و کار دارند). به عنوان مثال در گوگل، اکثر مردم فقط به صفحه‌ی اول نتایج جستجو نگاه می‌کنند. بنابراین برای داشتن ترافیک بالا از طرف موتورهای جستجو مخصوصا گوگل، این مسئله الزامی است که سایت شما درصفحه ی اول نتایج جستجوقرار گیرد.
علم بهینه سازی موتور جستجودر مورد روش‌های فنی مانند عنوان صفحه‌ی مناسب، تگ ها و متا تگ ها، کلمات کلیدی و عبارات کلیدی و توضیحات مناسب سایت و کلاً محتوایی که موتورهای جستجو دوست دارند، مطالعه می‌کند.
موتورهای جستجو

پایان نامه
Previous Entries منبع پایان نامه درمورد رتبه بندی، موتورهای جستجو، نمایه سازی، سلسله مراتب Next Entries منبع پایان نامه درمورد موتورهای جستجو، رتبه بندی، نمایه سازی، منابع اطلاعاتی