
اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدام است، چندبار تکرار شده است، در کجای صفحه قرار دارند و … . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد میکند و تمام این پارامترها را به یک مقیاس عددی تبدیل میکند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم دادهها از بعضی کلمات که بسیار رایج هستند صرفنظر میکند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.
آنگاه دادههای تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال میگردد. در این بخش دادهها گروه بندی، کدگذاری، در صورت لزوم فشرده و ذخیره میشوند.یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب میگردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی دادهها در پایگاه داده است.
سرانجام در هنگام جستجو نرم افزار کاوش به کاربر این امکان را میدهد که از میان همه صفحات موجود در نمایه، آنچه را مورد جستجو است، یافته و بر اساس میزان تناسب و ارتباط آن با درخواست، واژه یا عبارت مورد نظر را رتبه بندی میکند. در واقع نرم افزار جستجو رابط بین کاربر و اطلاعات نمایه شده است. بخشی از این نرم افزار کار رتبه بندی اطلاعات بازیافتی را انجام میدهد. (مکوندی و سعیدی 1385)
معمولا به رایی رتبه بندی دو ویژگی مهم در نظر گرفته میشود:
➢ محل درج کلید واژه: اینکه کلید واژه در کجای صفحات وب قرار دارد. کلید واژهای که در عنوان قرار دارد به کلید واژههای دیگر ارجحیت دارد.
➢ تعداد تکرار (بسامد) اغلب موتورهای جستجو میزان تکرر کلیدواژهها را نسبت به سایر واژههای موجود در صفحات وب میسنجند و واژگانی را که از بسامد بیشتری برخوردار باشند به عنوان واژگان دارای ارتباط و تناسب بیشتر معرفی میکنند. همچنین در برخی موتورهای جستجو مانند اکسایت55 وجود پیوندهای بیشتر در یک صفحه وب به سایر صفحات یا ایستگاههای اطلاعاتی ارجحیت دارد. (منتظر،1380)
نمایه سازی موتورهای وب
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم. از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق میباشد. لذا رشد فناوریهای نو ظهور، روشهای جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری میطلبد. با استفاده از روشهای نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت میتواند به اطلاعات مورد نیاز خود دسترسی پیدا کند. یکی از مهمترین این راهکارها، نمایه سازی وب56 است.
نمایه وب منابعی را که از طریق شبکه جهانی وب57 در دسترس هستند، جمع آوری و سازماندهی مینماید و نقطه شروعی برای یافتن اطلاعات میباشد. در وب نمایهها ممکن است به روشهای گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق میکند، نمایهها میتوانند به طور الفبایی، موضوعی (ردهای) و … سازماندهی شوند. نمایههای موضوعی اغلب منابعشان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب میکنند.. نمایههای وب برای نشان دادن لیستهای منابع خود ازپیوندهای فرا متن استفاده میکنند، آنها این امکان را دارند تا از طریق لینکها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایهها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه میکنند.
نمایه های وب برای نشان دادن لیستهای منابع خود از پیوندهای فرا متن استفاده میکنند، آنها این امکان را دارند تا از طریق لینکها صدها و بلکه هزاران منبع را در بر بگیرند.
دو عامل مهم در نمایه سازی وب
نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها میتوانند هزاران منبع را فهرست کنند. در واقع نمایههای وب ما را به فهرستها و راهنماها ارجاع میدهند. این نوع نمایهها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.
الف- زبان نمایه سازی
زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار میگیرد. “زبان ” میتواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، 1382، ص 180)
عملکرد نظام بازیابی متاثر از کیفیت زبان نمایه است. وجود نمایه سازی و جستجوی خوب نمیتواند زبان نمایه نامناسب را جبران کند به عبارت دیگر کاربران اطلاعات فقط به آن اندازه میتوانند عمل نمایند که زبان نمایه مجاز می شمارد. ناتواناییهای زبان نمایه بر دو نوع است: 1-عدم توانایی به خاطر ویژگی در اصطلاحات 2-عدم توانایی به خاطر ابهام یا روابط کاذب بین اصطلاحات. (لانکاستر، 1379، ص179)
عمدتا زبانها دو نوع هستند:
1 زبانهای مهار شده58
این زبانها، حاوی اصطلاحاتی هستند که برای نمایه سازی مدارک انتخاب و پذیرفته شدهاند، فهرستها سر عنوانهای موضوعی و اصطلاحنامه ها دو شیوه متفاوت زبان نمایه سازی مهار شده است. اصطلاحنامه پس از شرح زبانهای آزاد توصیف میشود.
2 زبانهای آزاد59
در این نوع زبانها محدودیتی ازنظر نوع واژه وجود ندارد، هر واژه یا اصطلاح میتواند بدون قید و شرط از زبان طبیعی گرفته شود، یعنی عینا از زبان مدرک نقل گردد و یا متناسب با موضوع مدرک تعیین شود. ازنمایه سازی به زبان طبیعی هم میتوان در ساخت واژگان موضوع الکترونیکی و هم در تولید نمایه نامههای چاپی استفاده کرد. یکی از کاربردهای نمایه سازی به زبان طبیعی تولید نمایههایی است که مبتنی بر واژههای عنوان میباشد. مانند: نمایه کوئیک، نمایه کووک و نمایه جایگشتی.(داورپناه،1381،ص33)
ب- نرم افزارهای نمایه سازی وب
بسته به اینکه در وب مورد نظر چه اطلاعاتی را میخواهیم نمایه سازی کنیم (اطلاعات میتوانند یک سند، یک تمام متن60، تصاویر و … باشند) نرم افزارهای گوناگونی برای نمایه سازی وب موجود میباشد:
نرم افزارهای نمایه سازی وب
Advanced Java Tree Menu
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
ActMon Password Recovery XP
Internet Macros Web Test Recorder
نرم افزارهای نمایه سازی لینکها
PHP Lightning Portal (PLP)
PHP Portal Builder (PPB)
Registry First Aid
IEManager
Advanced Java Tree Menu
نقش موتورهای جستجو در نمایه سازی وب
حجم انبوه اطلاعات وب و عدم نمایه سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار گیرند و راهکاری مناسب جهت نمایه سازی را فراهم آورند. از سوی دیگر برخی از وبسایتها برای اطمینان از بازیابی بیشترین رتبه بندیهای مرتبط، از اصطلاحات کلیدی استفاده میکنند، این در حالی است که تعدادی دیگر از نمایه سازی کور بهره میگیرند.
مشکل اصلی این نوع نمایه سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل میشود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند. (دیگان، 1382، ص 161)
موتورهای جستجو، ابر موتورها و ابر دادهها در واقع ابزارهای کمکی برای نمایه سازی و ارائه اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند. نمایهها اساس کار موتورهای جستجو در رتبه بندی نتایج جستجو و ترکیب منطقی واژهها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشکیل میدهد. اما بزرگترین موتورهای جستجو هم قادر به نمایه سازی وب نیستند. برخی از این موتورها نظام نمایه سازی تمام متن دارند و هر واژه موجود درمتن به جز واژههای فاقد بار اطلاعاتی مانند حروف اضافه، ربط و تعریف را نمایه میکند. برخی بخشی از منبع را نمایه میکنند.برخی دیگر، سرعنوانها، عناوین فرعی و فراپیوندها را همراه 20 خط ابتدای متن و 100 کلمهای که از بسامد بالایی برخوردار است، نمایه میکنند. (داورپناه،1381،ص 84)
انواع نمایه سازی موتورهای جستجو
نمایه سازی وب میتواند از طریق روشها و ابزارهای اتوماتیک یا به وسیله نیروی انسانی انجام بگیرد. در نمایه سازی از نوع دوم اشخاص حقیقی منابع را شناسایی و جمع اوری مینمایند، سپس آنها را بازبینی، سازماندهی و طبقه بندی میکنند. موتورهای جستجویی مانند گوگل توسط یک روبات خزنده وب61 شاخص گذاری شدهاند. نرم افزار خزنده وب ابزاری است که در لابه لای شبکه جهانی وب میخزد و سایتهای جدید را مورد جستجو قرار میدهد؛ چنانچه وبسایت جدیدی یافت شد آدرس آن به پایگاه داده اضافه میگردد.
فهرست موتور جستجوی گوگل شامل بیش از یک بیلیون یوآرال62 میباشد. قلب این موتور نرم افزار رتبه صفحه63 است، رتبه صفحه با استفاده از ساختار لینک معتبر بر روی خاصیت دموکراتیک منحصر به فرد تکیه میکند. گوگل لینکها را از صفحه الف تا ب چک میکند و از آراهای مختلف دریافت شده برای این رتبه بندی استفاده میکند. صفحات با کیفیت بالا رتبه صفحه بالاتری دریافت میکنند که گوگل بعد از هر جستجو به خاطر میسپارد. گوگل از ترکیب رتبه صفحه و روشهای پیشرفته جور کردن متن برای یافتن صفحات با اهمیت و در عین حال مربوط به متن جستجو شده استفاده میکند. همچنین از تعداد تکرار کلمات متن جستجو شده پا فراتر نهاده و برای تشخیص اینکه این صفحه با کلمات مورد جستجو هماهنگی دارد، تمام وجوه محتوای صفحه و صفحات متصل شده به آن را بررسی میکند.
موتورهای جستجوی هات بات64، آلتاویستا65 و اکسایت66 برای تفسیر پایگاه داده خود از ترکیب ماشین و انسان استفاده میکنند، در صورتی که موتور جستجوی یاهو توسط انسان ترجمه میشود. کاربران آدرس یوآرال وبسایتهای خود را برای موتور جستجو ارسال میکنند، سپس سایت مربوطه مورد بازبینی قرار میگیرد و یک انسان سایت را طبقه بندی میکند و در مورد عبارات جستجوی مربوطه تصمیم گیری میکند. در موتور جستجوی یاهو ابزارهای نمایه سازی چشمشها و بازوهای انسان جهت تصمیم گیری اینکه کدام کلید واژهها و اقلام مناسب هستند و سپس نمایه سازی صحیح مطرح است.
این در حالی است که بسیاری از سایتهای وب، از روش «نمایه انتهای کتاب در وب» برنامهای برای جستجوی سایت خود طراحی کردهاند. این برنامهها همچون جستجو در فایلهای تمام متن میتواند در نتایج جستجوی خود دارای مدارک نامرتبط و در اصطلاح همراه با ریزش کاذب باشد.اگر در چنین سایتهایی نمایهای شبیه آنچه در انتهای کتابها دیده میشود به وجود آید، مراجعهکننده میتواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان کمتری به مدارک مورد نیاز خود وحتی به مدارک مرتبط با آن نیز دسترسی یابد (کمیجانی).
سئو67 چیست؟
معنای لغوی سئو بهینه سازی موتور جستجو میباشد، یعنی تولید کردن صفحات وبی که برای موتورهای جستجو جالب هستند. بهینه سازی صفحات وب این است که شما در نتایج یک موتور جستجوی بزرگ همچون گوگل بیشترین امتیاز را داشته باشید. اهمیت این موضوع از انجا ناشی میشود که اکثر مردم از موتورهای جستجو برای رسیدن به مطلب یا محصول مورد نظر خود استفاده میکنند( در ایران اکثریت مردم با گوگل سر و کار دارند). به عنوان مثال در گوگل، اکثر مردم فقط به صفحهی اول نتایج جستجو نگاه میکنند. بنابراین برای داشتن ترافیک بالا از طرف موتورهای جستجو مخصوصا گوگل، این مسئله الزامی است که سایت شما درصفحه ی اول نتایج جستجوقرار گیرد.
علم بهینه سازی موتور جستجودر مورد روشهای فنی مانند عنوان صفحهی مناسب، تگ ها و متا تگ ها، کلمات کلیدی و عبارات کلیدی و توضیحات مناسب سایت و کلاً محتوایی که موتورهای جستجو دوست دارند، مطالعه میکند.
موتورهای جستجو
