
روشهاي بایاسین، روشهاي آماري و خطی، جداول تصمیم گیري و مدلهاي ساخت یافته درختی که درختهاي طبقه بندي نیز نامیده میشوند، را پیشنهاد دادهاند.
مثالهایی از وظایف طبقه بندي که از فنون مختلف استفاده میکردند را میتوان به صورت زیر بیان نمود :
تخصیص کلمات کلیدي به مقالات به محض ورود اخبار.
تصمیم گیري راجع به اینکه کدام شماره تلفن وابسته به کدام ماشین فاکس میباشد.
تخصیص کدهاي صنعتی و تعیین مشاغل بر اساس توضیحات شغلی ارائه شده.
در تمامی مثالهاي ذکر شده تعداد کلاسها محدود میباشد و انتظار می رود که قادر به تخصیص هر رکورد به یک یا چندتا از این کلاسها باشیم.
خوشه بندي: کشف و مستند سازي مجموعههاي از حقایق ناشناخته، مانند دسته بندي مشتریان یک فروشگاه بر اساس میزان خرید و زمان بین خریدها.
خوشهبندي در واقع تقسیم بندي یک جمعیت ناهمگون به تعدادي از زیرمجموعههایی که بیشتر همگون هستند میباشد که به آن خوشه اطلاق میشود. هدف خوشه بندي یافتن گروه هایی است که با یکدیگر بسیار متفاوتند ولی اعضاي این گروه ها بسیار شبیه هم هستند.
آن چیزي که خوشه بندي را از طبقه بندي متمایز میکند ، این است که در خوشه بندي بر روي کلاسهاي از پیش تعیین شده کاري انجام نمیشود. در طبقه بندي موضوعات با تخصیص هر عضو یا رکورد به کلاس از پیش تعریف شده بر اساس مدل توسعه یافته در طول آموزش از مثالهاي قبل تشکیل میشوند. در خوشه بندي دیگر هیچ کلاس از پیش تعریف شدهاي وجود ندارد. رکوردها بر اساس شباهتهاي خودشان گروهبندي میشوند و افرادي که خود در آن کار هستند باید این خوشه را تفسیر کنند. غالبا خوشه بندي به عنوان پیش درآمدي براي دیگر فنون داده کاوي یا مدل سازي میباشد. به عنوان مثال خوشه بندي ممکن است اولین قدم در قطعه بندي بازار باشد. پس از یافتن خوشههایی که پایگاه داده را قطعه بندي مینماید، این خوشهها باید براي طبقه بندي دادههاي جدید به کار گرفته شوند. نکته قابل توجه اینکه نباید خوشه بندي را با قطعه بندي اشتباه گرفت.
قطعهبندي به مسائل عمومی شناسایی گروههایی که داراي ویژگیهاي عمومی هستند اطلاق میشود و خوشهبندي روشی براي قطعه بندي دادهها به گروههایی است که از قبل تعریف نشده اند. این در حالی است که طبقه بندي، روشی براي قطعهبندي داده به وسیله تخصیص آنها به گروههایی است که از قبل تعریف شدهاند.
الگوریتمهاي خوشه بندي موجود را میتوان به دو دسته سلسله مراتبی و افرازي تقسیم بندي نمود. در الگوریتمهاي خوشه بندي افرازي میشود که ناحیه خاصی را بهینه میکنند. در کنار آن خوشه بندي سلسله مراتبی، ترتیبی از K افرازي سعی بر تعیین افرازهاست که هر بخش در داخل بخش بعدي و به همین ترتیب قرار گرفتهاند.
پیش بینی: کشف الگوهایی که بر اساس آنها پی بینی قابل قبولی از رویدادهاي آتی ارایه میشود مانند رابطه عضویت در یک باشگاه ورزشی با شرکت در کلاسهاي ورزشی.
پیشگویی نیز همانند مسئله طبقه بندي و یا تخمین میباشد با این تفاوت که پیش بینی با آینده سر و کار دارد یعنی رکوردهایی که طبقه بندي میشوند با توجه به پیش بینیهایی است که از رفتار آینده و یا تخمین مقادیري که در آینده به خود میگیرند، میباشد.
در عمل تنها کاري که میتواند دقت این طبقه بندي را معین کند منتظر ماندن و ملاحظه نتایج در آینده میباشد. هر روشی که در طبقه بندي و تخمین مورد استفاده قرار میگیرد می تواند براي پیش بینی هم استفاده شود مشروط بر آنکه استفاده از مثالهایی که در آنها ارزش متغیر قابل پیش بینی در حال حاضر معلوم باشد و همچنین داده هاي جمع آوري شده براي مثالها در دسترس باشد، این دادههاي قدیمی براي ساخت مدلی که رفتار فعلی مشاهده را بیان میکنند به کار میروند. هنگامی که به این مدل وروديهاي جدید داده شود، نتیجه در واقع پیش بینی رفتار در آینده خواهد بود.
فن تحلیل سبد خرید براي کشف مواردي که با هم به عنوان مثال در یک خواربارفروشی خریداري میشوند به کار میرود و بر همین اساس می تواند مدلی را براي خریدهاي آینده و یا رفتارهایی که احتمال رخ دادن آنها بر روي دادههاي جاري وجود دارد ارائه مینماید.
در زیر به ذکر مثالهایی از وظایف پیش بینی که توسط فنون داده کاوي میتوانند صورت گیرند اشاره میکنیم :
پیش بینی نرخ سهام یا ارز در بازارهاي تجاري.
پیش بینی اینکه کدام مشتري در طول شش ماه آینده از سرویس خاصی استفاده نخواهد کرد.
پیش بینی اینکه کدام مشترك تلفنی درخواست اضافه شدن سرویس جدیدي همچون تماس تلفنی سه نفره یا پست صوتی را به سرویسهاي خود خواهد داشت.
پیش بینی متوسط نمره دانشجویان ترم بعد در درس احتمالات.
از نظر فرایندي نیز میتوان فعالیتهاي داده کاوي را به سه دسته عمومی تقسیم کرد:
اکتشاف: فرایند جستجو در یک بانک داده براي یافتن الگوهاي پنهان بدون داشتن یک فرضیه از پیش تعیین شده درباره اینکه این الگو ممکن است چه باشد. مانند تحلیل هایی که برحسب کالاهاي خریداري شده توسط مشتریان صورت می گیرد، این اطلاعات می تواند به بهبود چیدمان فروشگاه و طراحی تبلیغاتی خاص منجر گردد.
مدل پیش بینی: فرایندي که الگوهاي کشف شده را از بانک داده استخراج میکند و آنها را براي پیش بینی در آینده به کار می برد. به عنوان مثال الگوهاي کشف شده براي پیش بینی فروش در خرده فروشی ها به آنها کمک میکند تا تصمیماتی را در رابطه با موجودي مواد خود اتخاذ کنند.
تحلیلهاي دادگاهی: فرایندي که در آن الگوهاي استخراج شده براي یافتن عوامل نامعقول و متناقض به کار گرفته میشود. به عنوان مثال در موسسات مالی می توانند با تحلیل داد و ستدهاي جعلی گذشته الگوهایی را براي تشخیص و کشف کلاهبرداري در آینده به دست آورند.
در فرآیند بالا، دادههاي خام از منابع مختلفی جمعآوري میشوند و از طریق استخراج، ترجمه و فرآیندهاي بازخوانی به انبار دادهها وارد میشوند. در بخش مهیاسازي دادهها، دادهها از انبار خارج شده و به صورت یک فرمت مناسب براي دادهکاوي درمیآیند. در بخش کشف الگو با روشهاي داده کاوي براي پاسخ به سؤالهاي خاصی که به ذهن میرسند، الگوریتم هایی استخراج میشود و از این الگوریتمها براي ساخت الگو استفاده میشود. در بخش تجزیه و تحلیل الگو، الگوها به یک دانش مفید و قابل استفاده تبدیل میشوند و پس از بهبود آنها، الگوهایی که کارا محسوب میشوند، در یک سیستم اجرایی به کار گرفته خواهند شد.
2-3-5- داده کاوي و رابطه آن با علم آمار
داده کاوي شباهت زیادي به تحلیلهاي آماري دارد، ولی از جهات زیادي با آمار تفاوت داشته و مزیتهاي زیادي نسبت به آمار دارد .جالب ترین تفاوت داده کاوي با تحلیلهاي آماري این است که در آمار ما فرضیهاي طرح میکنیم و با استفاده از تحلیلهاي آماري به اثبات یا رد فرضیه میپردازیم، اما داده کاوي به فرضیه احتیاجی ندارد. در واقع ابزار داده کاوي فرض میکند که شما خود هم نمیدانید به دنبال چه میگردید و این نکتهاي است که باعث میشود کار آمدي داده کاوي در مواقع بروز مشکل نمایان شود. براي مثال ما در آمار فرض میکنیم که دو گروه با هم ارتباط دارند، سپس با استفاده از ضریب هم بستگی پیرسون مشخص می کنیم که ارتباط وجود دارد یا خیر. ولی داده کاوي بدون توجه به اینکه ما اینگونه فرضی داشته باشیم یا نه با کاوش میان دادهها اگر ارتباط مخفی معنی داري وجود داشته باشد آن را به اطلاع ما میرساند. تفاوت بعدي آمار و داده کاوي در این است که آمار فقط می تواند از داده هاي عددي استفاده کند ولی داده کاوي از داده هاي غیر عددي هم استفاده میکند. برنامههاي کاربردي که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوي ساخت یافته که در بسیاري از بانکهاي اطلاعاتی یافت میشود و از ابزارهاي تجزیه و تحلیل آماري برخوردار اند، اما برنامههاي مربوط به داده کاوي در عین برخورداري از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاري از ابزارهاي ساده براي تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی را به کار میبرند که در آن فرضیه بسط داده شده، آنگاه دادهها براي تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردي که یک چکش خریده حتما یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر براي اریه فرضیه هاي متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوي روشهایی براي کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدي بین داده ها تشخیص داده شده و آنهایی که یکتا یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سخت افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهاي برقرار شود. تفاوتهاي دیگري هم میان آمار و داده کاوي وجود دارد، ولی از آنجایی که هدف این بخش تنها معرفی داده کاوي است و نمیخواهیم به مقایسه داده کاوي و آمار بپردازیم، از ذکر آنها خودداري میکنیم.
2-4- شبکه عصبی
2-4-1- معرفی:
در اواخر سال 1940 میلادی پیشگامان علم شبکههای عصبی، مککلوچ و پیتس23 در رابطه با توانایی ارتباط درونی24 مدل یک نرون، مطالعاتی انجام دادند. آنها یک مدل محاسباتی بر مبنای یک عنصر شبیهنرونی25 ساده ارائه نمودند. در همان زمان دانشمندان دیگری مثل دونالد هب26 نیز بر روی قوانین تطبیق27 در سیستمهای نرونی کار میکردند.
در سال 1949، دونالد هب، یک قانون یادگیری برای تطبیق ارتباطات بین نرونهای مصنوعی ارائه نمود. اندکی بعد در سال 1958 روزنبلات28 ، پرسپترون29 را مطرح کرد و سپس تئوری تفکیک آماری30 را برمبنای آن توسعه داد.
قدم بزرگ بعدی کشف فرمولبندی قانون یادگیری جدید بهوسیله ویدرو و هاف31 در طرحی موسوم به آدالاین32 بود. در سال 1971 وربوس33 ، یک الگوریتم پسانتشار را در رساله دکتری خود منتشر کرد و در نهایت روزنبلات این تکنیک را در 1986 کشف مجدد نمود.
2-4-2- کاربرد شبکه های عصبی
امروزه شبکههای عصبی مصنوعی بهطور گستردهای، با هدف دستیابی به کارایی شبه انسانی مطالعه میشوند. این شبکهها از تعدادی عناصر محاسباتی خطی و غیرخطی که بهطور موازی عمل میکنند، تشکیل شدهاند.
شبکههای عصبی مصنوعی تحت عناوین مختلفی همچون مدلهای پیوندگرا34، مدلهای پردازش موازی توزیعشده و سیستمهای نورومورفیک35 مطرح گردیدهاند. ایده اصلی مدل پیوندگرا به فیلسوف بزرگ یونان باستان ارسطو برمیگردد. وی مفهومی را مطرح کرد که در آن تعدادی از عناصر ساده مرتبط بههم بهواسطه یک سری مکانیزمهای خاص، منجر به پیدایش حافظه میشدند.
بهطور کلی میتوان گفت که شبکههای عصبی از دو دیدگاه مورد مطالعه قرار میگیرند. دیدگاه نخست مربوط به علوم شناختی36 است و دیدگاه دوم که در واقع به تئوری پردازش اطلاعات برمیگردد، همان پیوندگرایی است. شبکههای عصبی مطرح شده در این تحقیق نیز مربوط به دیدگاه دوم از نقطه نظر مهندسی میباشد.
2-4-3- تعریف پایه شبکه های عصبی
اساس شبكه هاي عصبي بر پايه ساختار آنها بنا شده است، كه اين ساختار شامل يك يا چند لايه ، كه هر لايه داراي تعداد نرون كه اين نرون ها از طريق وزن ها به يكديگر متصل مي باشند. هر نرون داراي ورودي (ها) و خروجي (ها) مي باشند كه هر نرون بر اساس ورودي (ها)محاسبه و خروجي (ها)لازم را توليد ميكند. عملكرد كلي شبكه هاي عصبي بر اساس ساختار شبكه عصبی، که شامل ساختار پيش رو(ساختار اول) می باشد، که در آن، هیچ حلقهای در ساختار شبکه وجود ندارد، شکل 2-2 و ساختار بر گشتي(ساختار دوم)، که در آن بهواسطه ارتباطات پسخور37، حلقههایی در ساختار شبکه بهوجود میآید، شکل 2-3 ، این ساختار ها شامل چند لايه و تعدادی نرون در لایه ها مي باشند. لذا از این منظر میتوان شبکههای عصبی را به دو گروه عمده دستهبندی نمود.
شكل2-2 : ساختار شبكه عصبي پيش رو (غير بازگشتي) باسه لايه ،لايه ورودي ،
