منابع پایان نامه درباره خوشه‌بندی، پایگاه داده‌ها، معیارهای ارزیابی

دانلود پایان نامه ارشد

Y و متغیرهای پیشبینی کننده X است.
امروزه برای مدل‌سازی روابط غیرخطی و پیچیده بین متغیرهای ورودی خروجی از روشهایی مانند شبکه عصبی استفاده میشود.
2-8-5-5- خوشه‌بندی89
خوشه‌بندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی با هم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با داده‌های موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با داده‌های موجود در سایر خوشه‌ها متفاوتاند.
در خوشه‌بندی موضوعات زیر مورد توجه است:
چه تعداد از خوشه‌ها میتواند دانش نهفته در داده‌ها را کشف نماید؟ مسئله تعداد خوشه‌ها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت داده‌ها چیست؟ این معیارها خود به واسطه روش‌های مختلفی محاسبه میگردد، اما در بیشتر روش‌های خوشه‌بندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روش‌های مختلفی چون فاصله اقلیدسی90، فاصله مینکوفسکی91 و یا فاصله مانهاتان92 محاسبه شود.
بعد از تعیین تعداد خوشه‌ها و معیار شباهت یا فاصله داده‌ها، داده‌ها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشه‌بندی یک الگوریتم بدون ناظر93 در داده‌کاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقه‌بندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مي‌يابد ولي در خوشه‌بندي هيچ اطلاعي از کلاسهاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند.
به طور خاص در صنعت بانکداری از الگوریتم‌های خوشه‌بندی در بخش‌بندی مشتریان به گروههای مشخص بر طبق الگوهای رفتاری آنها کاربرد دارد. شناسایی گروههای مشتریان بسیار برای بانک حائز اهمیت بوده و میتواند در تصمیمگیریهای کنونی و اتخاذ راهبردهای میانمدت و بلندمدت بانک راهگشا باشد.
2-8-5-5- انواع خوشه‌بندی
امروزه الگوریتم‌های متنوعی در زمینه خوشه‌بندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشه‌بندی سلسله‌مراتبی94
در این نوع خوشه‌بندی خوشه‌ها به صورت متوالی به دو شیوه انباشتی95 و یا تقسیمکنندگی96 توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل داده‌ها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشه‌ها ادامه مییابد.
2- خوشه‌بندی مبتنی بر مدل97
در این روش یک مدل احتمالی مشخص برای داده‌ها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که داده‌ها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشه‌بندی مبتنی بر بخش‌بندی98
نام دیگر این روش خوشه‌بندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف میباشد. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینهسازی آن، ساختار معنیداری (خوشه‌ها) را در داده‌های مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشه‌بندی مبتنی بر بخش‌بندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیشترین شباهت و با مراکز دیگر خوشه‌ها بیشترین عدم شباهت را داشته باشند.

2-8-5-5-2- معیارهای ارزیابی در خوشه‌بندی
تکنیکهای خوشه‌بندی برای تخصیص هر داده به خوشه مربوطه بر اساس یکی از معیارهای شباهت99 و یا عدم شباهت100 (یا فاصله) عمل میکنند. داده، در صورتی که بیشترین شباهت را با داده‌های یک خوشه و یا بیشترین فاصله را با خوشههای دیگر داشته باشد، به خوشه منتسب میشود.
زمانی که مشاهدات به گونه‌ای خوشه‌بندی شوند که هر خوشه در حداکثر تراکم باشد و حداکثر فاصله را با دیگر خوشه‌ها داشته باشند، خوشه بندی خوبی انجام‌گرفته است [11].
معیار شباهت، معیاری عددی است که میزان شباهت دو شیء داده را نسبت به یکدیگر نشان می‌دهد. هر چقدر دو شیء به یکدیگر شبیهتر باشند این معیار مقدار بالاتری دارد و معمولاً مقداری بین 0 و 1 دارد. معیارهای ارزیابی شباهت در جدول 2-6 نشان داده شده است.
n: تعداد ابعاد (ویژگی‌های) ورودی، p و q: اشیاء داده ورودی، pk و qk: kامین ویژگی یا شیء داده ورودی میباشند.
جدول 2-6 معیارهای محاسبه شباهت در خوشه‌بندی
نام معیار
فرمول محاسبه
کسین101
(cos(d_1∙d_2))⁄‖d_1 ‖‖d_2 ‖
d1 و d2 دو بردار متن میباشند
جاکارد102
T(p,q)=(p∙q)/(‖p‖^2+‖p‖^2-p∙q)

معیار فاصله نیز مقداری عددی است که میزان تفاوت دو شیء داده را نشان می‌دهد. هر چقدر دو شیء داده به یکدیگر شبیهتر باشند این معیار مقدار پایینتری خواهد داشت. معیارهای ارزیابی فاصله در جدول 2-7 ارائه شده است.

جدول 2-7 معیارهای محاسبه فاصله در خوشه‌بندی
نام معیار
فرمول محاسبه
فاصله اقلیدسی
dist=√(∑_(k=1)^n▒〖(p_k-q_k)〗^2 )
مینکوسکی
dist=〖(∑_(k=1)^n▒|p_k-q_k |^r )〗^(1/r)
سیتی بلاک103 یا مانهاتان
dist=〖(∑_(k=1)^n▒|p_k-q_k |^r )〗^(1/r) if r=1
ماهالانوبیس104
mahalanobis(p,q)=(p-q)∑^(-1)▒〖(p-q)〗^T

2-8-5-6- تحلیل انحراف105
این روش جهت یافتن دادههایی که بسیار متفاوت از داده‌های دیگر عمل میکنند یا تغییرات چشمگیری نسبت به رفتار مشاهده شده قبلی دارند. این داده‌ها، داده‌ها پرت106 نام دارند. از کاربردهای این روش میتوان به کشف تقلب در کارتهای اعتباری اشاره نمود جایی که شناسایی رفتار غیر نرمال از بین میلیونها تراکنش کاری دشوار و تا حدودی ناممکن مینماید. کشف نفوذ در شبکه و تشخیص کلاه‌برداری در معاملات از دیگر کاربردهای این روش میباشد. این الگوریتم در سادهترین حالت با استفاده از سطح زیر منحنی نرمال و در نظر گرفتن مقدار معینی از انحراف معیار نمونههای متفاوت با سایرین را شناسایی مینماید [1].
یک سوءاستفاده مالی در بانک میتواند مدیران بانک را متحمل هزینههای زیادی نماید. با به‌کارگیری این الگوریتم میتوان به کشف رفتارهای مشکوک مشتریان پرداخت و در نتیجه هزینههای ناشی از این‌گونه سوءاستفادهها را کاهش داد.
2-8-5-7- قواعد وابستگی (انجمنی)107
این روش برای یافتن الگوهای پر تکرار، وابستگیها، ارتباطات یا ساختارهای علی موجود در میان مجموعهای از عناصر و یا اشیاء در پایگاه داده‌های تراکنشی و یا پایگاه داده‌های رابطهای و دیگر مخازن اطلاعات به کار میرود. مثلاً اینکه چه نوع خدمات بانکی اغلب به صورت همزمان توسط یک مشتری مطالبه میشود میتواند به صورت یک قاعده از پایگاه داده‌های بانک استخراج شود [31].
قواعد وابستگی برای بیان حقایق موجود در مجموعهای از داده‌ها به کار میروند. بدین ترتیب که اگر بعضی وقایع رخ دهند آنگاه وقایع دیگری نیز رخ خواهند داد. اگر یک قاعده وابستگی را با X⟹Y نشان دهیم (یعنی در صورتی که X اتفاق بیافتد Y هم اتفاق میافتد)، مسئله قواعد وابستگی در اصل یافتن قواعدی است که از حداقل پشتیبانی108 برقرار بوده و به اندازه کافی به آنها اعتماد109 داشته باشیم.
2-8-5-8- تحلیل توالی110
تحلیل توالی برای یافتن الگوهای موجود در بین یک مجموعه داده است. تحلیل توالی و قواعد انجمنی هر دو شامل مجموعهای از حالات، تراکنشها و یا ارتباطات هستند. تفاوت این دو روش در این است که تقدم و تأخر رخدادها در تحلیل توالی بسیار حائز اهمیت است و توالی انتقالهای بین حالتهای مختلف تحلیل میشود. در صورتی که در قواعد انجمنی تراکنش‌های مختلف یک مشتری ارزش یکسان دارند. مثلاً در تحلیل توالی اینکه یک مشتری بانک از خدمات انتقال وجه بعد از واریز سود بهره گیرد یا پیش از واریز سود اهمیت دارد. اما در کشف قواعد انجمنی اینکه کدام فعالیت زودتر یا دیرتر انجام شده اهمیتی ندارد و دو تراکنش واریز سود و برداشت وجه مجموعه اقلام یکسانی را میسازند.
شکل 2-10 توالی از بازدیدهای وب را نشان می‌دهد. هر گره شامل یک گروه URL است. هر خط جهت دار انتقال بین این گرهها را نشان می‌دهد و وزن هر انتقال نشان دهنده احتمال انتقال بین این گرههاست [1].

شکل 2-10 نمونهای از توالی بازدیدها در وب
2-8-6- نرم‌افزار داده‌کاوی
ابزارهای داده‌کاوی که جهت مدیریت دانش مشتری انتخاب میشوند باید قادر باشند تا اطلاعات ضروری را از میان انبوه داده‌های در دسترس استخراج کنند. برای حصول این منظور ابزارهای داده‌کاوی باید خصوصیات زیر را داشته باشند:
محیط کاربر پسند.
بهرهوری111 بالا
قابلیت انجام عملیات اساسی لازم
هزینه اجرای نسبتاً پایین [30].
در حال حاضر چندین نرم‌افزار جهت داده‌کاوی توسط شرکتهای معتبر نرمافزاری عرضه شده است. نرم‌افزار مورد استفاده در این تحقیق SPSS Clementine 12.0 میباشد. SPSS از شرکتهای عمده آماری است که حاوی تعدادی از محصولات داده‌کاوی میباشد. SPSS توسط شرکت بریتانیایی ISL در اواخر سال 1998 ارائه شد و بسته داده‌کاوی Clementine را ارائه نمود.
Clementine از اولین نرم افزارهایی بود که به مفهوم جریان داده‌کاوی پرداخت و به کاربر این امکان را داد که کارهایی چون پاکسازی داده‌ها، تبدیل داده‌ها و آموزش مدل را در همان محیط گردش کار انجام دهند. این نرم‌افزار شامل ابزارهایی برای مدیریت چرخه پروژه داده‌کاوی دارا میباشد.
2-8-7- کاربردهای داده‌کاوی
امروزه کاربردهای بسیار زیادی از داده‌کاوی در بسیاری از زمینهها از جمله بازاریابی، علوم پزشکی، شرکتهای بیمه و مخابرات، شرکتهای تبلیغاتی و همه سازمانهایی که به علت تراکنشهای بالا و سروکار داشتن با مشتریان، دارای پایگاه داده‌های بزرگ میباشند، شناخته شده است.
این علم میتواند پیشبینی‌هایی با دقت بالا برای سازمانها انجام دهد، همچنین به مدیران و متخصصان و کارشناسان کمک می‌کند که بتوانند آینده شرکت و کسب و کار خود را با دقت‌های بسیار بالا پیشبینی کنند، داده‌کاوی به مراکز صنعتی کمک می‌کند که درک و بینش صحیحی از نحوه کارکرد دستگاه‌های صنعتی پیچیده خود بدست آورند. در واقع داده‌کاوی ابزاری بسیار کارا برای استفاده از داده‌هایی است که تولید می‌شوند اما استفاده‌ای از آن‌ها نمی‌شود.
داده‌کاوی علمی است که باعث تغییر و تحول در هر صنعت و کسب و کاری می‌شود و اکنون بسیاری از شرکت‌های معتبر در سرتاسر دنیا توانسته‌اند با استفاده از روش‌های داده‌کاوی سود سالیانه خود را به اندازه چشم گیری افزایش دهند تا جایی که این شرکت‌ها در کنار واحدهایی مانند تحقیق و توسعه، تکنولوژی اطلاعات، برنامهریزی و غیره، اقدام به تأسیس واحدهای داده‌کاوی نموده‌اند.
همچنین کاربردهای زیادی از داده‌کاوی در زمینه صنعت بانکداری شناخته و بکار گرفته شده است. از این میان میتوان به کاربرد این ابزار در بازاریابی و مدیریت ارتباط با مشتریان (نظیر پروفایل سازی جهت جذب، حفظ و توسعه مشتری، مراقبت از مشتری، تحلیل روی‌گردانی مشتری)، کاربرد داده‌کاوی در کشف تقلب و سوءاستفادههای مالی (مانند فساد مالی، سوءاستفاده از داراییها و تقلب در گزارشگری مالی)، کاربرد داده‌کاوی در پیشبینی عملکرد بانک، داده‌کاوی جهت ارزیابی اعتبار مشتریان بانک و داده‌کاوی جهت ارزیابی عملکرد بانکها اشاره نمود [1].
2-8-7-1- داده‌کاوی در صنعت بانكداری
بخش بانكداري طبق الگوي پورتر براي فعاليت در محيط رقابتي امروز با پنج نيروي رقابتي مواجه است كه يكي از آن‌ها قدرت چانه زني مشتري است. افزايش رقابت بين بانک‌ها، تغيير قوانين و معرفي فناوری‌های جديد و

پایان نامه
Previous Entries منابع پایان نامه درباره درخت تصمیم، مدل‌سازی، ارزیابی کیفی Next Entries منابع پایان نامه درباره صنعت بانکداری، ارتباط با مشتری، مدیریت ارتباط