
Y و متغیرهای پیشبینی کننده X است.
امروزه برای مدلسازی روابط غیرخطی و پیچیده بین متغیرهای ورودی خروجی از روشهایی مانند شبکه عصبی استفاده میشود.
2-8-5-5- خوشهبندی89
خوشهبندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی با هم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با دادههای موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با دادههای موجود در سایر خوشهها متفاوتاند.
در خوشهبندی موضوعات زیر مورد توجه است:
چه تعداد از خوشهها میتواند دانش نهفته در دادهها را کشف نماید؟ مسئله تعداد خوشهها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت دادهها چیست؟ این معیارها خود به واسطه روشهای مختلفی محاسبه میگردد، اما در بیشتر روشهای خوشهبندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روشهای مختلفی چون فاصله اقلیدسی90، فاصله مینکوفسکی91 و یا فاصله مانهاتان92 محاسبه شود.
بعد از تعیین تعداد خوشهها و معیار شباهت یا فاصله دادهها، دادهها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشهبندی یک الگوریتم بدون ناظر93 در دادهکاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقهبندي هر داده به يک طبقه (کلاس) از پيشين مشخص شده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند.
به طور خاص در صنعت بانکداری از الگوریتمهای خوشهبندی در بخشبندی مشتریان به گروههای مشخص بر طبق الگوهای رفتاری آنها کاربرد دارد. شناسایی گروههای مشتریان بسیار برای بانک حائز اهمیت بوده و میتواند در تصمیمگیریهای کنونی و اتخاذ راهبردهای میانمدت و بلندمدت بانک راهگشا باشد.
2-8-5-5- انواع خوشهبندی
امروزه الگوریتمهای متنوعی در زمینه خوشهبندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشهبندی سلسلهمراتبی94
در این نوع خوشهبندی خوشهها به صورت متوالی به دو شیوه انباشتی95 و یا تقسیمکنندگی96 توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل دادهها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشهها ادامه مییابد.
2- خوشهبندی مبتنی بر مدل97
در این روش یک مدل احتمالی مشخص برای دادهها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که دادهها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشهبندی مبتنی بر بخشبندی98
نام دیگر این روش خوشهبندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف میباشد. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینهسازی آن، ساختار معنیداری (خوشهها) را در دادههای مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشهبندی مبتنی بر بخشبندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیشترین شباهت و با مراکز دیگر خوشهها بیشترین عدم شباهت را داشته باشند.
2-8-5-5-2- معیارهای ارزیابی در خوشهبندی
تکنیکهای خوشهبندی برای تخصیص هر داده به خوشه مربوطه بر اساس یکی از معیارهای شباهت99 و یا عدم شباهت100 (یا فاصله) عمل میکنند. داده، در صورتی که بیشترین شباهت را با دادههای یک خوشه و یا بیشترین فاصله را با خوشههای دیگر داشته باشد، به خوشه منتسب میشود.
زمانی که مشاهدات به گونهای خوشهبندی شوند که هر خوشه در حداکثر تراکم باشد و حداکثر فاصله را با دیگر خوشهها داشته باشند، خوشه بندی خوبی انجامگرفته است [11].
معیار شباهت، معیاری عددی است که میزان شباهت دو شیء داده را نسبت به یکدیگر نشان میدهد. هر چقدر دو شیء به یکدیگر شبیهتر باشند این معیار مقدار بالاتری دارد و معمولاً مقداری بین 0 و 1 دارد. معیارهای ارزیابی شباهت در جدول 2-6 نشان داده شده است.
n: تعداد ابعاد (ویژگیهای) ورودی، p و q: اشیاء داده ورودی، pk و qk: kامین ویژگی یا شیء داده ورودی میباشند.
جدول 2-6 معیارهای محاسبه شباهت در خوشهبندی
نام معیار
فرمول محاسبه
کسین101
(cos(d_1∙d_2))⁄‖d_1 ‖‖d_2 ‖
d1 و d2 دو بردار متن میباشند
جاکارد102
T(p,q)=(p∙q)/(‖p‖^2+‖p‖^2-p∙q)
معیار فاصله نیز مقداری عددی است که میزان تفاوت دو شیء داده را نشان میدهد. هر چقدر دو شیء داده به یکدیگر شبیهتر باشند این معیار مقدار پایینتری خواهد داشت. معیارهای ارزیابی فاصله در جدول 2-7 ارائه شده است.
جدول 2-7 معیارهای محاسبه فاصله در خوشهبندی
نام معیار
فرمول محاسبه
فاصله اقلیدسی
dist=√(∑_(k=1)^n▒〖(p_k-q_k)〗^2 )
مینکوسکی
dist=〖(∑_(k=1)^n▒|p_k-q_k |^r )〗^(1/r)
سیتی بلاک103 یا مانهاتان
dist=〖(∑_(k=1)^n▒|p_k-q_k |^r )〗^(1/r) if r=1
ماهالانوبیس104
mahalanobis(p,q)=(p-q)∑^(-1)▒〖(p-q)〗^T
2-8-5-6- تحلیل انحراف105
این روش جهت یافتن دادههایی که بسیار متفاوت از دادههای دیگر عمل میکنند یا تغییرات چشمگیری نسبت به رفتار مشاهده شده قبلی دارند. این دادهها، دادهها پرت106 نام دارند. از کاربردهای این روش میتوان به کشف تقلب در کارتهای اعتباری اشاره نمود جایی که شناسایی رفتار غیر نرمال از بین میلیونها تراکنش کاری دشوار و تا حدودی ناممکن مینماید. کشف نفوذ در شبکه و تشخیص کلاهبرداری در معاملات از دیگر کاربردهای این روش میباشد. این الگوریتم در سادهترین حالت با استفاده از سطح زیر منحنی نرمال و در نظر گرفتن مقدار معینی از انحراف معیار نمونههای متفاوت با سایرین را شناسایی مینماید [1].
یک سوءاستفاده مالی در بانک میتواند مدیران بانک را متحمل هزینههای زیادی نماید. با بهکارگیری این الگوریتم میتوان به کشف رفتارهای مشکوک مشتریان پرداخت و در نتیجه هزینههای ناشی از اینگونه سوءاستفادهها را کاهش داد.
2-8-5-7- قواعد وابستگی (انجمنی)107
این روش برای یافتن الگوهای پر تکرار، وابستگیها، ارتباطات یا ساختارهای علی موجود در میان مجموعهای از عناصر و یا اشیاء در پایگاه دادههای تراکنشی و یا پایگاه دادههای رابطهای و دیگر مخازن اطلاعات به کار میرود. مثلاً اینکه چه نوع خدمات بانکی اغلب به صورت همزمان توسط یک مشتری مطالبه میشود میتواند به صورت یک قاعده از پایگاه دادههای بانک استخراج شود [31].
قواعد وابستگی برای بیان حقایق موجود در مجموعهای از دادهها به کار میروند. بدین ترتیب که اگر بعضی وقایع رخ دهند آنگاه وقایع دیگری نیز رخ خواهند داد. اگر یک قاعده وابستگی را با X⟹Y نشان دهیم (یعنی در صورتی که X اتفاق بیافتد Y هم اتفاق میافتد)، مسئله قواعد وابستگی در اصل یافتن قواعدی است که از حداقل پشتیبانی108 برقرار بوده و به اندازه کافی به آنها اعتماد109 داشته باشیم.
2-8-5-8- تحلیل توالی110
تحلیل توالی برای یافتن الگوهای موجود در بین یک مجموعه داده است. تحلیل توالی و قواعد انجمنی هر دو شامل مجموعهای از حالات، تراکنشها و یا ارتباطات هستند. تفاوت این دو روش در این است که تقدم و تأخر رخدادها در تحلیل توالی بسیار حائز اهمیت است و توالی انتقالهای بین حالتهای مختلف تحلیل میشود. در صورتی که در قواعد انجمنی تراکنشهای مختلف یک مشتری ارزش یکسان دارند. مثلاً در تحلیل توالی اینکه یک مشتری بانک از خدمات انتقال وجه بعد از واریز سود بهره گیرد یا پیش از واریز سود اهمیت دارد. اما در کشف قواعد انجمنی اینکه کدام فعالیت زودتر یا دیرتر انجام شده اهمیتی ندارد و دو تراکنش واریز سود و برداشت وجه مجموعه اقلام یکسانی را میسازند.
شکل 2-10 توالی از بازدیدهای وب را نشان میدهد. هر گره شامل یک گروه URL است. هر خط جهت دار انتقال بین این گرهها را نشان میدهد و وزن هر انتقال نشان دهنده احتمال انتقال بین این گرههاست [1].
شکل 2-10 نمونهای از توالی بازدیدها در وب
2-8-6- نرمافزار دادهکاوی
ابزارهای دادهکاوی که جهت مدیریت دانش مشتری انتخاب میشوند باید قادر باشند تا اطلاعات ضروری را از میان انبوه دادههای در دسترس استخراج کنند. برای حصول این منظور ابزارهای دادهکاوی باید خصوصیات زیر را داشته باشند:
محیط کاربر پسند.
بهرهوری111 بالا
قابلیت انجام عملیات اساسی لازم
هزینه اجرای نسبتاً پایین [30].
در حال حاضر چندین نرمافزار جهت دادهکاوی توسط شرکتهای معتبر نرمافزاری عرضه شده است. نرمافزار مورد استفاده در این تحقیق SPSS Clementine 12.0 میباشد. SPSS از شرکتهای عمده آماری است که حاوی تعدادی از محصولات دادهکاوی میباشد. SPSS توسط شرکت بریتانیایی ISL در اواخر سال 1998 ارائه شد و بسته دادهکاوی Clementine را ارائه نمود.
Clementine از اولین نرم افزارهایی بود که به مفهوم جریان دادهکاوی پرداخت و به کاربر این امکان را داد که کارهایی چون پاکسازی دادهها، تبدیل دادهها و آموزش مدل را در همان محیط گردش کار انجام دهند. این نرمافزار شامل ابزارهایی برای مدیریت چرخه پروژه دادهکاوی دارا میباشد.
2-8-7- کاربردهای دادهکاوی
امروزه کاربردهای بسیار زیادی از دادهکاوی در بسیاری از زمینهها از جمله بازاریابی، علوم پزشکی، شرکتهای بیمه و مخابرات، شرکتهای تبلیغاتی و همه سازمانهایی که به علت تراکنشهای بالا و سروکار داشتن با مشتریان، دارای پایگاه دادههای بزرگ میباشند، شناخته شده است.
این علم میتواند پیشبینیهایی با دقت بالا برای سازمانها انجام دهد، همچنین به مدیران و متخصصان و کارشناسان کمک میکند که بتوانند آینده شرکت و کسب و کار خود را با دقتهای بسیار بالا پیشبینی کنند، دادهکاوی به مراکز صنعتی کمک میکند که درک و بینش صحیحی از نحوه کارکرد دستگاههای صنعتی پیچیده خود بدست آورند. در واقع دادهکاوی ابزاری بسیار کارا برای استفاده از دادههایی است که تولید میشوند اما استفادهای از آنها نمیشود.
دادهکاوی علمی است که باعث تغییر و تحول در هر صنعت و کسب و کاری میشود و اکنون بسیاری از شرکتهای معتبر در سرتاسر دنیا توانستهاند با استفاده از روشهای دادهکاوی سود سالیانه خود را به اندازه چشم گیری افزایش دهند تا جایی که این شرکتها در کنار واحدهایی مانند تحقیق و توسعه، تکنولوژی اطلاعات، برنامهریزی و غیره، اقدام به تأسیس واحدهای دادهکاوی نمودهاند.
همچنین کاربردهای زیادی از دادهکاوی در زمینه صنعت بانکداری شناخته و بکار گرفته شده است. از این میان میتوان به کاربرد این ابزار در بازاریابی و مدیریت ارتباط با مشتریان (نظیر پروفایل سازی جهت جذب، حفظ و توسعه مشتری، مراقبت از مشتری، تحلیل رویگردانی مشتری)، کاربرد دادهکاوی در کشف تقلب و سوءاستفادههای مالی (مانند فساد مالی، سوءاستفاده از داراییها و تقلب در گزارشگری مالی)، کاربرد دادهکاوی در پیشبینی عملکرد بانک، دادهکاوی جهت ارزیابی اعتبار مشتریان بانک و دادهکاوی جهت ارزیابی عملکرد بانکها اشاره نمود [1].
2-8-7-1- دادهکاوی در صنعت بانكداری
بخش بانكداري طبق الگوي پورتر براي فعاليت در محيط رقابتي امروز با پنج نيروي رقابتي مواجه است كه يكي از آنها قدرت چانه زني مشتري است. افزايش رقابت بين بانکها، تغيير قوانين و معرفي فناوریهای جديد و
