
است که این مهم از تلفیق ابزارهای دانشی با رویکردهای مربوط به مدیریت ارتباط با مشتریان حاصل خواهد شد.
3-2-1- چارچوب تحقیق
در شکل 3-1 چارچوب کلی این تحقیق نشان داده شده است.
شکل 3-1 چارچوب تحقیق
3-2-2- انتخاب متغیرها
شناسایی متغیرها از گامهای اساسی در مسیر تحقیق است. با در نظر گرفتن اهداف تحقيق، مطالعه تحقيقات انجامشده در حوزه بخشبندی رفتاری مشتریان بانک و بررسی رویکردهای سازمانی بانک مهر اقتصاد، سه دسته متغير زير انتخاب شده است:
دادههاي جمعيت آماری مشتریان: اين متغيرها شامل جنسيت، سن، تحصيلات، وضعيت تأهل، شغل و تاریخ تولد، محل منطقه بانکی و … میباشد.
تراکنشهای مالي مشتريان: تراکنشهای مالي مشتري میتواند شاخص مناسبی برای بررسي الگوي رفتاري مشتري باشد و تحقیقات زیادی در این زمینه صورت گرفته است. در این میان متغيرهايی چون تراكنش اخير مشتري133، متغیر پولی134، فراواني135 (که به اصطلاح با سر نام RFM شناخته میشوند)، در مطالعات دادهکاوی کاربرد گستردهای یافتهاند. اين متغیرها در پايگاه اطلاعاتی بانک وجود دارند و از طريق پردازش دادههاي تراكنشي مشتريان محاسبه میشوند که R، فاصله ميان زمان آخرين تراكنش مشتري تا زمان مورد ارزيابي، F، تعداد خريدهاي مشتريان در يك بازه زماني خاص و M، ميانگين مبالغ تراکنشهای مشتري در يك بازه زماني خاص میباشند.
دانش ضمنی خبرگان بانکی: بانک مهر اقتصاد برخی از مشتریان خود را به عنوان مشتریان کلیدی136 میشناسد. مشتریان کلیدی بانکی در هر استان بنا بر نظر خبرگان بانکی با ویژگیهای خاصی تعریف میشوند. منشأ این ویژگیها دانش ضمنی خبرگان بانکی در هر استان میباشد. در استان مازندران، این متغیر بر اساس ویژگی مانده حساب137 مشتری تعیین میگردد. در این تحقیق این متغیر با نام K تعریف میگردد.
این متغیرها در جدول 3-1 نمایش داده شده است.
جدول 3-1 متغیرهای تحقیق
ردیف
متغیر
شرح
1
ID
شماره مشتری
2
Sex
جنسیت
3
Age
سن
4
Education
تحصیلات
5
Marital Status
وضعیت تأهل
6
Job
شغل
7
Location
محل منطقه بانکی
8
R
فاصله زمانی میان آخرین تراکنش مشتری تا زمان گزارش گیری
9
F
تعداد تراکنشهای مشتریان در بازه زمانی یک ساله تا زمان گزارش گیری
10
M
میانگین مبلغ تراکنشهای مشتری در بازه زمانی یک ساله تا زمان گزارش گیری
11
K
مشتری جزء مشتریان کلیدی بانک میباشد یا خیر
3-2-3- آمادهسازی و پیشپردازش دادهها
در اين تحقيق براي جمع آوری دادهها از دادههاي موجود در پايگاه اطلاعاتي بانك مهر اقتصاد استفاده شده است.
به طور معمول ویژگیهای نمونههای مورد مطالعه در یک تحقیق دادهکاوی دارای بازه تغییرات یکسان نمیباشند. براي مثال اگر سن و متغیر پولی را به عنوان دو ویژگی یک مشتری در نظر بگیریم، این ویژگیها داراي بازه تغییرات متفاوتی هستند. همچنین مقادیر به دست آمده براي هر ویژگی نیز به واحد استفادهشده براي اندازهگیری آن ویژگی ارتباط مستقیم دارد براي مثال اگر براي اندازهگیری سن از واحد سال یا روز استفاده شود، مقادیر در بازههای مختلفی به دست خواهند آمد. در این صورت، ویژگیهای با مقادیر بزرگ تأثیر بیشتري بر تابع هدف میگذارند که لزوماً به معنی مهمتر بودن آنها در الگوریتم بخشبندی نیست و بنابراین اثري نامطلوب تلقی میگردد. براي رفع این مشکل از نرمال سازی به روش Min-Max استفاده شده است.
3-2-3-1- نرمال سازی دادهها
در این روش، با یک تبدیل خطی یا غیرخطی، دادهها را در بازهاي که توسط کاربر انتخاب میشود قرار میگیرند. این بازه در کاربردهاي دادهکاوی معمولاً [-1,1] یا[0,1] میباشد. برای قرارگیری دادهها در بازه بین صفر و یک میتوان از فرمول 3-1 استفاده نمود [31].
(3-1)
X^*= (X-Min(X))/(Range(X))
در فرمول بالا X نشاندهنده مقدار متغیر است.
3-2-4- تعیین تعداد بهینه خوشهها
یکی از مهمترین مسایل در خوشهبندی انتخاب تعداد خوشههای مناسب میباشد. تعداد خوشهای مناسب میباشد که:
نمونههای موجود در یک خوشه تا حد امکان شبیه به یکدیگر باشند.
نمونههای متعلق به خوشههای متفاوت تا حد امکان با یکدیگر نامشابه باشند.
عبارات فوق را بدین صورت نیز بیان میکنند که خوشهها باید بیشینه فشردگی داشته باشند و تا حد امکان جدایی آنها نیز زیاد باشد. برای یک خوشهبندی مناسب هر دو معیار باهم باید ارضا شوند چرا که اگر تنها معیار فشردگی مورد استفاده قرار گیرد در آن صورت هر داده میتواند به صورت یک خوشه در نظر گرفته شود چرا که هیچ خوشهای فشردهتر از خوشهای با یک داده نیست و اگر تنها معیار جدایی در نظر گرفته شود در آن صورت بهترین خوشهبندی این است که کل دادهها را یک خوشه بگیریم با این توضیح که فاصله هر خوشه از خودش صفر است. بنابراین باید از ترکیب دو معیار فوق استفاده شود.
به منظور تعیین تعداد بهینه خوشهها میتوان از روشهایی چون شاخص Davis-Bouldin، روش Two Step، تعیین تعداد بهینه خوشهها به کمک روشهای مبتنی بر گراف و یا نظرات خبرگان استفاده نمود.
3-2-5- خوشهبندی
خوشهبندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی باهم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با دادههای موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با دادههای موجود در سایر خوشهها متفاوتاند.
در خوشهبندی موضوعات زیر مورد توجه است:
چه تعداد از خوشهها میتواند دانش نهفته در دادهها را کشف نماید؟ مسئله تعداد خوشهها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت دادهها چیست؟ این معیارها خود به واسطه روشهای مختلفی محاسبه میگردد، اما در بیشتر روشهای خوشهبندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روشهای مختلفی چون فاصله اقلیدسی138، فاصله مینکوفسکی139 و یا فاصله مانهاتان140 محاسبه شود.
بعد از تعیین تعداد خوشهها و معیار شباهت یا فاصله دادهها، دادهها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشهبندی یک الگوریتم بدون ناظر141 در دادهکاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقهبندي هر داده به يک طبقه (کلاس) از پيش مشخصشده تخصيص مييابد ولي در خوشهبندي هيچ اطلاعي از کلاسهاي موجود درون دادهها وجود ندارد و به عبارتي خود خوشهها نيز از دادهها استخراج ميشوند.
با مطالعه و بررسی روشهای دادهکاوی موجود جهت خوشهبندی دادهها، الگوریتمهای K-Means، WK- Means و A-H-Means برای اعمال بر روی مجموعه دادهها انتخاب شدهاند.
3-2-5-1- انواع خوشهبندی
امروزه الگوریتمهای متنوعی در زمینه خوشهبندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشهبندی سلسلهمراتبی142
در این نوع خوشهبندی خوشهها به صورت متوالی به دو شیوه انباشتی143 و یا تقسیمکنندگی144 توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل دادهها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشهها ادامه مییابد.
2- خوشهبندی مبتنی بر مدل145
در این روش یک مدل احتمالی مشخص برای دادهها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که دادهها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشهبندی مبتنی بر بخشبندی146
نام دیگر این روش خوشهبندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف است. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینه سازی آن، ساختار معنیداری (خوشهها) را در دادههای مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشهبندی مبتنی بر بخشبندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیشترین شباهت و با مراکز دیگر خوشهها بیشترین عدم شباهت را داشته باشند.
3-2-5-2- خوشهبندی به روش K-Means
این روش، یک روش خوشهبندی مبتنی بر بخشبندی است که در آن هر خوشه به یک مرکز وابسته است. هر نقطه بسته فاصله خود باهر یک از مراکز، به خوشهای که نزدیکترین فاصله را با مرکز آن دارد مرکز تخصیص مییابد. تعداد خوشهها که همان تعداد مراکز است باید از قبل تعیین شده باشد. الگوریتم پایه این روش بسیار ساده است.
1- الگوریتم با انتخاب K مرکز آغاز میشود. این مراکز میتواند به طور حدسی یا تصادفی انتخاب گردد.
2- محاسبه مقدار تابع هدف به صورت زیر است:
(3-2)
KM(X,C)= ∑_(i=1)^n▒■(min〖‖x_i-c_j ‖^2 〗@jϵ{1…k})
3- برای هر داده xi، عضویت m(cjǀxi) به ازای هر مرکز cj و وزن مربوط به آن (w(xi)) محاسبه میشود.
تابع عضویت به صورت زیر محاسبه میشود:
(3-3)
m_KM (c_i ǀx_i )= {█(1 ;if l=arg〖min〗_j ‖x_i-c_j ‖^[email protected] ;otherwise )┤
تابع وزن عضویت به صورت زیر محاسبه میشود:
(3-4)
w_KM (x_i )= 1
4- برای هر دسته، مجدداً مرکز cj جدید به صورت زیر محاسبه میشود:
(3-5)
c_j= (∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)x_i 〗)/(∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)〗)
5- گامهای 3 و 4 را تا همگرا شدن دستهها تکرار نمایید [31].
الگوریتم خوشهبندی به روش K-means [31]
Select K points as the inintial centroids.
repeat
From K clusters by assigning all points to the closest centoid.
Recompute the centroid of each cluster.
until the centroids don’t change
3-2-5-1-1- مزایای استفاده از الگوریتم خوشهبندی K-Means
در صورت زیاد بودن تعداد متغیرها، این الگوریتم نسبت به روش سلسلهمراتبی دارای سرعت محاسبات بالاتر است (در صورتی که K کوچک باشد).
الگوریتم K-Means نسبت به روش سلسلهمراتبی خوشههای کمتری تولید مینماید.
3-2-5-1-2- محدودیتهای الگوریتم K-Means
K-Means زمانی که خوشهها از لحاظ اندازه و چگالی متفاوت و اشکال غیر کروی داشته باشند محدودیتهایی خواهد داشت. همچنین این الگوریتم زمانی که دادهها حاوی مقادیر پرت باشند با مشکل مواجه خواهد شد.
عليرغم اينکه خاتمه پذیری الگوريتم بالا تضمين شده است ولي جواب نهايي آن واحد نبوده و همواره جوابي بهينه نیست. به طور کلي روش ساده بالا داراي مشکلات زير است:
جواب نهايي به انتخاب خوشههاي اوليه وابستگي دارد.
روالي مشخص براي محاسبه اولیه مراکز خوشهها وجود ندارد.
اگر در تکراري از الگوريتم تعداد دادههاي متعلق به خوشهاي صفر شد راهي براي تغيير و بهبود ادامه روش وجود ندارد.
در اين روش فرض شده است که تعداد خوشهها از ابتدا مشخص است. اما معمولاً در کاربردهاي زيادي تعداد خوشهها مشخص نیست [31].
3-2-5-2- خوشهبندی به روش WK-Means147
در خوشهبندی با الگوریتم K-Means ارزش همه دادهها یکسان در نظر گرفته میشود که این مسئله یکی از نقاط ضعف این الگوریتم شناخته میشود. در روش WK-Means سعی شده با وزن دهی متغیرها بر اساس اهمیت نسبی آنها این ضعف را تعدیل نماید.
در الگوریتم W-K-Means به دادهها بر اساس اهمیت وزن داده میشود یعنی اگر دادههایمان x1،x2،…،xn باشد به ترتیب وزن w1،w2،…،wn میگیرند.
