منابع پایان نامه درباره خوشه‌بندی، مشتریان کلیدی، سلسله‌مراتب

دانلود پایان نامه ارشد

است که این مهم از تلفیق ابزارهای دانشی با رویکردهای مربوط به مدیریت ارتباط با مشتریان حاصل خواهد شد.
3-2-1- چارچوب تحقیق
در شکل 3-1 چارچوب کلی این تحقیق نشان داده شده است.

شکل 3-1 چارچوب تحقیق
3-2-2- انتخاب متغیرها
شناسایی متغیرها از گام‌های اساسی در مسیر تحقیق است. با در نظر گرفتن اهداف تحقيق، مطالعه تحقيقات انجام‌شده در حوزه بخش‌بندی رفتاری مشتریان بانک و بررسی رویکردهای سازمانی بانک مهر اقتصاد، سه دسته متغير زير انتخاب شده است:
دادههاي جمعيت آماری مشتریان: اين متغيرها شامل جنسيت، سن، تحصيلات، وضعيت تأهل، شغل و تاریخ تولد، محل منطقه بانکی و … می‌باشد.
تراکنش‌های مالي مشتريان: تراکنش‌های مالي مشتري می‌تواند شاخص مناسبی برای بررسي الگوي رفتاري مشتري باشد و تحقیقات زیادی در این زمینه صورت گرفته است. در این میان متغيرهايی چون تراكنش اخير مشتري133، متغیر پولی134، فراواني135 (که به اصطلاح با سر نام RFM شناخته میشوند)، در مطالعات داده‌کاوی کاربرد گستردهای یافتهاند. اين متغیرها در پايگاه اطلاعاتی بانک وجود دارند و از طريق پردازش دادههاي تراكنشي مشتريان محاسبه می‌شوند که R، فاصله ميان زمان آخرين تراكنش مشتري تا زمان مورد ارزيابي، F، تعداد خريدهاي مشتريان در يك بازه زماني خاص و M، ميانگين مبالغ تراکنش‌های مشتري در يك بازه زماني خاص میباشند.
دانش ضمنی خبرگان بانکی: بانک مهر اقتصاد برخی از مشتریان خود را به عنوان مشتریان کلیدی136 میشناسد. مشتریان کلیدی بانکی در هر استان بنا بر نظر خبرگان بانکی با ویژگی‌های خاصی تعریف میشوند. منشأ این ویژگیها دانش ضمنی خبرگان بانکی در هر استان میباشد. در استان مازندران، این متغیر بر اساس ویژگی مانده حساب137 مشتری تعیین میگردد. در این تحقیق این متغیر با نام K تعریف میگردد.
این متغیرها در جدول 3-1 نمایش داده شده است.

جدول 3-1 متغیرهای تحقیق
ردیف
متغیر
شرح
1
ID
شماره مشتری
2
Sex
جنسیت
3
Age
سن
4
Education
تحصیلات
5
Marital Status
وضعیت تأهل
6
Job
شغل
7
Location
محل منطقه بانکی
8
R
فاصله زمانی میان آخرین تراکنش مشتری تا زمان گزارش گیری
9
F
تعداد تراکنشهای مشتریان در بازه زمانی یک ساله تا زمان گزارش گیری
10
M
میانگین مبلغ تراکنشهای مشتری در بازه زمانی یک ساله تا زمان گزارش گیری
11
K
مشتری جزء مشتریان کلیدی بانک میباشد یا خیر

3-2-3- آماده‌سازی و پیش‌پردازش داده‌ها
در اين تحقيق براي جمع آوری داده‌ها از دادههاي موجود در پايگاه اطلاعاتي بانك مهر اقتصاد استفاده شده است.
به طور معمول ویژگی‌های نمونههای مورد مطالعه در یک تحقیق داده‌کاوی دارای بازه تغییرات یکسان نمی‌باشند. براي مثال اگر سن و متغیر پولی را به عنوان دو ویژگی یک مشتری در نظر بگیریم، این ویژگیها داراي بازه تغییرات متفاوتی هستند. همچنین مقادیر به دست آمده براي هر ویژگی نیز به واحد استفاده‌شده براي اندازه‌گیری آن ویژگی ارتباط مستقیم دارد براي مثال اگر براي اندازه‌گیری سن از واحد سال یا روز استفاده شود، مقادیر در بازه‌های مختلفی به دست خواهند آمد. در این صورت، ویژگی‌های با مقادیر بزرگ تأثیر بیشتري بر تابع هدف می‌گذارند که لزوماً به معنی مهم‌تر بودن آن‌ها در الگوریتم بخش‌بندی نیست و بنابراین اثري نامطلوب تلقی می‌گردد. براي رفع این مشکل از نرمال سازی به روش Min-Max استفاده شده است.
3-2-3-1- نرمال سازی داده‌ها
در این روش، با یک تبدیل خطی یا غیرخطی، داده‌ها را در بازهاي که توسط کاربر انتخاب می‌شود قرار می‌گیرند. این بازه در کاربردهاي داده‌کاوی معمولاً [-1,1] یا[0,1] میباشد. برای قرارگیری داده‌ها در بازه بین صفر و یک میتوان از فرمول 3-1 استفاده نمود [31].
(3-1)
X^*= (X-Min(X))/(Range(X))
در فرمول بالا X نشان‌دهنده مقدار متغیر است.
3-2-4- تعیین تعداد بهینه خوشه‌ها
  یکی از مهم‌ترین مسایل در خوشه‌بندی انتخاب تعداد خوشه‌های مناسب می‌باشد. تعداد خوشه‌ای مناسب می‌باشد که:
نمونه‌های موجود در یک خوشه تا حد امکان شبیه به یکدیگر باشند.
نمونه‌های متعلق به خوشه‌های متفاوت تا حد امکان با یکدیگر نامشابه باشند.
عبارات فوق را بدین صورت نیز بیان می‌کنند که خوشه‌ها باید بیشینه فشردگی داشته باشند و تا حد امکان جدایی آن‌ها نیز زیاد باشد. برای یک خوشه‌بندی مناسب هر دو معیار باهم باید ارضا شوند چرا که اگر تنها معیار فشردگی مورد استفاده قرار گیرد در آن صورت هر داده می‌تواند به صورت یک خوشه در نظر گرفته شود چرا که هیچ خوشه‌ای فشرده‌تر از خوشه‌ای با یک داده نیست و اگر تنها معیار جدایی در نظر گرفته شود در آن صورت بهترین خوشه‌بندی این است که کل داده‌ها را یک خوشه بگیریم با این توضیح که فاصله هر خوشه از خودش صفر است. بنابراین باید از ترکیب دو معیار فوق استفاده شود.
به منظور تعیین تعداد بهینه خوشه‌ها میتوان از روشهایی چون شاخص Davis-Bouldin، روش Two Step، تعیین تعداد بهینه خوشه‌ها به کمک روش‌های مبتنی بر گراف و یا نظرات خبرگان استفاده نمود.

3-2-5- خوشه‌بندی
خوشه‌بندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی باهم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با داده‌های موجود در خوشهای که در آن قرار میگیرند، بیش‌ترین شباهت را دارند؛ و با داده‌های موجود در سایر خوشه‌ها متفاوتاند.
در خوشه‌بندی موضوعات زیر مورد توجه است:
چه تعداد از خوشه‌ها میتواند دانش نهفته در داده‌ها را کشف نماید؟ مسئله تعداد خوشه‌ها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
معیارهای شباهت و تفاوت داده‌ها چیست؟ این معیارها خود به واسطه روش‌های مختلفی محاسبه میگردد، اما در بیشتر روش‌های خوشه‌بندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده میشود. فاصله فضایی میتواند با روش‌های مختلفی چون فاصله اقلیدسی138، فاصله مینکوفسکی139 و یا فاصله مانهاتان140 محاسبه شود.
بعد از تعیین تعداد خوشه‌ها و معیار شباهت یا فاصله داده‌ها، داده‌ها با استفاده از چه روشی در تعداد خوشههای معین جای گیرند [11].
خوشه‌بندی یک الگوریتم بدون ناظر141 در داده‌کاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمیشود و همه صفات ورودی ارزش یکسان دارند [2].
تفاوت این روش با طبقهبندی در این است که در طبقه‌بندي هر داده به يک طبقه (کلاس) از پيش مشخص‌شده تخصيص مي‌يابد ولي در خوشه‌بندي هيچ اطلاعي از کلاسهاي موجود درون داده‌ها وجود ندارد و به عبارتي خود خوشه‌ها نيز از داده‌ها استخراج مي‌شوند.
با مطالعه و بررسی روش‌های داده‌کاوی موجود جهت خوشه‌بندی داده‌ها، الگوریتم‌های K-Means، WK- Means و A-H-Means برای اعمال بر روی مجموعه داده‌ها انتخاب شدهاند.
3-2-5-1- انواع خوشه‌بندی
امروزه الگوریتم‌های متنوعی در زمینه خوشه‌بندی معرفی شدهاند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [1]:
1- خوشه‌بندی سلسله‌مراتبی142
در این نوع خوشه‌بندی خوشه‌ها به صورت متوالی به دو شیوه انباشتی143 و یا تقسیمکنندگی144 توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل داده‌ها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشه‌ها ادامه مییابد.
2- خوشه‌بندی مبتنی بر مدل145
در این روش یک مدل احتمالی مشخص برای داده‌ها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح میشود و فرض میشود که داده‌ها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته میشود.
3- خوشه‌بندی مبتنی بر بخش‌بندی146
نام دیگر این روش خوشه‌بندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف است. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینه سازی آن، ساختار معنیداری (خوشه‌ها) را در داده‌های مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشه‌بندی مبتنی بر بخش‌بندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [1]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده میشود بیش‌ترین شباهت و با مراکز دیگر خوشه‌ها بیش‌ترین عدم شباهت را داشته باشند.
3-2-5-2- خوشه‌بندی به روش K-Means
این روش، یک روش خوشه‌بندی مبتنی بر بخش‌بندی است که در آن هر خوشه به یک مرکز وابسته است. هر نقطه بسته فاصله خود باهر یک از مراکز، به خوشهای که نزدیکترین فاصله را با مرکز آن دارد مرکز تخصیص مییابد. تعداد خوشه‌ها که همان تعداد مراکز است باید از قبل تعیین شده باشد. الگوریتم پایه این روش بسیار ساده است.
1- الگوریتم با انتخاب K مرکز آغاز میشود. این مراکز میتواند به طور حدسی یا تصادفی انتخاب گردد.
2- محاسبه مقدار تابع هدف به صورت زیر است:
(3-2)
KM(X,C)= ∑_(i=1)^n▒■(min⁡〖‖x_i-c_j ‖^2 〗@jϵ{1…k})
3- برای هر داده xi، عضویت m(cjǀxi) به ازای هر مرکز cj و وزن مربوط به آن (w(xi)) محاسبه میشود.
تابع عضویت به صورت زیر محاسبه میشود:
(3-3)
m_KM (c_i ǀx_i )= {█(1 ;if l=arg〖min〗_j ‖x_i-c_j ‖^2@0 ;otherwise )┤
تابع وزن عضویت به صورت زیر محاسبه میشود:
(3-4)
w_KM (x_i )= 1
4- برای هر دسته، مجدداً مرکز cj جدید به صورت زیر محاسبه میشود:
(3-5)
c_j= (∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)x_i 〗)/(∑_(i=1)^n▒〖m(c_j ǀx_i )w(x_i)〗)
5- گام‌های 3 و 4 را تا همگرا شدن دستهها تکرار نمایید [31].
   

الگوریتم خوشه‌بندی به روش K-means [31]
Select K points as the inintial centroids.
repeat
From K clusters by assigning all points to the closest centoid.
Recompute the centroid of each cluster.
until the centroids don’t change

3-2-5-1-1- مزایای استفاده از الگوریتم خوشه‌بندی K-Means
در صورت زیاد بودن تعداد متغیرها، این الگوریتم نسبت به روش سلسله‌مراتبی دارای سرعت محاسبات بالاتر است (در صورتی که K کوچک باشد).
الگوریتم K-Means نسبت به روش سلسله‌مراتبی خوشه‌های کمتری تولید می‌نماید.
3-2-5-1-2- محدودیت‌های الگوریتم K-Means
K-Means زمانی که خوشه‌ها از لحاظ اندازه و چگالی متفاوت و اشکال غیر کروی داشته باشند محدودیتهایی خواهد داشت. همچنین این الگوریتم زمانی که داده‌ها حاوی مقادیر پرت باشند با مشکل مواجه خواهد شد.
علي‌رغم اينکه خاتمه پذیری الگوريتم بالا تضمين شده است ولي جواب نهايي آن واحد نبوده و همواره جوابي بهينه نیست. به طور کلي روش ساده بالا داراي مشکلات زير است:
جواب نهايي به انتخاب خوشه‌هاي اوليه وابستگي دارد.
روالي مشخص براي محاسبه اولیه مراکز خوشه‌ها وجود ندارد.
اگر در تکراري از الگوريتم تعداد داده‌هاي متعلق به خوشه‌اي صفر شد راهي براي تغيير و بهبود ادامه روش وجود ندارد.
در اين روش فرض شده است که تعداد خوشه‌ها از ابتدا مشخص است. اما معمولاً در کاربردهاي زيادي تعداد خوشه‌ها مشخص نیست [31].

3-2-5-2- خوشه‌بندی به روش WK-Means147
در خوشه‌بندی با الگوریتم K-Means ارزش همه داده‌ها یکسان در نظر گرفته میشود که این مسئله یکی از نقاط ضعف این الگوریتم شناخته میشود. در روش WK-Means سعی شده با وزن دهی متغیرها بر اساس اهمیت نسبی آنها این ضعف را تعدیل نماید.
در الگوریتم W-K-Means به داده‌ها بر اساس اهمیت وزن داده می‌شود یعنی اگر داده‌هایمان x1،x2،…،xn باشد به ترتیب وزن w1،w2،…،wn می‌گیرند.

پایان نامه
Previous Entries منابع پایان نامه درباره مدیریت دانش، مدیریت ارتباط، مدیریت دانش مشتری Next Entries منابع پایان نامه درباره خوشه‌بندی، ارتباط با مشتری، فناوری اطلاعات