منابع و ماخذ پایان نامه سلسله مراتب

دانلود پایان نامه ارشد

شده است. نشان را به عنوان فرا خوشه اول در نظر بگيريد. با جداسازي ابر لبه‌ها، شي وزن‌دار فرا لبه با بردار اجماع حاصل مي‌شود. متعاقباً، فرا خوشه در رقابت براي تخصيص رئوس/ اشياي و برنده مي‌شود و بنابراين خوشه در نتايج خوشه‌بندي جامع نشان داده مي‌شود. الگوريتم فرا خوشه‌بندي براي اين مثال روي خروجي‌هاي که يکي از شش خوشه‌بندي بهينه مي‌باشد و برابر با خوشه‌بندي‌هاي و است استوار است. عدم قطعيت در برخي از اشياء به ترتيب در اطمينان، ، ، ، ، و براي اشياي تا منعکس شده است.

2-۳-2-3. روش‌هاي مبتني بر ماتريس همبستگي
Input: D – the input data set N points
B – number of partitions to be combined
M – number of clusters in the final partition, σ
k – number of clusters in the components of the combination
Γ – a similarity-based clustering algorithm
for j=1 to B
Draw a random pseudosample Xj
Cluster the sample Xj: π (i)←K-means({Xj})
Update similarity values (co-association matrix) for all patterns in Xj
end
Combine partitions via chosen Γ: σ ←Γ (P)
Validate final partition, σ (optional)
return σ // consensus partition
شکل2-23. الگوريتم خوشه‌بندي تركيبي مبتني بر ماتريس همبستگي و با استفاده از توابع توافقي مختلف مبتني بر شباهت
در روش ماتريس همبستگي112 شباهت بين نقاط (مقادير همبستگي)، مي‌تواند با تعداد خوشه‌هاي به اشتراك گذاشته‌شده بين دو نقطه، در همه افرازهاي يك تركيب، تخمين زده شود . ساختار اين نوع از الگوريتم‌هاي خوشه‌بندي تركيبي در شكل 2-23 نشان داده شده است.
2-۳-2-3-1. الگوريتم‌هاي سلسله مراتبي تراكمي
فرض کنيد مجموعه داده شامل نقطه (نمونه) در فضاي بعدي است. داده‌هاي ورودي را مي‌توان به صورت يک ماتريس الگوي و يا يک ماتريس عدم تشابه در نظر گرفت. فرض کنيد مجموعه‌ي زيرمجموعه نمونه‌هاي ماست که از نمونه‌هاي اوليه استخراج‌شده‌اند. هر يک از الگوريتم‌هاي انتخابي هنگامي‌که بر روي زيرمجموعه نمونه‌هاي موجود در X اجرا شوند نتايج را توليد مي‌کنند. هر مجموعه‌اي از خوشه‌هاست. يا به عبارت ديگر و به ازاي هر داريم به ‌طوري که تعداد خوشه‌ها در i امين خوشه‌بندي است. اولين يك الگوريتم پايه (براي مثال) را بر روي اجرا مي‌کنيم تا بتوانيم با استفاده از ‌هاي توليدشده ماتريس همبستگي را به صورت زير به دست آوريم:
(2-52)
(2-53)
در رابطه 2-52، تابع در صورتي كه دو عنصر و در خوشه‌بندي در يك خوشه قرارگرفته باشند، مقدار يك و در غير اين صورت مقدار صفر برمي‌گرداند. مقدار پارامتر نمايانگر تعداد زيرمجموعه‌هاست و يا به بيان ديگر تعداد دفعات تكرار الگوريتم پايه است. معمولاً از الگوريتم‌هاي سلسله مراتبي پيوندي (منفرد، كامل، ميانگين و بخشي) براي تركيب از روي ماتريس همبستگي استفاده مي‌شود [33]. سه اشكال اصلي روش‌هاي مبتني بر ماتريس همبستگي عبارت‌اند از:
1- يك پيچيدگي محاسباتي درجه دوم در تعداد الگوها و ويژگي‌ها دارند.
2- هيچ راهنمايي براي اينكه كدام الگوريتم خوشه‌بندي بايد به‌کاربرده شود، وجود ندارد. به عنوان مثال پيوندي منفرد يا پيوندي كامل.
يك تركيب با يك تعداد كوچك از افرازها، ممكن است يك تخمين مطمئن از مقادير همبستگي را فراهم نكند.
2-۳-2-3-2. الگوريتم افرازبندي گراف با تکرار
در روش‌هاي معمول خوشه‌بندي ترکيبي پس از تشکيل ماتريس همبستگي حتماً بايد تعداد خوشه‌هاي نتيجه ترکيب را تعيين کرد. روشي که توسط [50] به تازگي معرفي شده است، راه‌حلي جهت تشخيص بهترين تعداد خوشه در ترکيب نهايي را به صورت خودکار معرفي مي‌کند. در اين روش ابتدا ماتريس همبستگي که در اينجا به آن ماتريس قضاوت مي‌گويند را تشکيل مي‌دهيم، سپس توسط الگوريتم افرازبندي تکراري مبتني بر گراف به صورت خودکار تعداد خوشه‌هاي نهايي را تشکيل مي‌دهيم. نتايج تجربي در [50] نشان مي‌دهد که هميشه فراهم کردن نتايج بهينه با تعيين تعداد خوشه نهايي به صورت ثابت امکان‌پذير نيست. در اين روش يک فرآيند افرازبندي گراف تکراري هر بار مقادير ماتريس همبستگي را يک درجه کاهش مي‌دهد به طوري که به تدريج اتصال ميان نقاط داده شکسته شود. افرازبندي گراف اصلي (که گراف معادل ماتريس همبستگي است) را به زير گراف‌ها تقسيم مي‌کند. براي تشخيص تعداد خوشه نتيجه نهايي کافي است تا تعداد زير گراف‌ها را بشماريم. الگوريتم افرازبندي گراف با تکرار دو مرحله کلي دارد، ابتدا کاهش درجه ماتريس و سپس شمارش تعداد زير گراف‌ها.
کاهش ماتريس‌ها يک رويه جهت کاهش ماتريس همبستگي به يک درجه کمتر در يک مرحله تکراري است، اين رويه تا جايي تکرار مي‌شود تا تمام موجوديت‌ها شروع به صفر شدن کنند. اين رويه به صورت رابطه زير نمايش داده مي‌شود.
(2-54)
در اين رابطه ماتريس کسر يک بر روي هر ورودي در ماتريس پيشين است. رويه کاهش ماتريس پيشنهادشده به تدريج ارتباطات سست بين نقاط داده را مي‌شکند.
شمارش زير گراف‌ها يک رويه براي شمارش تعداد زير گراف‌هاي متصل در هر ماتريس کاهش يافته است و براي ارزيابي شرايط خوشه‌بندي در طول فرآيند کاهش استفاده مي‌شود. الگوريتم پيمايشي گراف براي شمارش گراف از ماتريس پياده‌سازي شده است، به عنوان مثال الگوريتم113 که به صورت زير محاسبه مي‌شود:
(2-55)
ماتريس همبستگي که از متريک مشاهده‌اي جمع‌آوري شده است به عنوان ورودي فرآيند افرازبندي گراف عمل مي‌کند. در طول هر مرحله از کاهش، يک ماتريس جديد و گراف مجاورت آن توليد مي‌شود. هر شامل تعدادي از زير گراف‌ها مي‌باشد. تعداد اين زير گراف‌ها در واقع تعداد خوشه در نتيجه نهايي مي‌باشد. فرآيند افرازبندي تا وقتي که تمامي ورودي‌هاي صفر شوند ادامه پيدا مي‌کند. الگوريتم افرازبندي گراف با تکرار در شبه کد شکل (2-24) نشان داده شده است.
Input: A judgment matrix

BSF_traversal();

Do

Decreasing ()
BSF_traversal ()
ClusterNumber[n] = getSubGraphNumber();

Until (all entries in previous are )
Return and
Output: An array of cluster numbers-ClusterNumber[n] and a set of
شکل2-24. الگوريتم افرازبندي با تکرار
شکل (2-25) قسمتي از فرآيند کاهش و محاسبه را به تصوير مي‌کشد. گراف مجاورت ماتريس همبستگي اصلي قسمت (الف) شکل (2-25) نشان داده شده است. در اين مورد نشان داده شده است که تمامي نقاط داده متصل شده‌اند و بنابراين آن‌ها متعلق به تنها يک خوشه هستند. در بخش (ب) شکل (2-25) سه زير گراف پس از چند تکرار افرا بندي گراف نشان داده شده است، که در آن اتصالات بين سه زير گراف قطع شده است. اين بدان مفهوم مي‌باشد که اتصالات اين نقاط داده به طور مقايسه‌اي ضعيف تر از ساير نقاط متصل مي‌باشد. از اين رو در اين مرحله سه خوشه شناسايي شده است. در قسمت (ج) و (د) شکل (2-25) چهار و پنج خوشه بعد از تکرا الگوريتم افرازبندي گراف پيداشده‌اند. اگر اين فرآيند مطابق بخش (هـ) و (و) ادامه پيدا کند مي‌توان تعداد بيشتري از زير گراف‌ها را پيدا کرد. به عنوان نتيجه هر مرحله کاهش و شمارش اتصالات زير گراف‌ها را قطع کرده و يک تعداد از نتايج خوشه‌بندي پيدا مي‌شود. با اين وجود، بايد به اين سؤال پاسخ داد که چگونه نتايج نهايي خوشه‌بندي و تعداد دلخواه خوشه‌بندي به دست مي‌آيد.
(الف)
(ب)
(ج)
(د)
(هـ)
(و)
شکل2-25. نمايش گراف مجاورت در مراحل کاهش درجه ماتريس و شمارش آن [50].
در اين روش، هر تکرار از فرآيند افرازبندي گراف تعدادي از زير گراف‌ها را توليد مي‌کند، و تعداد زير گراف‌ها دقيقاً برابر با تعداد خوشه‌هاي آن تکرار مي‌باشد. در توزيع عددي زير گراف همان طور که در شکل (2-26) نشان داده شده است تعداد زير گراف‌ها ممکن است براي تعدادي از تکرارها ثابت باقي بماند سپس يک تغيير قابل‌لمس را پس از مرحله ثبات شاهد هستيم. تعداد مطلوب خوشه بر اين اساس به صورت باثبات‌ترين تعداد زير گراف در توزيع تعريف شده است، به اين دليل که تحت اين تعداد زير گراف اتصالات نقاط داده در زير گراف‌ها سخت‌ترين و قويي‌ترين در مقابله با شکستن هستند. شکل (2-26) مثالي از توزيع تعداد زير گراف و نتايج ترکيب نهايي را نشان مي‌دهد. در شکل (2-26) بديهي است که عدد چهار تعداد مطلوب مي‌باشد که هم در شکل پايداري توزيع (لف) و هم در تعداد خوشه‌ها (ب) نمايان است.

(الف)

(ب)
شکل2-26. مثال روند تغيير توزيع تعداد خوشه [50].
الگوريتم افرازبندي گراف با تکرار يک راه حل تطبيق‌پذير را دنبال مي‌کند زير آن مي‌تواند به راحتي با الگوريتم‌هاي خوشه‌بندي ديگر براي به دست آوردن نتايج قابل‌اتکا و شناسايي تعداد خوشه‌بندي دلخواه کار کند. شبه کد شکل (2-27) يک جريان کار عمومي براي پياده‌سازي الگوريتم افرازبندي گراف با تکرار در الگوريتم‌هاي ديگر را به تصوير مي‌کشد.
Input: A data set in n-dimensional space
1. Using OCA to cluster the data set Y with cluster number ranging from 2 to k;
2. Every clustering result can be represented by a vector , where if both and belongs to the cluster;
3. An observation matrix O can be computed from the vector L according to
4. A judgment matrix J can be obtained as the sum of observation matrices O,
5. The adjacency graph of J is iteratively partitioned so as to identify the desired cluster number and clustering results according to the distribution of the number of sub-graphs.
Output: The desired cluster number and final clustering result.
شکل2-27. جريان کار عمومي براي پياده‌سازي الگوريتم افرازبندي گراف
2-3-3. الگوريتم‌هاي خوشه‌بندي تركيبي كامل
الگوريتم‌هاي خوشه‌بندي تركيبي كامل114 روشي كاربردي و ساده جهت ايجاد خوشه‌بندي تركيبي است. در اين روش ما تمامي نتايج اوليه به دست آمده را بدون هيچ شرطي باهم توسط يك تابع توافقي ادغام مي‌کنيم. روش انباشت مدارک115 (EAC) يكي از روش‌هاي خوشه‌بندي كامل است كه توسط فرد و جين معرفي شد است. در اين روش معمولاً براي ايجاد نتايج اوليه خوشه‌بندي از استفاده مي‌شود و تابع توافقي آن روش الگوريتم‌هاي سلسله مراتبي تراكمي مي‌باشد. در روش انباشت مدارک ابتدا بر اساس رابطه (2-56) ماتريس همبستگي را تشکيل مي‌دهيم و سپس روي اين ماتريس همانند يک ماتريس شباهت/تفاوت ساده توسط الگوريتم سلسله مراتبي يک خوشه‌بندي انجام مي‌دهيم [19].
(2-56)
در رابطه (2-56) پارامتر تعداد دفعاتي است که جفت نمونه‌هاي و باهم در يک خوشه گروه‌بندي شده‌اند و تعداد نمونه‌برداري‌هايي است که هر دوي اين جفت نمونه‌ها به طور همزمان در آن ظاهرشده‌اند.
2-4. خوشه‌بندي تركيبي مبتني بر انتخاب
اولين بار فرن و لين در [23] خوشه‌بندي تركيبي مبتني بر انتخاب116 را با اين عنوان بر اساس ايده‌‌ي حادجي‌تودوروو117 و همکاران [84] معرفي کردند. که در آن اين نظريه مطرح مي‌شود که تعدادي از افراز‌ها و يا خوشه‌هاي ارزيابي‌شده در مجموعه افراز‌هاي خوشه‌بندي ترکيبي مي‌تواند جواب نهايي بهتري نسبت به ترکيب کامل تمامي اعضاي مجموعه توليد کند. در اين روش علاوه بر چالش‌هاي پيشين مطرح‌شده در خوشه‌بندي ترکيبي (نحوي ساخت نتايج اوليه و نحوي ترکيب آن‌ها براي توليد نتيجه‌ي نهايي) دو مسئله‌ي ارزيابي نتايج اوليه و راهکار118 انتخاب مجموعه منتخب از نتايج ارزيابي‌شده مطرح خواهد شد. در سال‌هاي اخير برخي از مقالات راهکار‌هايي جهت حل دو چالش مطرح‌شده بيان کرده‌اند. اولين راه حل در اين روش توسط فرن و لين در [23] بيان شده است که اين تحقيق آن را خوشه‌بندي ترکيبي مبتني بر انتخاب فرن و لين نام‌گذاري مي‌کند. علاوه بر آن چندين روش

پایان نامه
Previous Entries منابع و ماخذ پایان نامه خوشه‌بندي، افرازبندي، الگوريتم Next Entries منابع و ماخذ پایان نامه خوشه‌بندي، ترکيب، پراکندگي