منبع پایان نامه ارشد با موضوع سلسله مراتب

دانلود پایان نامه ارشد

که طي دو مرحله انجام مي گيرد. در مرحله اول مجموعه اي از داده ها که در آن هر داده شامل تعدادي خصوصيتِ داراي مقدار و يک خصوصيت به نام خصوصيتِ کلاس مي باشد، براي ايجاد يک مدل داده به کار مي رود که اين مدل داده در واقع توصيف کننده مفهوم و خصوصيات مجموعه داده هايي است که اين مدل از روي آن ها ايجاد شده است. مرحله دوم اعمال فرايند طبقه بندي يا به کارگيري مدل داده ايجاد شده بر روي داده هايي است که شامل تمام خصوصيات داده هايي مي شود که براي ايجاد مدل داده به کار گرفته شده اند، به جز خصوصيت کلاس اين مقادير، که هدف از عمل طبقه بندي نيز تخمين مقدار اين خصوصيت مي باشد(هن و کمبر 2006).
پيش بيني24
پيش بيني به هر دو مورد پيش بيني مقادير عددي و پيش بيني کلاس ها اشاره دارد. پيش بيني شامل شناسايي روند توزيع بر اساس اطلاعات در دسترس است. طبقه بندي و پيش بيني ممکن است نياز به تجزيه و تحليل مرتبط داشته باشند تا بتوانند صفاتي را که در فرايند طبقه بندي يا پيش بيني مشارکتي ندارند شناسايي و در صورت تمايل آن ها را حذف نمايند (هن و کمبر 2006).
تحليل خوشه اي25
خوشه بندي، يک جمعيت نامنظم را به مجموعه اي از زيرگروه هاي منظم تقسيم بندي مي کند. برخلاف دسته بندي و پيش بيني که اشيا داده ها را بر اساس کلاس ها تحليل مي کنند، خوشه بندي اشيا داده ها را بدون در نظر گرفتن برچسب هاي کلاس تحليل و آناليز مي نمايند. عمدتاً برچسب کلاس ها در داده هاي آموزشي به آساني مشخص نيست زيرا اين کلاس ها شناخته شده نمي باشند. خوشه بندي گاهي براي تعيين و توليد چنين برچسب هايي به کار مي رود. به عبارت ديگر مي توان خوشه بندي را به صورت دسته بندي تعريف کرد، با اين تفاوت که دسته ها و برچسب آن ها از پيش تعريف شده نبوده و عمل دسته بندي، بدون نظارت انجام مي گيرد.
اشيا خوشه بندي شده بر اساس اصل ماکزيمم شباهت بين اعضا هر خوشه و مينيمم شباهت بين خوشه هاي مختلف گروه بندي مي شوند. يعني خوشه ها به گونه اي تنظيم مي شوند که اشيا داخل هر خوشه بيشترين شباهت را با يکديگر داشته باشند. معيار شباهت وقتي که همه مشخصه ها پيوسته هستند، معمولا با فاصله اقليدسي بيان مي شود، در غير اين صورت يک معيار مناسب براي آن در نظر گرفته مي شود.
به عنوان شاخه اي از آمار، خوشه بندي براي سال ها به صورت وسيعي مورد مطالعه قرار گرفته و بر روي تحليل فاصله متمرکز شده است. ابزارهاي خوشه بندي که مبتني بر K-means و K-mediods و روش هايي مانند آن ها هستند در خيلي از بسته هاي آماري مانند Spss، S-plus و Sas وجود دارند. آناليز خوشه اي کاربردهاي گسترده اي دارد که عبارتند از: شناسايي متن، آناليز داده، پردازش تصوير و تحقيقات بازار و … ( هن و کمبر، 2006، رومرو 2007)
تخمين26
تخمين با نتايج مجزايي که با ارقام پيوسته نشان داده شده اند، سرو کار دارد. در تخمين، داده هاي ورودي در قالب متغيرهاي ورودي به سيستم داده مي شود و متغيرهاي خروجي آن رقمي چون درآمد يا تراز کارت اغتباري مي باشد.
در عمل، تخمين اغلب براي دسته بندي استفاده مي شود. روش تخمين فوايد زيادي دارد که مهم ترين آن اين است که در آن اطلاعات را مي توان مطابق تخمين به دست آمده مرتب نمود. براي پي بردن به اهميت آن فرض کنيد که يک شرکت توليد پوتين هاي اسکي براي ارسال پانصد هزار آگهي تبليغاتي محصول جديد خود بودجه ريزي نموده است. فرض کنيد از روش دسته بندي استفاده شده و يک و نيم ميليون نفر اسکي باز تعيين شده اند، پس به راحتي مي توان به صورت تصادفي، تبليغات را براي پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالي که اگر مدل تخمين، امتياز تمايل به اسکي را براي کليه افراد تعيين نمايد شايسته است که تبليغات را براي پانصد هزار نفر از محتمل ترين کانديداها فرستاد. پر واضح است که احتمال پاسخ گيري و ارسال تبليغات بر اساس مدل تخمين بسيار بيشتر از ارسال تصادفي تبليغات مي باشد
مدل هاي رگرسيون و شبکه هاي عصبي از جمله تکنيک هاي مناسب داده کاوي براي تخمين مي باشد (شهرابي، 1390).
گروه بندي شباهت يا قوانين وابستگي27
قوانين وابستگي براي تعيين ويژگي هاي هم زماني هستند که در وقوع يک پديده رخ مي دهند. به عبارت ديگر عمل گروه بندي شباهت يا قوانين وابستگي احتمال وقوع و يا عدم وقوع هم زمان ويژگي ها را تعيين مي نمايد.به عبارت ساده تر گروه بندي شباهت تعيين مي کند که چه چيزهايي با هم جورند؛ مثال معمول اين موضوع تعيين کالاهايي است که با هم در يک چرخ دستي خريد در سوپرمارکت قرار مي گيرند، چيزي که آن را تحليل سبد بازار مي ناميم28
گروه بندي شباهت بک روش ساده براي ايجاد قوانين از داده هاست. اگر دو قلم کالا مثلا شير خشک و پوشک نوزاد در يک قفسه و کنار هم چيده شوند، مي توان دو قانون وابستگي ايجاد کرد(شهرابي، 1390):
افرادي که شير خشک نوزاد مي خرند هم چنين با احتمال 1 Pپوشک نوزاد را مي خرند.
افرادي که پوشک نوزاد مي خرند هم چنين با احتمال 2 P شير خشک نوزاد را هم مي خرند.
تعيين قواعد وابستگي معمولاً در بانک اطلاعات تراکنش ها کاربرد دارد. در اين روش که به صورت قواعد اگر_ آنگاه (X-Y) بيان مي شود، هم زمان واقع شدن X و Y با Support و شانس وقوع قاعده با Confidence بيان مي شود. Support بالاي يک قاعده، نشان دهنده ي تکرار زياد و نياز به توجه ويژه به آن و Confidence بالا نشان دهند ي صحت کافي قاعده براي استفاده در تصميم گيري هاست. مقادير Support و Confidence به روش زير محاسبه مي گردد:
تعداد کل/تعداد تکرارX =Support(X)
تعداد کل/تعداد تکرارX و Y باهم =Support(XY)
Confidence(X-Y) =Support (XY)/Support(X)

توصيف و نمايه سازي29
گاهي اوقات هدف داده کاوي، تنها توصيف آن چيزي است که در يک پايگاه داده اي پيچيده در جريان است. نتايج نمايه سازي درک ما را از مردم، محصولات يا فرايندهايي که داده ها را در مرحله اول توليد کرده اند افزايش مي دهد. درحقيقت نمايه سازي يک روش آشنا براي بسياري از مسائل است که نياز به درگير شدن با تحليل پيچيده داده ها ندارد. به عنوان مثال مطالعه و نظرسنجي يک روش رايج براي ساختن نمايه مشتريان است. مطالعات و نظر سنجي ها نشان مي دهند که مشتريان بالفعل و بالقوه چه مشخصاتي دارند يا حداقل اين که چطور پاسخ دهندگان به سوالات پاسخ مي دهند.
نمايه ها معمولاً مبتني بر متغيرهاي جمعيت شناختي هم چون موقعيت جغرافيايي، جنسيت و سن هستند؛ از آن جا که تبليغات با توجه به همين متغيرها انجام مي شود، نمايه هاي جمعت شناختي را مي توان مستقمياً به استراتژي هاي سازماني تبديل کرد. به طور مثال از نمايه هاي ساده براي تعيين حق بيمه استفاده مي شود؛ يک پسر 17 ساله بيش تر از يک زن 60 ساله براي بيمه خودرو بايستي پرداخت کند.
درخت تصميم گيري ابزار مفيدي براي نمايه سازي مي باشد؛ قوانين وابستگي و خوشه بندي را نيز مي توان براي نمايه سازي استفاده نمود(شهرابي، 1390).
دسته بندي الگوريتم هاي داده کاوي
به طور کلي الگوريتم هاي داده کاوي را مي توان به سه دسته اصلي تقسيم نمود(نخعي زاده، 1388):
الگوريتم هاي با رويکرد يادگيري ماشيني:
از اين دسته الگوريتم ها مي توان به الگوريتم هاي استنتاج مبتني بر قواعد30، درخت هاي تصميم31، شبکه هاي عصبي32 و خوشه بندي بر مبناي مفاهيم33 اشاره کرد.
الگوريتم هاي با رويکرد آمار:
تحليل خوشه بندي34، تحليل رگرسيون و تحليلي رگرسيون لجستيک از اين دسته الگوريتم ها مي باشند.
الگوريتم هاي با رويکرد فن آوري هاي بانک هاي اطلاعاتي:
قواعد وابستگي35، نمونه اي از اين دسته از الگوريتم ها مي باشند.
الگوريتم هاي خوشه بندي
مهم ترين روش هاي خوشه بندي به شرح ذيل مي باشند(مرشدلو، 1386):
روش افرازي ( تقسيم بندي)36
روش سلسله مراتبي37
روش مبتني بر چگالي38
روش مبتني بر مشبک کردن فضا39
روش مبتني بر مدل40
روش افرازي ( تقسيم بندي)
روش هاي خوشه بندي که به روش تقسيم بندي عمل مي کنند، داده هاي موجود در يک مجوعه داده را به K خوشه تقسيم مي کنند، به طوري که هر خوشه 2 خصوصيت زير را داراست:
هر خوشه يا گروه حداقل شامل يک داده باشد.
هر داده موجود در مجموعه داده دقيقاً به يک گروه يا خوشه تعلق دارد.
معيار اصلي در چنين مجموعه داده هايي ميزان شباهت داده هاي قرار گرفته در هر خوشه مي باشد. در حالي که داده هاي قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادي دارند. مقدار K که به عنوان پارامتر استفاده مي گردد، هم مي تواند به صورت پويا تعيين گردد و هم مي توان قبل از شروع الگوريتم خوشه بندي مقدار آن را مشخص کرد.
براي دست يابي به خوشه بندي بهينه به شمارش همه افرازهاي ممکن نياز خواهد بود. يعني تمام حالات ممکن بايد بررسي شوند که اين روش براي پايگاه داده هاي بزرگ ناممکن است. معمولا از يکي از الگوريتم هاي K-means يا K-medoids استفاده مي شود در الگوريتم K-means هر خوشه با ميانگين اشيا آن خوشه (مرکز خوشه) و در الگوريتم K-medoids با يکي از اشيا که در نزديکي مرکز خوشه جاي گرفته است، نشان داده مي شود.
الگوريتم K-means
الگوريتم K-means يکي از پرکاربردترين الگوريتم هاي خوشه بندي مي باشد(شهرابي، 1390). اين الگوريتم K ( تعداد خوشه ها) را به عنوان ورودي مي گيرد و مجموعه n شي را به K خوشه افراز مي کند، به صورتي که سطح شباهت داخلي خوشه ها را بالا برده و سطح شباهت اشيا بين خوشه ها را کاهش دهد.
روش کار در اين الگوريتم بدين صورت است:
به صورت تصادفي K شي را به عنوان مراکز خوشه هايي ابتدايي انتخاب مي کند.
هر شي را با توجه به بيشترين شباهت آن به مراکز خوشه ها، به خوشه ها تخصيص مي دهد.
مراکز خوشه ها را به روز مي کند. به اين معني که براي هر خوشه مقدار متوسط اشيا آن خوشه را محاسبه مي نمايد.
تا هنگامي که هيچ تغييري در خوشه ها رخ ندهد به مرحله 2 رجوع مي کند.
روش هاي سلسله مراتبي
روش هاي سلسله مراتبي به دو دسته کلي: روش هاي Bottom-up و روش هاي Top-down تقسيم مي شوند. روش هاي سلسله مراتبي Bottom-up به اين صورت عمل مي کنند که در شروع، هر کدام از داده ها را در يک خوشه جداگانه قرار مي دهد و در طول اجرا سعي مي کند تا خوشه هايي نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زماني که تنها يک خوشه داشته باشيم و يا اين که شرط خاتمه برقرار گردد، ادامه مي يابد. روش هاي Top-down دقيقاً به طريقه ي عکس عمل مي نمايند، به اين طريق که ابتدا تمام داده ها را در يک خوشه قرار مي دهند و در هر تکرار از الگوريتم، هر خوشه به خوشه هاي کوچکتر شکسته مي شود و اين کار تا زماني ادامه مي يابد که يا هر کدام از خوشه ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر يا خوشه مي باشد.
روش هاي مبتني بر چگالي
اکثر روش هاي خوشه بندي که به روش تقسيم بندي عمل مي کنند، معمولاً از تابع فاصله به عنوان تابع معيار خود بهره مي برند. استفاده از چنين معياري باعث مي گردد که الگوريتم خوشه بندي تنها قادر به ايجاد خوشه هايي با اشکال منظم باشد. در صورتي که اگر خوشه هاي واقعي در داده ها داراي اشکال غير منظمي باشند، اين الگوريتم ها در خوشه بندي آن ها با مشکل مواجه مي گردند. براي حل اين گونه مشکلات، يک سري از روش هاي خوشه بندي پيشنهاد گرديده اند که عمل خوشه بندي را بر مبناي چگالي داده ها انجام مي مدهند. ايده اصلي در اين روش ها بر اين اساس است که خوشه ها تا زماني که داده هاي قرار گرفته درهمسايگي خوشه ها از حد معيني بيشتر باشد، رشد مي کنند و بزرگ مي شوند. چنين روش هايي قادرند خوشه هايي با شکل هاي نامنظم نيز ايجاد نمايند.
البته دسته ديگري از روش هاي خوشه بندي مانند روش هاي مبتني بر مشبک کردن فضا، روش هاي مبتني بر مدل و … نيز وجود دارند که در اين تحقيق مورد بررسي قرار نگرفته اند.
الگوريتم هاي وابستگي

پایان نامه
Previous Entries منبع پایان نامه ارشد با موضوع مشارکت مردم، داده ها و اطلاعات، پردازش اطلاعات Next Entries منبع پایان نامه ارشد با موضوع الگوريتم، تقسيم، زير