منابع پایان نامه درباره درخت تصمیم، مدل‌سازی، ارزیابی کیفی

دانلود پایان نامه ارشد

که بر روی درک و تعیین اهداف62 و نیازمندیها از منظر کسب‌وکار و تبدیل این دانش به تعریف یک مسئله داده‌کاوی و طراحی طرح اولیه پروژه برای دستیابی به این اهداف تمرکز دارد. در اين گام بايد متخصص دادهكاو از توان و تجربه متخصص كسب و كار بهرهمند گردد [50]. البته در يك پروژه موفق داده‌کاوی اين مشاركت در گام اوليه متوقف نخواهد شد، بلكه در سراسر فرآيند داده‌کاوی ادامه خواهد داشت [53].
درك داده‌ها: گام درک داده‌ها با جمع آوری داده‌های اولیه آغاز میشود و با فعالیتهایی جهت آشنایی با داده‌ها، شناسایی مشکلات موجود در کیفیت داده‌ها، اکتشاف داده‌ها و یا تشخیص زیرمجموعههای جالب جهت تشکیل فرضیهها برای اطلاعات مخفی پیگیری میشود. ارتباط نزدیکی بین دو گام درک موقعیت کسب و کار و درک داده‌ها وجود دارد. ساختار مسئله داده‌کاوی و طرح پروژه به درک حداقلی از داده‌های در دسترس نیازمند است [50].
در کل میتوان گفت گام درک داده‌ها بر اساس سه گام جمع آوری داده‌ها، به‌کارگیری تحلیل اکتشافی برای دستیابی به یک دید اولیه و ارزیابی کیفیت داده‌ها استوار است [11].
پيشپردازش داده‌ها: فاز آماده‌سازی داده‌ها کلیه فعالیت‌های مربوط به ساخت مجموعه داده63 (دادهای که میتواند به عنوان ورودی ابزار مدل‌سازی مورد استفاده قرار گیرد) از داده‌های خام اولیه را در بر میگیرد. پس از گردآوري داده‌ها بايد خطاهاي احتمالي موجود در آنها را از بين برده و داده‌ها را تميز نمود [31]. فعالیت‌های مربوط به آماده‌سازی داده‌ها شامل ساخت جدول، ثبت داده‌ها و انتخاب ویژگی64، پاک‌سازی داده‌ها65، تشکیل ویژگی‌های جدید و تغییر شکل داده‌ها متناسب با ابزارهای مدل‌سازی میباشد [50].
اهمیت پیش‌پردازش داده‌ها به این دلیل است که اكثر دادههايي كه در پايگاههاي دادهاي وجود دارند و پيشپردازش نشده‌اند، ناقص و نويزدار هستند و داراي مشكلات احتمالي زير ميباشند:
مقادير دور افتاده66 يا حدي، مقادیر گم شده67، صفات تكراري68، دادههايي كه در فرم مناسب براي مدلسازي نيستند و دادههايي كه با عقل سليم جور در نميآيند. براي اين منظور در داده‌کاوی روشهاي مختلف تميز كردن و تغيير شكل داده‌ها ارائه گرديده است [11].
مدلسازي: در این گام، روش‌های متفاوت مدل‌سازی انتخاب و بکار گرفته میشود، و پارامترهای آنها به صورت مقادیر بهینه تنظیم میشود. بعضی از روشها ساختار دادهای خاصی را میطلبند. بین فازهای آماده‌سازی و مدل‌سازی داده‌ها ارتباط نزدیکی برقرار است. اغلب مشکلات داده‌ها حین مدل‌سازی درک میشود و یا ایدههایی برای ساخت داده‌های جدید به ذهن میرسد [50].
این گام شامل بخشهای زیر است [11]:
انتخاب و استفاده از تكنيك مدلسازي مناسب
دستكاري و تنظيم مدل براي دستيابي به نتايج بهينه
در صورت نياز برگشت به گام پيشپردازش
ارزيابي: در پروژهای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام به‌کارگیری، مدلها باید به طور دقیق ارزیابی شوند و گام‌های اجرایی ساخت مدلها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [50]. مدلهاي داده‌کاوی بايد به فرآيند تصميمگيري كمك كنند [31]. پس مدل زماني مفيد است كه تفسير پذير باشد زيرا انسان‌ها مايل به استفاده از اصول پیچیده در فرایند تصمیمگیری جعبه سیاه مانند خود نیستند [11].
به‌کارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندیها، فاز به‌کارگیری میتواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند داده‌کاوی تکرارپذیر69 باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گام‌های استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [50].
هر کدام از گام‌های مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای70 مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول 2-4 آمده است.

جدول 2-4 فعالیت‌های مربوط به فازهای CRISP-DM و خروجی هر فعالیت [50]
درك كسبوكار
درك داده‌ها
آماده‌سازی داده‌ها
مدلسازي
ارزيابي
به‌کارگیری
-تعیین اهداف کسبوکار
درک اهداف کسب و کار و معیارهای موفقیت71 آن
-ارزیابی وضعیت
موجودی منابع، نیازمندیها، فرضیات، محدودیتها، ریسکها و احتمالات، مجموعه اصطلاحات72 و هزینهها و فایدهها
-تعیین اهداف داده‌کاوی
اهداف داده‌کاوی، عوامل موفقیت داده‌کاوی
-تولید طرح پروژه
طرح پروژه
تخمین اولیه ابزارها و تکنیکها
-جمع آوری داده‌های اولیه
گزارش جمع آوری داده‌های اولیه
-توصیف داده‌ها
گزارش توصیف داده‌ها
-مرور73 داده‌ها
گزارش مرور داده‌ها
-ارزیابی کیفیت داده‌ها
گزارش کیفیت داده‌ها
-جمع آوری داده‌ها
توصیف مجموعه داده
-انتخاب داده
منطق انتخاب/حذف74 داده‌ها
-پاک‌سازی داده‌ها
گزارش پاک‌سازی داده‌ها
-ساختاردهی داده‌ها
تفکیک ویژگیها
تولید رکوردها
-یکپارچگی داده‌ها
-داده‌های یکپارچه
-سازماندهی داده‌ها
داده‌های مجدد سازماندهی شده
-انتخاب روش مدل‌سازی
روش مدل‌سازی
فرضیات مدل‌سازی
-تولید تست
طرح تست
-ساخت مدل
-تنظیمات پارامترهای مدل
شرح مدل
-ارزیابی مدل
ارزیابی مدل
پارامترهای اصلاح شده
-ارزیابی نتایج
ارزیابی داده‌ها
کاوش نتایج بر مبنای معیارهای موفقیت کسبوکار
مدلهای بهبود یافته
-بازبینی فرایند
بازبینی فرایند
-تعیین اقدامات بعدی
لیستی از اقدامات و تصمیمات ممکن
-به‌کارگیری طرح
طرح توسعه
-نظارت و نگهداری طرح
طرح نگهداری و نظارت
-گزارش نهایی پروژه
گزارش نهایی
ارائه نهایی
-بازبینی پروژه
مستندات تجربی

2-8-5- معرفی روش‌های داده‌کاوی
روش‌های داده‌کاوی در یک تقسیمبندی کلی به دو دسته روش‌های توصیفی و روش‌های پیشبینانه تقسیم میشوند. روش‌های توصیفی به خواص عمومی داده‌ها میپردازند. بدین ترتیب که الگوهایی قابل تفسیر توسط انسان از داده‌ها استخراج میکنند. در رویکرد پیشبینانه هدف پیشبینی رفتارهای آینده است. در این روشها از چند متغیر جهت پیشبینی مقادیر آینده استفاده میشود. تقسیمبندی برخی روش‌های داده‌کاوی در شکل 2-9 نشان داده شده است.

شکل 2-9 دسته‌بندی کلی عملکردهای داده‌کاوی
در ادامه برخی از این روشها به طور مختصر معرفی خواهند شد.
2-8-5-1- دسته‌بندی75
این روش از رایجترین، محبوب‌ترین و قابل درکترین روش‌های داده‌کاوی می‌باشد. در این روش هر یک از نمونه‌ها به یکی از گروه‌ها یا دسته‌ها تخصیص می‌یابد. در روش دسته‌بندی هر نمونه با تعدادی خصوصیت76 که یکی از این خصوصیتها صفت کلاس مربوط به آن نمونه است، شناخته میشود. برای دسته‌بندی نمونهها جهت استخراج مدل، وجود صفت کلاس برای هر نمونه الزامی است. هدف از دسته‌بندی، یافتن مدلی بر اساس خصوصیت قابل پیشبینی یا کلاس هر نمونه به عنوان تابعی از سایر ویژگی‌های آن نمونه میباشد [1]. این روش به انتساب نمونهها به دستهها بر اساس صفتی قابل پیشبینی اشاره دارد [2].
مطابق شکل 2-9 از الگوریتم‌های شاخص این روش میتوان درخت تصمیمگیری77، شبکه‌های عصبی78 و ناوی بیز79 را نام برد. این الگوریتمها معمولاً به یک مقدار هدف نیاز دارند تا هر داده را به یکی از مجموعه کلاسهای از پیش تعریف شده منتسب کنند. به چنین الگوریتمهایی که برای یادگیری نیاز به مقدار هدف دارند الگوریتم‌های با ناظر80 گویند.
دسته‌بندی در مسائل تجاری مانند مدیریت ریسک، تبلیغات هدفمند81 و تحلیل روی‌گردانی82 مشتری کاربرد دارد.
2-8-5-2- درخت تصمیم
مهم‌ترین مدلی که در این رویکرد استفاده میشود، درخت تصمیمگیری میباشد. در این روش درختی ساخته میشود و در هر گره از آن آزمونی بر روی یک از ویژگیها انجام میشود و داده با توجه به مقدار مشخصههای خود در راستای یکی از فرزندان گره هدایت میشود، تا جایی که داده به برگ برسد. هر برگ نشان دهنده یک دسته میباشد [11].
جدول 2-5 نمونهای از یک مسئله دسته‌بندی را نشان می‌دهد. X1 تا Xm ویژگیهایی هستند که به کمک آنها کلاس (C1 یا C2) هر یک از نمونههای U1 تا Un مشخص میشود. aij مقدار مربوط به ویژگی j از نمونه i است.
جدول 2-5 نمونه داده‌های مورد نیاز در یک مسئله مدل‌سازی به روش دسته‌بندی [1]
Y
Xm
. . .
X2
X1
C2
a1m
. . .
a12
a11
U1
C1
a2m
. . .
a22
a21
U2
.
.
.
.
.
.
. . .
.
.
.
.
.
.
.
.
.
C2
anm
. . .
an2
an1
Un

از دلایل استفاده از درخت تصمیم میتوان به موارد زیر اشاره نمود:
1. پس از تشکیل درخت تصمیم پیچیدگی محاسباتی به صورت لگاریتمی شده و کاهش مییابد83.
2. میتوان قواعدی به صورت اگر-آنگاه از درخت تصمیم استخراج و از آن به صورت جداگانه استفاده نمود [11]. درخت تصمیم برخلاف شبکه‌های عصبی به تولید قانون میپردازد و نتایج بدست آمده از درخت در قالب یک سری قوانین توضیح داده میشود.
3. در درخت تصمیم برخلاف شبکه‌های عصبی لزومی ندارد داده‌ها به صورت عددی باشند.
از ویژگی‌های درخت تصمیم میتوان به عدم حذف داده‌ها در زمان دسته‌بندی، استفاده آسان، درک ساده مدل حاصل با وجود پیچیدگی کار الگوریتم ساخت درخت تصمیم و … اشاره نمود [31].
2-8-5-3- شبکه‌های عصبی
شبكه عصبي مصنوعي يك سيستم پردازش اطلاعات است كه ویژگی‌های عملكردي مشابه شبكه عصبي بيولوژيكي دارد. شبكههاي عصبي مصنوعي به عنوان مدل‌های رياضي تعميم يافته از نرون84‌های بيولوژيكي يا شناخت انسان بر اساس مفروضات زير توسعه يافته است:
پردازش اطلاعات در واحدهاي بسيار سادهاي كه نرون ناميده می‌شوند رخ می‌دهد.
سیگنال‌های نرون‌ها از طريق اتصالات انتقال می‌یابد.
هر ارتباط يك وزن دارد كه در يك شبكه عصبي متداول، در سيگنال ورودي ضرب می‌شود.
هر نرون يك تابع فعال سازي دارد (كه عمدتاً غيرخطي است) كه ورودي شبكه جمع و سیگنال‌های ورودي وزن را به خروجی تبديل می‌کند.
می‌توان هر شبكه عصبي را با ویژگی‌های زير تشريح نمود:
الگوي ارتباطات بين وزن‌ها (كه معماري شبكه ناميده می‌شود)
روش تعيين وزن‌ها در ارتباطات (که يادگيري يا آموزش ناميده می‌شود)
تابع فعالسازي
عمدتاً شبکه‌های مختلف در جنبه هاي فوق متفاوت هستند و بدين طريق از هم متمايز می‌شوند.
هر شبكه عصبي از تعداد زيادي واحد ساده پردازش كننده كه نرونها، واحدها، سلول‌ها و يا گره‌ها ناميده ميشوند، تشكيل شده است. هر نرون با نرون‌های ديگر به وسيله اتصالات مستقيم مرتبط است كه هر اتصال با يك وزن نمايندگي می‌شود. در واقع وزن‌ها اطلاعاتي را كه براي حل مسئله مورد استفاده قرار می‌گیرد بازنمایی ميكند.
هر نرون يك وضعيت دروني دارد كه فعالسازي85 يا سطح فعاليت86 ناميده می‌شود و تابعی از ورودی‌هایی است كه دريافت می‌کند. هر نرون فعاليت خود را به عنوان يك سيگنال به ساير نرون‌ها ارسال می‌کند. البته لازم به توجه است كه هر نرون تنها يك سيگنال در هر لحظه از زمان قادر است ارسال كند [11].
2-8-5-4- پیش بینی87
این تکنیک از روش‌های مهم و قدیمی داده‌کاوی است که میتواند جهت پاسخگویی به مسائلی از قبیل میزان جذب سرمایهگذاری ماه آینده بانک، پیشبینی ارزش سهام در روز آینده و … مورد استفاده قرار گیرد.
در پیشبینی مجموعهای از اطلاعات به عنوان ورودی به الگوریتم داده میشود. خروجی یک معادله ریاضی متناسب با این ورودی خواهد بود. برای پیشبینی یک متغیر در آینده داده‌ها را به فرمول ایجاد شده میدهیم و حاصل پیشبینی مورد نظر خواهد بود.
تفاوت این روش با روش‌های دسته‌بندی در این است که در روش دسته‌بندی متغیر هدف، مقادیری گسسته دارد اما در مورد روش پیشبینی مقادیر هدف پیوستهاند [1].
از مدلهای رایج در زمینه پیشبینی میتوان به رگرسیون88 اشاره نمود. رگرسیون خطی و منطقی از پرکاربردترین روش‌های رگرسیوناند. رگرسیون خطی رویکردی برای مدل‌سازی رابطه بین متغیرهای اسکار

پایان نامه
Previous Entries منابع پایان نامه درباره پایگاه داده‌ها، جمع آوری اطلاعات، فناوری اطلاعات Next Entries منابع پایان نامه درباره خوشه‌بندی، پایگاه داده‌ها، معیارهای ارزیابی