منبع پایان نامه ارشد با موضوع شهروندان تهران، توسعه مدل

دانلود پایان نامه ارشد

يک کد رهگيري مشخص مي باشد که از زمان ثبت پيام تا زمان اقدام همراه آن است. بانک اطلاعاتي اين سامانه SQL Server 2005 مي باشد.
با توجه به اين که اطلاعات فرد تماس گيرنده نظير شماره ي تلفن تماس گيرنده، نام و نام خانوادگي، در صورت تمايل شهروند در سامانه ثبت مي شود پس از بررسي مشاهده شد که در حجم وسيعي از رکوردها اين فيلد به صورت مقادير تهي51 ثبت شده بود و به همين دليل امکان طبقه بندي تماس ها به تفکيک شهروند ميسر نبود ( با در نظر گرفتن اين فرض که هر شهروند بيش از 1 بار در سامانه ثبت اطلاعات نموده است).
شرح دقيق فليدهاي جداول به کار رفته در اين تحقيق در بخش تحليل توصيفي آورده شده است.
آماده سازي داده ها52
آماده سازي داده ها مهم ترين و زمان بر ترين بخش در انجام يک فرايند داده کاوي است و شامل مواردي هم چون حذف نقاط مغشوش53، پر و يا حذف کردن مقادير مفقوده54، تبديل و يا گسسته سازي 55و کاهش ابعاد داده هاست. هم چنين در اين مرحله بايد داده ها به فرمتي مناسب براي استفاده از نرم افزارها و برنامه هاي داده کاوي تبديل شوند. در قسمت روش اجرايي تحقيق به شرح فرايندهاي انجام شده در مرحله آماده سازي داده ها به تفصيل مي پردازيم.
مدل سازي56
اين مرحله پياده سازي تکنيک هاي مدل سازي يا داده کاوي بر روي ديدگاه قابل کاوش ايجاد شده در مرحله قبل است. براي مدل سازي لازم است که ابتدا تکنيک مدل سازي انتخاب شود که در اين تحقيق سعي شده است از اکثر تکنيک ها (قابليت ها) ي داده کاوي نظير خوشه بندي، درخت تصميم و قوانين وابستگي در کاوش داده هاي موجود به کار گرفته شود. در هر مورد الگوريتم هاي موجود آزمايش و بر اساس نوع و تعداد رکوردهاي اطلاعاتي، بهترين الگوريتم انتخاب گرديده است.
براي اعمال اين تکنيک ها در تحقيق حاضر از نرم افزار SPPS Clementine به کار گرفته شده است. بدين شکل که داده ها با فرمت هاي شناخته شده در نرم افزار بارگذاري شده و الگوريتم هاي مختلف بر روي اين مجموعه داده ها اجرا گرديده است. نتايج به دست آمده در فصل چهارم ارائه شده است.
ارزيابي مدل57
در اين مرحله مدل هاي طراحي شده در هر بخش مورد ارزيابي قرار مي گيرد تا مشخص شود آيا اهداف پيش بيني شده در انجام داده کاوي تامين شده است يا خير.
توسعه مدل58
در آخرين مرحله، گزارش نهايي از محصول که همان دانش کشف شده است را مي توان در اختيار شهرداري تهران قرار داد تا راجع به استفاده از نتايج تصميم گيري نمايند.
با توجه به اين که اين تحقيق يک تحقيق کاربردي مي باشد، نتايج مي تواند به صورت يک سيستم جهت تصميم گيري مديران شهري کاربرد داشته باشد.
داده هاي تحقيق
داده هاي اين تحقيق شامل موارد زير مي باشد:
داده هاي حاصل از تماس شهروندان تهراني با مرکز سامانه مديريت شهري137 شهرداري تهران که هر يک به نوعي بيان کننده ي مشکلات شهري در يکي از مناطق 22 گانه شهرداري تهران مي باشد و به يکي از روش هاي 5 گانه ارتباطي که در بخش 2-2-3-1 به آن اشاره شده به اين مرکز اطلاع رساني شده و در بانک اطلاعاتي مربوطه ثبت گرديده است. اين داده ها مربوط به سال 1389 مي باشد.
داده هاي جمعيتي شهر تهران به تفکيک مناطق 22گانه شهرداري تهران.
داده هاي مربوط به وضعيت اعتبار عمراني مصوب 89 به تفکيک مناطق 22گانه شهرداري تهران.
داده هاي هواشناسي.
جامعه آماري, روش نمونه گيري و حجم نمونه
جامعه ي آماري اين تحقيق، 1.135.237 رکورد از بانک داده مرکز سامانه مديريت شهري 137 شهرداري تهران مي باشد که هر رکورد نمايانگر يکي از موضوعات و مشکلات شهري منعکس شده از سوي شهروندان در طول سال 1389 مي باشد.
از آن جايي که داده هاي جمعيتي، آب و هوايي و بودجه اي مناطق در طول سال مورد بررسي در بانک داده سامانه 137 ثبت و نگهداري نشده است، لذا داده هاي مذکور با مراجعه به سايت هاي مربوطه استخراج و ذخيره گرديد.
با توجه به اين که نتايج داده کاوي با داشتن داده هاي بيشتر از صحت بالاتري برخوردار مي شوند، بنابراين نمونه گيري در خصوص اين جامعه آماري صورت نگرفته است و تمامي داده ها به جز داده هاي پرت و داده هاي ناقص مورد استفاده قرار گرفته است.
روش گردآوري اطلاعات و ابزار سنجش
گردآوري داده هاي اصلي اين پژوهش از طريق مراجعه حضوري به مرکز سامانه مديريت شهري 137 شهرداري تهران و در اختيار گرفتن برشي از بانک اطلاعاتي اين سامانه در مقطع يک سال و مصاحبه با کارشناسان محترم معاونت فن آوري اطلاعات مرکز مديريت شهري137 که متولي امر پياده سازي اين سامانه از ابتدا و نظارت بر حسن اجراي نرم افزار اين سامانه و ارزيابي عملکرد و تهيه گزارش هاي آماري مرتبط در حال حاضر هستند صورت گرفته است.
هم چنين مطالعات کتابخانه اي، شامل جستجوي مقالات و پايان نامه هاي با موضوع مشابه، مطالعه کتاب هاي مرتبط در زمينه ي داده کاوي و نيز شرکت در سمينارهاي مرتبط با داده کاوي از جمله روش هاي گردآوري اطلاعات در بخش ادبيات موضوع بوده است.
نوع داده ها و مقياس آن ها
نوع و مقياس داده هاي اين تحقيق به شرح ذيل مي باشد:
رکوردهاي مربوط به جدول پيام ها يا همان تماس هاي مشتريان شامل 12 فيلد مي شد که اکثراً از نوع اسمي (رشته اي) بود که در مرحله آماده سازي داده ها مقادير عددي فيلدهاي مورد نظر از طريق اضافه شدن ستون هاي جديد به انتهاي جدول ايجاد گرديد.
رکوردهاي مربوط به جداول جمعيت، بارندگي و اعتبار مصوب همگي از نوع عددي مي باشند.
شرح دقيق فيلدهاي اطلاعاتي در هر جدول در فصل بعد آورده شده است.
ساختار اجرايي تحقيق
همان طور که در ابتداي اين فصل بيان شد، ماهيت تحقيق، داده محور مي باشد و پايه اصلي تحقيق حاضر برکشف دانش از پايگاه هاي داده شهرداري تهران بنا نهاده شده است. از اين رو استاندارد جهاني CRISP-DM جهت انجام فرايند تحقيق مورد استفاده قرار گرفته است که در اين بخش ساختار اجرايي تحقيق بر اساس مراحل اين استاندارد تشريح شده است.
درک مساله کسب و کار
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان گرديده است:
تعيين اهداف کسب و کار
ارزيابي موقعيت
تعيين اهداف داده کاوي
در اين فاز، ابتدا اهداف کسب و کار تعيين و تبيين گرديد که اصلي ترين هدف کسب و کار، به کارگيری تکنيک هاي مختلف داده کاوي نظير Clustering، Classification، Association Rules و … بر روي اطلاعات سامانه 137 و بررسي و تحليل نتايج به دست آمده به منظور ارتقاي کيفيت خدمات شهري.
گام بعدي که در اين مرحله انجام شده است تعيين اهداف داده کاوي تحقيق است که به طور کاملاً روشن مي توان گفت که نوع داده کاوي، هم از نوع پيش بيني کننده و هم از نوع تشريح کننده مي باشد.
درک داده ها
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان شده است:
جمع آوري داده هاي اوليه
توصيف داده ها
تصديق کيفيت داده ها و شناسايي داده هاي هدف
در مرحله ي قبل يک تصوير کلي از وضعيت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوي براي محقق حاصل گرديد. در اين مرحله با توجه به درک صورت گرفته از اين اهداف و وضعيت موجود لازم است تا درک صحيحي از وضعيت داده ها، نحوه ي جمع آوري و اطمينان از کيفيت داده هاي مورد بررسي، حاصل گردد.
در مجموع مهم ترين اقداماتي که در اين بخش به آن ها پرداخته شده تعيين داده هاي مورد نياز و نحوه ي دسترسي به آن داده ها مي باشد.
در اين مرحله براي ارزيابي اوليه از داده هاي موجود، ابتدا ساختار بانک اطلاعاتي سامانه ی 137 شهرداري تهران با 12 فيلد دريافت گرديد. لازم به ذکر است که برخي از فيلدها مثل فيلد نام و شماره تماس شهروند به علت اختياري بودن حاوي رکوردهاي تهي بود که در فرايند تحقيق قابل کاربرد نبودند و لذا از اين فرايند حذف گرديدند.
هم چنين اطلاعات مربوط به جمعيت و بودجه مناطق و نيز وضعيت آب و هواي تهران در سال 1389 به ترتيب از وب سايت شهرداري تهران و وب سايت سازمان هواشناسي دريافت و در جداول جداگانه ذخيره گرديد.
نکته ي قابل توجه اين که نه در سازمان هواشناسي و نه در شهرداري تهران وضعيت آب و هوايي شهر به تفکيک مناطق 22 گانه اندازه گيري و ثبت نمي شود و تنها اطلاعات مذکور به تفکيک ايستگاه هاي پنج گانه سازمان هواشناسي قابل دسترس مي باشد. بنابراين محقق با در نظر گرفتن مجاورت جغرافيايي مناطق درنقشه ي شهر تهران و نيز راهنمايي کارشناسان هواشناسي، اطلاعات هر ايستگاه را براي مناطقي که در همسايگي و
شکل3-1وضعيت ايستگاه هاي پنج گانه هواشناسي مستقر در شهر تهران مي باشد.

مجاورت آن ايستگاه بود تعميم داد. شکل3-1 نمايانگر وضعيت ايستگاه هاي هواشناسي مستقر در شهر تهران مي باشد. به طور مثال اطلاعات ايستگاه اقدسيه که در منطقه 1 واقع شده است به مناطق 1، 3 و 4 تعميم داده شد.
آماده سازي داده ها
در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه آورده شده است:
جمع آوري و انتخاب داده ها
يکپارچه سازي داده ها
پاکسازي داده ها (کاهش داده ها)
شکل دادن وساخت داده ها (تغيير داده ها)
قالب بندي داده ها ( براي مدل سازي در نرم افزار)
در مرحله قبل داده هاي هدف، جهت جمع آوري و پالايش مشخص شدند. در اين مرحله داده هاي مرتبط با تماس هاي مشتريان شناسايي و از تماس هاي مرتبط با کارمندان و کارکنان سازمان شهرداري تفکيک گرديد.
در ادامه فرايند آماده سازي، بايد براي پاکسازي و پيش پردازش داده ها، دو عمليات مهم کاهش داده و اعمال تغييرات در شکل داده ها بر روي اطلاعات صورت گيرد.
کاهش اطلاعات عبارت است از توليد يک مجموعه کوچکتر از داده هاي اوليه که تحت عمليات داده کاوي نتايج تقريبا يکساني با نتايج داده کاوي روي اطلاعات اوليه به دست مي دهد (مرشدلو، 1386)
در اين مرحله بر حسب نياز، عمليات کاهش داده ها به صورت حذف فيلد هاي شماره تماس ثابت و همراه شهروند – نام و نام خانوادگي شهروند به علت تهي بودن بيش از نيمي از رکوردهاي بانک اطلاعاتي صورت گرفت.
همان طور که قبلاً نيز بحث شد داده هاي بانک اطلاعاتي سامانه 137 در مقطع سال 89 به همراه اطلاعات وضعيت بارندگي و جمعيت و اعتبار مصوب عمراني در همان سال به منظور تحليل، انتخاب و گردآوري گرديد. پس از بررسي و انتخاب فيلدهاي مورد نظر از هر يک از جداول از طريق ايجاد ديد59 هاي تو در تو در نرم افزار Sql 2008 داده هاي هر 3 جدول با يکديگر ترکيب شدند. با عنايت به اين موضوع که بيشتر فيلدهاي جدول مربوط به اطلاعات پيام ها حاوي رکوردهاي فارسي مي شد لازم بود تا مقادير فارسي به کدهاي متناظر عددي تبديل شوند. بنابراين فيلد جديدي به انتهاي جدول پيام ها اضافه و کدهاي عددي جاي مقادير منحصر به فرد داده هاي فارسي را گرفت. در اين راستا حذف فاصله هاي اضافي انتهاي رکورد و يکسان کردن حروف عربي و فارسي به کدپيچ واحد از مقدمات کار بود.
با توجه به اين که اکثر تحليل هاي انجام گرفته در اين تحقيق به تفکيک منطقه و يا ناحيه مي باشد لذا مي بايست وجود مقادير صحيح کد منطقه و ناحيه در کليه رکوردهاي جدول کنترل مي شد. لذا با انجام پرس جو60 هاي متعدد از طريق نرم افزار Sql 2008 دو فيلد جديد به انتهاي جدول پيام اضافه و مقادير کد منطقه و ناحيه شناسايي شده که ترکيب آن (نام منطقه – نام ناحيه) در ستون ديگري از همان جدول قرار داشت به صورت عددي و تفکيک شده، اضافه گرديد. در مواردي که نام منطقه يا ناحيه در ستون مربوطه آورده نشده بود، تلاش شد تا از طريق ستون متن پيام، مقادير آن شناسايي گردد. که تکميل داده ها به اين روش بسيار زمان بر بود. البته در مواردي که کد ناحيه ومنطقه از هيچ روشي قابل تعيين نبود به ناچار رکورد مربوط به آن از مجموعه رکوردهاي مورد بررسي حذف گرديد.
طبق بررسي هاي انجام شده بر روي داده ها مشخص گرديد بخشي از پيام هاي ثبت شده در اين سامانه مربوط به تماس هاي شهروندان با شهرداري نبوده بلکه مربوط مي شود به

پایان نامه
Previous Entries منبع پایان نامه ارشد با موضوع مراکز تماس، استاندارد CRISP-DM، شهروندان تهران Next Entries منبع پایان نامه ارشد با موضوع شهروندان تهران