
ي كه يك نمونه گرفته میشود بايد مراحل آمار توصيفي و آمار استنباطي بر روي دادهها انجام گيرد.
همان طور كه گفته شد هدف علم آمار شناخت جامعه مورد بررسي از طريق شناخت متغيرها و رابطه ميان آنهاست و چون نمیتوان تمامي عناصر جامعه را مورد بررسي قرار داد از يك نمونه آماري منتخب عناصر جامعه استفاده میشود.
منظور از شناخت متغيرها بررسي يك بعدي متغيرها است كه از طريق آمار توصيفي انجام میگیرد. آمار توصيفي در حقيقت بيان كننده وضعيت هر متغير به صورت مجزا در جامعه مورد بررسي در قالب جداول، نمودارها و پارامترهاست كه از آن به عنوان تخلیه دادهها نيز نام میبرند. با جداول فراوانی و نمودارهاي آماري تا حدودي آشنايي داريد.
آمار استنباطی[3]
آمار توصیفی تنها میتواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد. محقق در تحقیقات مختلف عمدتاً به دنبال تحلیل و تبیین دادهها و متغیرهای مورد نظر است به همین دلیل سعی میکند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروههای مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد.
روابط موجود بین متغیرها:
آیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟
آیا میتوان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیشبینی و تبیین کرد؟
پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکانپذیر است.
آیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟
آیا میتوان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیشبینی و تبیین کرد؟
پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکانپذیر است.
اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است.
چنانچه دادههای فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیر پارامتری دو وجهی باشد، روش مناسب رگرسیون لجستیک و تحلیل تشخیص چندگانه است.
چنانچه متغیر وابسته غیر پارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیر پارامتری و متغیرهای مستقل از نوع پارامتری هستند.
اما چنانچه متغیرهای وابسته و مستقل هر دو غیر پارامتری باشند روش مناسب برای تجزیه و تحلیل دادهها رگرسیون لجستیک میباشد.
تحلیل مسیر روشی است که هم برای دادههای پارامتری و هم غیر پارامتری سازگار است.
اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود.
اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود.
اما اگر متغیرهای وابسته مورد نظر غیر پارامتری باشد میتوان از طریق تبدیل آنها به متغیرهای مجازی کد بندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.
تعریف رگرسیون17
رگرسیون شاخهای از علم آمار است که استفاده از آن به نحو وسیعی در اکثر زمینههای علمی معمول شده است. با مطالعه یک جامعه آماری چنین به نظر میرسد که بین صفات متغیر آن جامعه کم و بیش ارتباط وجود دارد و گاهی نیز مشاهده میشود که تغییرات یک متغیر به طور مستقیم یا معکوس در تغییرات متغیر دیگر موثر است. تحلیل رگرسیون این امکان را برای محقق فراهم میکند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیشبینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.
تحلیل رگرسیون
مفهوم رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد. وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچههای والدین متعلق به هر طبقه قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد.
تعبیر نوین تحلیل رگرسیون
تعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی میتوان گفت:
تحلیلهای رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) میپردازد که با تخمین یا پیشبینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونهگیری تکراری) صورت میپذیرد.
کاربرد رگرسیون[3]
توصیف دادهها
برآورد پارامترها
پیشبینی و تخمین
کنترل
تحلیل رگرسیون نیازمند استفاده هنرمندانه و هوشمندانه از کامپیوتر است. استفاده از نرم افزارهایی مانند SAS,SPSS,S-plus,R,MATLAB,…
در این پژوهش از بکار گیری نرم افزار SPSS برای یافتن روابط معناداری، تحلیل رگرسیون و … بهره جستیم که در اینجا برای آشنایی توضیحاتی مختصر راجع به این نرم افزار را ارائه نمودهایم.
نرم افزار SPSS[4]
این نرم افزار شامل نوار عنوان، فهرست منو، نوار ابزار و نوار نشان دهنده مقادیر میباشد. هر ستون یک field است که به عنوان متغیر18 مطرح میباشد و هر سطر یک record است که به عنوان یک مورد19 مطرح میباشد.
در spss متغیرها خصوصیاتی دارند که مهمترین خاصیت آنها مقیاس آنهاست، و هر بار که متغیر تعریف میشود باید مقیاس آن را تعریف کنیم.
انواع مقیاسها :
مقیاس اسمی20: مانند شهری که در آن زندگی میکنیم که میتوانیم به آن کد داده و تبدیل به مقیاس اسمی شود در این مقیاس کوچک و بزرگ بودن اعداد تفاوتی ندارد و هر طور میتوان کد گذاری کرد و مناسب گروه بندی است و میانگین و جمع در آن معنی ندارد.
مقیاس رتبهای21: کدگذاری بر اساس درجه اهمیت میباشد و الویت با ترتیب را نشان میدهد اگر کدها جابجا شوند فرق میکند. مانند مهارت خوب، بد، عالی. فاصله قابل اندازه گیری بین گروهها وجود ندارد.
مقیاس نسبی22: هر عددی که از طریق اندازه گیری بدست بیاید مقیاس نسبی دارد مثل قد افراد.
شاخص پراکندگی:
نشانه پراکندگی دادههاست و برای دادههای نسبی بکار میرود و معروفترین آن واریانس است.
واریانس23:
یك معيار براي اندازه گيري پراكندگی (دوري) دادهها از ميانگين آنهاست براي مثال در دايره علاوه بر مركز كه مركز ثقل را نشان میدهد، شعاع نيز به عنوان يك پارامتر كه نشان دهنده بزرگي دايره است بكار میرود، وظیفه واريانس نيز درست مانند شعاع در دايره است و هرچه مقدار بزرگتری داشته باشد نشان دهنده دوري بيشتر دادهها از مركز ثقل (میانگین) دادهها است.
variance=(∑▒(x_1-x ̅ )^2 )/n ∑▒〖(x_1-x ̅ )=0〗
انحراف معیار مقادیر:24
مجذور واریانس و یک معیار برای شناسایی پراکندگی دادهها از میانگین آنهاست.
آمار توصيفي با استفاده از جداول آماري، نمودارهايي نظير نمودار میلهای و پارامترهايي كه تعدادی از آنها در بالا شرح داده شد يك نماي كلي از وضعيت هر يك از متغيرها به كاربران ارائه میدهد، اما وظیفه آمار استنباطي در بدست آوردن رابطه ميان متغيرهاست كه از طريق ابزارها و تکنیکهای مختلف آماري بسته به نوع (پيوسته يا گسسته بودن) متغيرهاي مستقل و وابسته مورد استفاده قرار میگیرند.
به منظور آشنائی با نحوه بکار گیری روشهای چند متغیره در تجزیه و تحلیل دادهها، درخت تصمیمگیری برای استفادۀ اصولی و متناسب با نوع دادهها و هدف تجزیه و تحلیل ارائه شده است.
این طبقهبندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است:
آیا دادههای مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟
اگر چنین تقسیمبندی امکانپذیر است، چند متغیر از موارد فوق، متغیر وابسته میباشند؟
متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازهگیری شدهاند؟
شکل 13: روند نمای تحلیل چند متغیره[3]
تحلیل رگرسیون و ضریب همبستگی[3]
رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که میتوانیم از رگرسیون برای آزمون فرضیههای تحقیق استفاده نماییم. در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیر تصادفی (در نمونهگیری تکراری) میباشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند. ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست. ضريب همبستگي نشان دهنده ارتباط دو متغير است اما زماني كه به دنبال اثر يك متغير بر متغير ديگر هستيم نمیتواند از آن استفاده كنيم. از طرفي گاهي تخمين تغيير در يك متغير با تغيير متغير ديگر براي ما مهم است كه باز هم ضريب همبستگي نمیتواند تخميني از اين تغييرات ارائه دهد اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است.
اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی میگردد. در رگرسيون يك متغير كه تأثیر پذير (Y) از ساير متغيرهاست متغير پاسخ (متغير وابسته) ناميده میشود. متغير يا متغيرهايي كه بر متغير پاسخ اثر میگزارند (X) متغير توضيحي (متغير مستقل) ناميده میشود.
انواع رگرسیون
رگرسیون خطی و غیرخطی
تابع خطی:
برآورد رابطه بین دو متغیر امکان پذیر نخواهد بود مگر آنکه ابتدا فرض کنیم رابطه بین دو متغیر دارای فرم خاصی است. یکی از معمولترین این فرمها تابع خطی ساده است. یک چنین توابعی در اقتصاد از اهمیت بسیاری برخوردارند زیرا کار کردن با آنها نسبتاً ساده است و اغلب میتوانند به عنوان تقریبی از توابع غیر خطی بکار روند.
خطی بودن از نظر متغیرها
خطی بودن از نظر پارامترها
جزء استوکاستیک (تصادفی) تابع رگرسیون جامعه[3]
جزء تصادفی جامعه نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموششده که بر متغیر وابسته اثر میگذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمیتوانند در مدل گنجانده شوند).
جزء استوکاستیک نمایندهای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر میگذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمیشوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمیشوند.
دلایل فراوانی وجود دارد:
ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بیاطلاع باشیم.
ممکن است راجع به بعضی از متغیرها دادههای اندکی داشته باشیم.
جمعآوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.
به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال میتواند آنرا منعکس کند.
ممکن است در اندازهگیری خطا صورت گرفته باشد.
با تأسی به قاعدۀ اُکام (توصیف راجع به پدیدهها حتیالامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن سادهتر بگیریم.
تخمین مدل رگرسیون دو متغیره[4]
روش حداقل مربعات معمولی25(OL)::
آمار گران بهترین برازش را آنچنان خطی تعریف میکنند که مجموع مربعات خطی که مجموع مربعات خطا، کمترین مقدار ممکن را داشته باشد. خطا عبارت است از فاصله عمودی بین مقدار واقعی مشاهده و مقداری که برای آن از خط برازش داده شده بدست میآید. مقدار خطا را معمولاً با حرف ₑ نمایش میدهند. برای هر مجموعهای از مشاهدات آماری خطوط مختلف دارای خطای متفاوتی خواهند بود.
