پایان نامه با موضوع مدل رگرسیون، معنادار بودن، پانل دیتا

دانلود پایان نامه ارشد

انحراف استاندارد متغير مستقل x1 ، x2 ، xn … : متغير‌هاي مستقل
معمولاً در هر پژوهشی گام‌های زیر در ایجاد، تجزیه و تحلیل و تأیید مدل رگرسیونی برداشته می‌شود:
1. شناسایی متغیرها: برای تشکیل هر مدل رگرسیونی ابتدا باید متغیرهای موجود بر حسب هدف محقق به متغیرهای مستقل و وابسته تفکیک و شناسایی شوند.
2. جمع‌آوری و مرتب سازی داده‌ها.
3. تعیین رابطه بین متغیر مستقل و وابسته: در این مرحله ماهیت رابطه بین متغیرها مشخص می‌شود. برای این‌کار می‌توان نمودار مربوط به متغیرها را رسم و از روی نمودار خطی و غیرخطی بودن رابطه بین آنها و همچنین نوع رابطه خطی (مستقیم یا معکوس) را از روی شیب نمودار مشخص کرد (آذر و مؤمنی، 1387).
4. برآورد پارامترهای مدل: با استفاده از داده‌های جمع‌آوری شده از شرکت های عضو نمونه، می‌توان پارامترهای مربوط به مدل رگرسیونی را تخمین زد.
5. ارزیابی مفروضات اساسی مدل رگرسیونی: در این مرحله برای استفاده از مدل رگرسیونی، فرض‌های اساسی آن آزمون شده و در صورتیکه صدق نکنند باید به مراحل قبلی بازگشت. این مفروضات در بندهای آتی به تفضیل بیان می‌شوند.
6. آزمون‌های معناداری: برای بررسی هر مدل رگرسیونی و قضاوت در مورد پارامترهای آن، دو گام زیر اساسی است: نخست بررسی معنادار بودن کل مدل و سپس بررسی معنادار بودن تک‌تک متغیرها. در یک مدل رگرسیونی در صورتیکه هیچگونه رابطه‌ای بین متغیرهای مستقل و وابسته وجود نداشته باشد، باید ضرایب تمامی متغیرهای مستقل در مدل مساوی صفر باشند، پس می‌توان معنادار بودن معادله را با استفاده از آماره f و سطح اطمینان مشخص شده مورد بررسی قرار داد. بعد از بررسی معناداری کل مدل، می‌بایست معنادار بودن تک‌تک ضرایب را مورد آزمون قرار داد که از طریق آماره t انجام می‌شود.
7. استفاده از مدل برای پیش‌بینی: نهایتاً اینکه از مدل رگرسیونی برای برآوردهای آتی و پاسخ به سؤال‌های تحقیق استفاده می‌شود.
3-14-1) فرض‌هاي اساسي رگرسيون
در هر مدل رگرسيون بايد فرض‌هاي خاصي برقرار باشد که در صورت نقض هريک از آنها، مشكلاتي درباره مطلوبيت برآورد پارامترهاي رگرسيون يا آزمون فرضيه‌ها بوجود مي‌آيد. فرض‌هاي اساسي رگرسيون عبارتند از :
الف) ميانگين εt مساوي صفر است: به‌علت تصادفي بودن εt مي توان اين فرض را به‌صورت E(εt)=0 نوشت. معني اين فرض این است كه عوامل تشکيل‌دهنده خطاها ، اثرات مثبت و منفي خود را طوري برجا مي‌گذارندکه متوسط مقادير جمله‌خطاها برابر صفر شود.
ب) جمله خطاها داراي توزيع نرمال است: فرض بر اين است که جمله خطاها به‌نحوي است که پراکندگي آن‌ها درمجاورت ميانگين حداکثر بوده و هرچه از ميانگين دورتر شويم، در سمت راست و چپ آن به‌يک نسبت کاهش مي‌يابد. در نتيجه شکل توزيع، زنگوله‌اي شکل است.
ج) جملات خطاها در مشاهدات مختلف ناهمبسته‌اند: اگر اين فرض نقض شود با مسئله‌اي موسوم به خود همبستگي68 مواجه خواهيم بود. به طور کلي هرگاه εt ها از نظم خاصي پيروي کنند، فرض ناهمبسته بودن εt‌ ها نقض شده و خود همبستگي مثبت، منفي يا تلفيقي ازخود همبستگي مثبت و منفي را خواهيم داشت.
د) واريانس‌هاي جملات خطاها همگي برابرعدد ثابتي مانند δ² هستند: يعنيV(εt)=δ². هرگاه فرض اخير نقض شود با مسئله‌اي موسوم به نابرابري (ناهمسانی) واريانس‌ها69، مواجه خواهيم بود.
ه) جملات خطاها مستقل ازمتغيرمستقل هستند: يعنيCOV(Xtεt) =0 است. در صورت نقض اين فرض، مطالعه دقيق اثرات x بر رويy امکان‌پذير نخواهد بود. زيرا εt نيز روي Xt اثر مي‌گذارد.
و) متغير مستقل(Xt) برخلاف متغير وابسته (Yt)متغير غيرتصادفي است.
ز) فرض ديگرکه فقط مختص مدل رگرسيون چندمتغيره مي‌باشد، بيانگر آن است که بايد تعداد مشاهدات برتعداد پارامترها فزوني داشته باشد و بين متغيرهاي مستقل رابطه خطي کامل وجود نداشته باشد. اين فرض شرط لازم براي حصول جواب معادلات نرمال و برآورد ضرايب رگرسيون چند‌‌متغيره است. در هرحال اين فرض دال برعدم وجود هم خطي کامل خواهد بود.
3-14-2) احتیاط در استفاده از رگرسیون و همبستگی
رگرسیون و همبستگی ابزارهایی هستند که در صورت استفاده صحیح از آنها مفیدند، اما در بعضی مواقع استفاده نادرست از آنها در پیش‌بینی، باعث نتایج غیر‌دقیق و تصمیمات نامطلوب می‌شود. عمده‌ترین اشتباهات معمول در استفاده از این ابزارها عبارتند از:
1. تعمیم روند برای خارج از دامنه مشاهدات: از خط رگرسیون معمولاً برای پیش‌بینی استفاده می‌شود. یکی از اشتباهات معمول این است که بخواهیم روند را برای موردی تعمیم دهیم که خارج از دامنه مشاهداتی باشد که بر مبنای آنها خط رگرسیون برآورد شده است.
2. فقدان رابطه علت و معلولی واقعی (همبستگی مجازی): گاهی همبستگی قوی بین دو متغیر پیدا می‌شود که واقعاً این دو متغیر هیچ رابطه علت و معلولی با هم ندارند.
3. تعمیم روند گذشته به آینده: تعمیم روند گذشته به آینده در صورتی معقول است که همان شرایطی که در گذشته موجود بوده در آینده نیز وجود داشته باشد.
4. تعبیر نادرست از ضرایب تعیین و همبستگی: گاهی تعبیر نادرستی از ضرایب همبستگی می‌شود. اگر ضریب تعیین را درصد تغییر در متغیر وابسته‌ای بدانیم که به‌دلیل تغییر در متغیر مستقل ایجاد شده، راه خطا پیموده‌ایم، زیرا r2 معیاری است که تنها می‌گوید یک متغیر چقدر خوب توانسته است متغیر دیگر را توضیح دهد، ولی نمی‌گوید که چه‌میزان تغییر در یک متغیر قابل استناد به متغیر دیگر است (آذر و مؤمنی، 1387).
در اکثر مدلهای رگرسیونی، معمولاً می‌خواهیم تغییرات یک متغیر را (y) بر حسب تعدادی از متغیرها (xها) که معتقدیم که باعث تغییرات y می شود توضیح دهیم. اغلب این کار را در قالب یک تابع انجام می دهیم:
y_i=f(x_it) k =1, 2… N i =1, 2… N
اندیس k تعداد متغیرهای توضیح‌دهنده را نشان می‌دهد. اغلب برای شروع، شکل این تابع را خطی فرض می‌کنند:
y_i=β_0+β_1 x_1i+β_2 x_2i+…+β_k x_ki+ε_i
در اینجا اندیس i نشان دهنده تعداد مشاهداتی است که از هر متغیر در دست داریم. تعداد مشاهدات می‌تواند بر حسب زمان باشد، در این صورت yt و xkt را داریم که هر متغیر در طول سال، فصل، ماه و …. اندازه‌گیری می‌شود و خواهیم داشت t,…,1,2= t به‌عبارت دیگر yt و xkt سری زمانی70 می‌باشند. یعنی یک متغیر واحد که مقادیر آن در فاصله زمانی مورد نظر بر اساس یک مکانیزم معین (مثلاً یک مکانیزم آماری) تولید می‌شود. در حالت دیگر می‌توان در یک زمان خاص، برای مثال در یک سال معین، یک متغیر را در یک جامعة آماری اندازه‌گیری کرد. در این‌حالت یک مقطع از جامعه را در یک زمان خاص پیمایش کرده‌ایم که به زبان فنی‌تر آن را برش مقطعی71 می‌گوئیم.
با اعمال فرض‌های کلاسیک رگرسیون، مدل مذکور برای یافتن β ها یا ضرایب تابع، برآورد می‌شود. با نقض فروض کلاسیک با مشکلاتی چون همبستگی پیاپی72 جملات اخلال یعنیε_t در مدل‌های سری زمانی و واریانس ناهمسانی در مدل‌های مقطعی روبرو می‌شویم. آزمون‌های آماری در مورد ضرایب، آماره های R2 و F رگرسیون و نظایر آن به تعدادی مشاهدات یعنی، T در مورد سری زمانی و N در مورد داده‌های مقطعی و تعداد پارامترها (β های) برآورد شده بستگی دارد، اغلب با یک مشکل عمومی در این مدلها روبرو می‌شویم، متغیرهای توضیحی یعنی x ها با یکدیگر همخطی دارند که باعث می‌شود مقادیر درست β ها برآورد نشود و استنتاج با مشکل مواجه شود.
در مدل‌های پانل دیتا، متغیرها را هم در میان مقاطع جامعة آماری و هم در طول زمان اندازه‌گیری می‌کنیم. البته باید توجه داشت که متغیر‌ها باید در طول سالها یکسان بمانند که در صورت عدم‌ رعایت آن پانل نامتوازن73 خواهد بود. به این ترتیب با دو بعد سروکار داریم: بعد زمان و بعد مقاطع، که آن‌را داده‌های گروهی- زمانی74 نیز می‌گویند.
واضح است که تعداد مشاهدات از یک متغیر، چندین برابر شده است، یعنی از T یا N در داده‌های سری زمانی یا داده های مقطعی به N × T در داده های پانل، افزایش یافته است. متغیرها در عرض جامعه اندازه‌گیری می‌شود و واریانس عرض، اطلاعات زیادی برای آزمون فرضیات فراهم می‌آورد. در طول دوره زمانی نیز همین متغیر اندازه‌گیری شده و واریانس آن در طول زمان می‌تواند اطلاعات مفیدی از پویایی‌های75 متغیر مربوطه در طول زمان برای آزمون فرضیات با ماهیتی دیگر فراهم کند و امکان مدل‌سازی شبیه آنچه در ادبیات سری زمانی مطرح است بهوجود آید.
نماد خطی پانل دیتا :
y_it=β_io+β_1 x_1it+β_2 x_2it+…+β_k x_kit+ε_it
که به زبان ماتریسی به صورت زیر است:
y_it=x_it β+ε_it i=1,…,N t=1,…, T
اندیس i برای افراد یا مقاطع ( تعداد N) و اندیس t برای زمان ( از 1 تا T) در نظر گرفته شده است.
3-14-3) مزایای پانل‌دیتا در مقایسه با داده‌های مقطعی یا سری زمانی
1. تعداد مشاهدات و داده‌ها در پانل دیتا بسیار بیشتر بوده و باعث می‌شود اعتماد به برآوردها بیشتر شود.
2. به محققان تجربی اجازه می‌دهد مدل‌های پیشرفته‌تری را تبیین کرده و آزمون کنند که فرضیه‌های مقید‌کننده کمتری دربر داشته باشد.
3. زیاد بودن تعداد مشاهدات مسأله همخطی بودن را نیز تا حدود زیادی حل می‌کند.
4. با این مجموعه داده‌ها می‌توان اثراتی را شناسایی و اندازه‌گیری کرد که در داده‌های مقطعی محض یا سری زمانی قابل شناسایی نیست.
5. استفاده از داده‌های پانل دیتا، تورش برآورد را از بین می‌برد و یا کم می‌نماید.
3-15) آزمون ناهمسانی واریانس‌ها
به‌منظور بررسی اینکه برای تخمین مدل از روش رگرسیونی OLS76یا EGLS77 استفاده کنیم آزمون ناهمسانی واریانس‌ها را با بهره‌گیری از برنامه STATA انجام می‌دهیم که فرض یک این آزمون، نشان‌دهنده‌ی ناهمسانی واریانس و الزام به استفاده از EGLS برای تخمین مدل و فرض صفر، مبنی بر رد ناهمسانی و استفاده از OLS می‌باشد.
3-16) آزمون خود‌همبستگی
می‌توان اصطلاح خود‌همبستگی را چنین تعریف کرد: “همبستگی بین اعضای سری‌های مشاهداتی است که در زمان (مانند سری‌های زمانی‌) یا مکان (مانند داده‌های مقطعی) ردیف شده‌اند”.
خودهمبستگی مشکلی است که در نتیجه همبستگی بین جزء خطاها رخ می‌دهد. خودهمبستگی اثری بر روی ویژگی‌های ناتور بودن و سازگاری ضرایب برآوردی نخواهد داشت، چون این ویژگی‌ها ارتباطی به برقراری یا عدم برقراری فرض عدم‌همبستگی بین جزء خطاها ندارد اما تأثیر این مسئله بر روی کارایی تخمین زن‌ها می‌باشد که در نتیجه نقض فرض عدم وجود خودهمبستگی، دیگر تخمین زن‌ها کارا نخواهند بود. در اثر این مشکل، واریانس ضرایب تخمینی تورش‌دار و ناسازگار بوده و آزمون فرضیه‌ها دیگر معنادار نخواهند بود. در اکثر مواقع R2 بیش از حد تخمین زده شده که به‌غلط، نشانی از خوبی برازش مدل را ارائه خواهد داد. در این حالت آماره t نیز بیشتر از مقدار واقعی‌ خود بدست خواهد آمد که معناداری بالاتری از تخمین‌ها را به اشتباه نشان خواهد داد (بالتاجی78، 2005) .
جهت آزمون فرضیه عدم وجود خود‌همبستگی از آزمون وولدریج79 استفاده کردیم که در این آزمون فرض صفر،‌ مبتنی بر عدم وجود خودهمبستگی و فرض یک، حاکی از وجود خودهمبستگی است. این آزمون به‌وسیله برنامه STATA انجام می‌گیرد.
3-17) آزمون مانایی (ایستایی) متغیرها
سری زمانی80، یکی از مهمترین داده‌های آماری مورد استفاده در تجزیه تحلیل تجربی است. در تحقیقات همواره چنین فرض شده است که سری زمانی مانا81 است و اگر این حالت وجود نداشته باشد، آزمونهای آماری متعارفی که اساس آنها بر پایه t، f و آزمونهای مشابه بنا شده است، مورد تردید قرار می‌گیرد. از طرفی، اگر متغیرهای سری زمانی مانا نباشد، ممکن است مشکلی به‌نام رگرسیون کاذب بروز کند. در این‌گونه رگرسیونها، در عین حالی که ممکن است هیچ رابطه معنی‌داری بین متغیرهای الگو وجود نداشته باشد، ضریب تعیین (R2) بدست آمده آن ممکن است بسیار بالا باشد و موجب شود که محقق

پایان نامه
Previous Entries پایان نامه با موضوع اقلام تعهدی، قلام تعهدی، صاحبان سهام Next Entries پایان نامه با موضوع سریهای زمانی، داده های تابلویی، اثرات ثابت