تحقیق با موضوع انعطاف پذیری، همسانی درونی، آموزش و پرورش، ارزیابی کیفی

دانلود پایان نامه ارشد

پارامترهای سوال دخالت دارند و ICC ها در این مدل نه تنها از نظر مکان و شیب، بلکه از نظر مجانب پایین (c) نیز با هم تفاوت دارند. به دلیل وجود پارامتر حدس، انتهای پایین خم ویژه سوال در این مدل صفر نیست بلکه برابر با مقدار c است. از این رو در این مدل پارامتر دشواری سوال، نقطه ای در مقیاس توانایی است که احتمال پاسخ صحیح در آن برابر میانگین (c و1) باشد. این مدل برای سوالات بسته پاسخ که آزمودنیها با استفاده از عامل حدس میتوانند به جواب برسند، بسیار مناسب است.
نظریه تعمیمپذیری در مقابل نظریه کلاسیک آزمون
برنان (b2010) از شباهتهای دو نظریهی تعمیمپذیری و کلاسیک آزمون به موارد زیر اشاره میکند؛ هر دو نظریه نمره واقعی (یا جهان) را به عنوان یک ارزش مورد انتظار از نمرات مشاهده شده تعریف میکنند. هر دو نظریه به وضوح خطاهای اندازهگیری تصادفی را شامل میشوند و مفاهیم اعتبار( یا تعمیمپذیری) در هر دو نظریه به خوبی تعریف شده است.
این دو نظریه به رغم شباهتهایی که دارند، تفاوتهای بسیار مهمی نیز دارند که در زیر به شرح مواردی از آن پرداخته میشود.
چارچوب مفهومی : GT نسبت به CTT چارچوب مفهومی قدرتمندتری دارد که منجر به برطرف کردن
تعدادی از تناقضات آشکار در چند بحث CTT از اعتبار شده است. دو ویژگی مهم GT که به حل تناقضات
کمک میکند عبارتند از: تمایز گذاشتن GT میان رویههای اندازهگیری ثابت و تصادفی و همچنین قابلیت این نظریه در پرداختن به طرحهای مختلف مطالعه D ( برنان، b2010).
مفروضات زیربنایی آماری: در CTT مفروضات آزمونهای موازی و آزمونهای اساساً تائو معادل،
اغلب غیرقابل دفاع هستند. در حالیکه GTفرض میکند که آزمونها تصادفی موازی هستند و محتوای آزمون یک نمونه تصادفی از حیطه یا جهان تعریف شده در نظر گرفته میشود. برنان (b2010) بیان میکند که هر دو نوع موازی بودن ایده آل هستند و هیچگاه احتمال اینکه کاملاً واقعیت داشته باشد، نیست. اگر چه یکی یا دیگری ممکن است در زمینهای خاص مناسبتر باشد.
مدلسازی نمرات مشاهده شده: در CTT نمره ی مشاهده شده یک فرد در آزمون مبتنی بر نمره واقعی
شخص در آزمون و خطای اندازهگیری است. در GT هر نمره مشاهده شده معرف یک نمونه از تمام نمرات ممکن فرض میشود و در قالب یک یا چند مؤلفه واریانس بیان میشود. نمره مشاهده شده در یک آزمون از رویههای مختلف مورد استفاده در آزمون تأثیر میپذیرد و با توجه به رویههای مورد استفاده در آزمون معرف عملکرد فرد در همان رویههاست.
منابع چندگانهی خطای اندازهگیری: همانطور که سوئن و لی (2007) مطرح کردهاند؛ در وضعیتهای
اندازهگیری پیچیده که با منابع چندگانهای از خطای اندازهگیری (رویهها) روبهرو است، نمرهی مشاهده شده نتیجهی نمرهی واقعی باضافهی اثرات و تعاملات این منابع چندگانه خطاهای اندازهگیری است. روش معمول CTT در چنین وضعیتهای اندازهگیری برای برآورد اعتبار این است که از روشهای مختلفی (همچون بازآزمایی، بین ارزیابان، همسانی درونی،… ) استفاده میکند. روشهای مختلف، ضرایب اعتبار مختلفی را به دنبال دارند که این نیز به نوبهی خود منجر به خطاهای استاندارد اندازهگیری متفاوتی میشود. مسئلهای که اینجا پیش میآید این است که در چنین وضعیتی دقیقترین برآورد ضریب اعتبار کدام است؟ و به منظور ساخت فاصلههای اطمینان حول نمرات مشاهده، کدام خطای استاندارد اندازهگیری را باید به کار برد؟ متأسفانه CTT قادر به پاسخگویی به این سوالات نیست. در حالیکه در GT میتوان منابع چندگانه خطا را همزمان در ترکیبهای متفاوتی از تصادفی یا ثابت در نظر گرفت. با تشخیص اینکه آیا یک رویه تصادفی یا ثابت باشد امکان برآورد اعتبار و خطای استاندارد ناشی از منابع معین خطا در GT وجود دارد. به بیانی دیگر، GT سهم هر منبع خطا (رویه) را در واریانس نمرات آزمون تعیین میکند و فرصت محاسبهی برآوردهای متفاوتی از اعتبار را میدهد که بستگی به این دارد کدام منبع خطا برای هر استفاده ی خاص از آزمون مهم در نظر گرفته میشود. فن و سان (2013) بیان میکنند که در چنین وضعیتهای اندازهگیری، CTT قادر به برآورد اعتبار نیست زیرا شیوههای سنتی اعتبار تنها برای یک رویه طراحی شدهاند. از این رو CTT نمیتواند به بررسی منابع چندگانه خطای اندازهگیری بپردازد. سوئن و لی103(2007) نیز اذعان داشتند، این گونه نیست که CTT وجود منابع چندگانه خطاهای اندازهگیری را انکار کند، بلکه حقیقت این است که این نظریه نمیتواند از لحاظ مفهومی و آماری آن را در خود جای دهد در حالیکه، GT نه تنها میتواند از نظر مفهومی تصور داشتن انواع مختلفی از ضریب اعتبار را در خود لحاظ کند، بلکه میتواند یک مکانیسم عملی برای انجام آن نیز داشته باشد.
سنجشهای ملاکمرجع104 و هنجارمرجع105 : در سنجش ملاکمرجع، هر دو خطای اندازهگیری (منظم و
تصادفی) لازم است که لحاظ شوند. CTT چون نمیتواند خطای اندازهگیری منظم را در خود جای دهد بنابراین تنها برای سنجش هنجار مرجع مناسب است. در حالیکه GT به دلیل انعطاف پذیری که دارد هر دو خطای اندازهگیری نسبی و مطلق را در خود جای می دهد بنابراین هم برای سنجش هنجارمرجع و هم برای ملاکمرجع مناسب است (همان منبع).
نظریه G چند متغیره106، مسائل اعتبار را در راستای جهانهای تعمیم چندگانه گسترش داده است که
وضعیت متناظر آن در CTT وجود ندارد( برنان، b2010 ).
نظریه کلاسیک آزمون و نظریه تعمیمپذیری در مقابل نظریه پرسش پاسخ
سوئن و لی(2007) معتقدند که از نظر فنی؛GT ، CTT، IRT به طور مستقیم در برابر یکدیگر قابل مقایسه نیستند چرا که آنها کانون توجه متفاوتی دارند. نمرهی مورد نظر درIRT، نمرهی نظری مشاهده نشدهی صفت مکنون است و هدف اصلی این نظریه، برآورد کردن صفت مکنونی است که به طور نظری زیربنای پاسخ مشاهده شده به سوال آزمون را تشکیل میدهد که این صفت مکنون بر اساس مدلهای مفروض برآورد میشود. در حالی که نمره مورد نظر در CTT و GT، نمرهی مشاهده شده آزمون است و هدف اصلی این دو نظریه، ارزیابی کیفیت نمره مشاهده شده آزمون است که از طریق ضرایب اعتبار و خطاهای استاندارد برآورد میشود بدون اینکه تلاشی جهت برآورد نمرهها در صفت مکنون صورت گیرد.
در IRT، نتایج به نقض مفروضات مدل بسیار حساس است. همچنین، این نظریه مستلزم نمونههای
آزمایشی بزرگ است که حداقل حجم نمونه در دامنهی 200 تا 1000 قرار دارد و این بسته به مدل احتمالی انتخاب شده دارد. در مقابل CTT و GT در برابر نقض مفروضات مدل هایشان مقاومتر هستند. علاوه بر این مستلزم نمونههایی با حجم بزرگ نیستند.
واحد بنیادی تحلیل درIRT، پاسخهای سوال است در صورتی که برای CTT و GT، نمرات آزمون است.
برنان (b2010) مطرح می کند که با بکارگیری IRT، محققان میتوانند به وضوح میان سوالات متفاوت تمیز قائل شوند. در مقابلGT نمیتواند میان سوالات تمیز قائل شود، از این رو که یک مدل نمونهگیری تصادفی است. CTT میتوان میان سوالات تمایز بگذارد تنها اگر سوالات همانند تعریف شده باشند، البته در این صورت نیز، مفروضات موازی اغلب تصوری هستند. برنان، همچنین از CTT و GT بهعنوان نظریههای ارزش مورد انتظار107 نام میبرد و برای اینکه IRT را در مقابل نظریههای ارزش مورد انتظار قرار دهد از تمثیل جنگل – درختان108 استفاده میکند و چنین میگوید؛ سوالات منفرد را به عنوان درختان و جهان سوالات را به عنوان جنگل در نظر بگیرید. اگر ما روی درختان جداگانه تمرکز کنیم همانطور که در IRT عمل میکنیم، آنگاه ما بیتردید نسبت به جنگل بیاطلاع هستیم. اگر ما روی جنگل تمرکز کنیم، آنگاه درختان از هم قابل تشخیص نیستند. از دیگر تقابلهای نظریههای مذکور میتوان به این نکته اشاره کرد که سوالات درIRT (صحیحتر پارامترهای سوال) در واقع ثابت است، هر تکرار اندازهگیری یک مجموعه از سوالات با پارامترهایی همانند را شامل میشود که به آن فرم های کاملاً موازی میگویند. در صورتیکه سوالات در GT تقریباً همیشه به صورت تصادفی مورد بررسی قرار میگیرند و مفهوم فرمهای تصادفی موازی در GT نسبت به فرمهای کاملاً موازی109 کمتر محدود کننده است. حتی مفهومهای مختلف CTT از فرمهای موازی خیلی ضعیفتر از فرمهای کاملاً موازی است.
تصمیمها در آموزش و پرورش و روانشناسی مبتنی بر نتایج به دست آمده از ابزارهای سنجش هستند. از ضروریترین ویژگیهای ابزارهای سنجش، میتوان اعتبار و روایی را ذکر کرد. در این تحقیق علاوه بر اینکه اعتبار امتحاناتنهایی به طور عمده در قالب طرحهای اندازهگیری GT بررسی شده است، به شیوهی سنتی نیز اعتبار این امتحانات محاسبه گردیده است. لذا، در بخش زیر در مورد اعتبار و روشهای سنتی محاسبهی آن نیز بحث میشود و در ادامه موضوع روایی مطرح میگردد.
مفهوم اعتبار
اصطلاح اعتبار از نظریه کلاسیک آزمون مشتق شده است. با توجه به این نظریه، هر نمره مشاهده شده در ابزار اندازه گیری متشکل از دو مؤلفه است: نمره واقعی و نمره خطا. تصور میشود که هر اندازه گیری با خطا همراه است. انواع مختلفی از خطای اندازه گیری وجود دارد که میتواند به خود ابزار اندازهگیری، وضعیت اندازهگیری، شخصی که آزمون میگیرد یا فرد مورد آزمایش مربوط باشد. اعتبار نسبت تغییرپذیری در اندازههای مشاهده شده است که در نتیجهی تغییرپذیری واقعی بین افراد است، تا نوعی از خطا (اسکولتز110، تروی111 و رادولف112، 2011). میلر(2010) معتقد است که اعتبار به درجهای که نمرات آزمون عاری از خطای اندازهگیری هستند، اشاره دارد. برآوردهای اعتبار میزانی از خطای اندازهگیری را در جهت استفاده یا تفسیر خاص آزمون برای یک جامعه مشخص شده، کمی میکنند.
اعتبار فرایند کمیسازی خطاست و یک مفهوم کلی برای نامیدن مجموعهای از ویژگیهاست و اشاره
میکند تا چه حد آزمون دقیق و حساس است، نتایج آزمون ثبات دارد و تکرارپذیر است، ضریب باز پدیدآوریش چقدر است؟ (جزوه فلسفی نژاد، 1391). آزمونها معمولاً بهطور کامل معتبر یا کاملاً نامعتبر نیستند، بلکه یک آزمون تا حدی معتبرست. در 0= ρ_(xx ́ ) ، نمره مشاهده شده برابر خطای تصادفی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس خطا است. در 1 = ρ_(xx ́ ) ، نمره مشاهده شده برابر نمره واقعی است. در نتیجه کل واریانس نمره مشاهده شده منعکس کننده واریانس نمره واقعی است. اعتبار یک پارامتر نسبی است و در عمل، ضریب اعتبار چیزی بین این دو کرانه خواهد بود.
تعاریف آماری اعتبار
ضریب اعتبار برابر است با همبستگی بین نمرات مشاهده شده دو آزمون موازی.
ضریب اعتبار در جامعه به عنوان نسبت واریانس نمرات واقعی به واریانس نمرات مشاهده شده
تعریف می شود ( ρ_(xx ́ )= (σ_T^2)/(σ_x^2 ) ). یا به طور جایگزین، برحسب واریانس نمره خطا به این صورت ( ρ_(xx ́ )=1- (σ_E^2)/(σ_x^2 ) ) نشان داده می شود.
ضریب اعتبار را میتوان به عنوان مجذور همبستگی بین نمره مشاهده شده و نمره واقعی یک آزمون نشان داد ( ρ_(xx ́ )= ρ_xT^2 ).
ضریب اعتبار برابر است با یک منهای مجذور همبستگی بین نمرات مشاهده شده و نمرات خطا (ρ_xE^2 ρ_(xx ́ )=1- ) (آلن و ین، 1979، ترجمه دلاور، 1387، ص111).
روشهای برآورد اعتبار
اگر چه اعتبار میتواند به طور کلی در چارچوب همسانی و یا تعمیم پذیری تعریف شود، شاخصهای آماری ویژه اعتبار، مبتنی بر الگوی آماری و منابع خطا تغییر میکند. الگوی آماری ممکن است بر پایه نظریه کلاسیک آزمون، نظریه تعمیمپذیری، یا نظریه پرسش – پاسخ باشد. در چارچوب نظریه کلاسیک آزمون انواع مختلفی از ضریب اعتبار وجود دارد که بسته به منابع خطای در نظر گرفته شده، متفاوتند. این تعاریف متفاوت باید بر اساس کاربرد خاص آزمون یا تفسیر نمره به دست آمده، انتخاب شوند و یک نوع اعتبار نباید به عنوان جانشینی برای دیگری در نظر گرفته شود ( میلر، 2010). در این قسمت به روشهای برآورد اعتبار در آزمونهای هنجار مرجع پرداخته و در ادامه، اعتبار بین مصححان113 و اعتبار نمرات اختلاف114 نیز مطرح می شود.

روشهای برآورد اعتبار

پایان نامه
Previous Entries تحقیق با موضوع نظریه مجموعه، تحلیل عاملی، همترازسازی، تحلیل عامل Next Entries تحقیق با موضوع همسانی درونی، ضریب همبستگی، معادله ساختاری، انحراف معیار