در این نظریه برای بدست آوردن اعتبار از فرض آزمون های موازی استفاده می شود(چون برای سنجش اعتبار نیاز به آزمون های موازی است) ولی به ندرت اتفاق می افتد که بتوان آزمون های کاملاً موازی تهیه کرد و چنانچه آزمون های غیر موازی فرض شود برآوردهای نادرستی از اعتبار آزمون بدست می آید.
۴- خطاهای تصادفی اندازه گیری [۲۰]
مدل های ضعیف نمره حقیقی برای همه آزمودنی ها و در همه سطوح نمره حقیقی در یک آزمون ، خطای اندازه گیری یکسانی برآورد می کند. در حالیکه بر حسب سطوح مختلف نمرات حقیقی و موقعیت آزمودنی ها بر روی پیوستار صفت ، خطای اندازه گیری متفاوت است و معمولاً آزمودنی هایی با توانایی پایین تر دارای خطای استاندارد و اندازه گیری بیشتری نسبت به آزمودنی های قوی تر و با نمرات حقیقی بالاتر هستند (همبلتون، ۱۹۹۱).
۵- دیگر محدوده نظریه کلاسیک به شیوه طرح و ساختن تست بر می گردد،
یعنی اینکه مقایسه توانایی آزمودنی ها معمولا به وسیله یک تست با فرم های همتای آن محدود می گردد. یک اشکال این شیوه این است ، چون بسیاری از تست های پیشرفت و استعداد نوعاً برای دانش آموزان با توانایی متوسط ساخته می شوند ، تخمین های بسیار دقیقی از توانایی دانش آموزان قوی و ضعیف فراهم نمی آورد، به عقیده لرد (۱۹۸۰) هنگامیکه دشواری تست با سطح توانایی تقریبی هر آزمودنی ناجور باشد، شاهد تغییر در اعتبار تست خواهیم بود. وی می گوید چنانچه سوال های آزمون را طوری بسازیم که با سطح توانایی آزمودنی ها جور باشند، می توانیم طول تست را بدون آنکه کاهشی در اعتبار فراهم گردد، کوتاه تر کنیم. ولی اگر تستی درست کنیم که سوال های از لحاظ دشواری متفاوت باشد، کار مقایسه بین آزمودنی ها مشکل خواهد بود.
این نظریه دارای اشکالاتی دیگری نیز هست که علاقمندان می توانند به همبلتون[۲۱] (۱۹۹۱) و بیکر[۲۲] (۱۹۸۵) مراجعه کنند.
نظریه های جدید اندازه گیری
زمینه های ارائه تئوری های جدید اندازه گیری از نیمه دوم قرن بیستم توسط افرادی مانند لرد[۲۳] (۱۹۵۲،۱۹۵۳)، راش[۲۴] (۱۹۶۰)، برن بام[۲۵] (۱۹۵۸۱۹۶۸)، رایت[۲۶] (۱۹۶۸)، همبلتون (۱۹۷۹، ۱۹۸۳) و غیره فراهم شد. به نحوی که اولین مدل این نظریات در ۱۹۶۰ توسط جرج راش، ریاضی دان دانمارکی در کتاب خود تحت عنوان مدل های احتمالاتی برای آزمون های هوشی و پیشرفت مطرح گردید. هر چند به نظر لرد ریشه معنی منحنی ویژه سوال و به عبارت دیگر نظریه های جدید برای نخستین بار توسط لاولی[۲۷] در ۱۹۴۳ بیان شد و کسانی مانند لازارسفلد[۲۸] در ۱۹۵۰و ۱۹۵۹ تئوری کلی تری برای آزمون های نگرش و سایر پرسش نامه ها توسعه دادند (لرد، ۱۹۶۸).
با گذشت زمان و پیشرفت های چشمگیر در این زمینه ها به ویژه در عرصه علوم کامپیوتر زمینه برای بسط و گسترش نظریه های جدید فراهم شد و روا نسنجان و متخصصان آزمون سازی با علاقه بیشتری رو به این تئوری ها آوردند. نظریه های جدید اندازه گیری نخست با اصطلاح صفت مکنون یا خصیصه مکنون به شدت پیوند خورد به صورتی که در ادبیات و پیشینه تئوری های جدید فراوان به چشم می خورد اما به دلایلی هم اینک سوال- پاسخ (IRT) با نظریه منحنی ویژه سوال رواج یافته و برای مقاصد آزمون سازی تحلیل آماری داده ها مناسب تر به نظر می رسد (همبلتون، ۱۹۹۱).
تئوری بنیادی تر و دارای مدل هایی با توزیع احتمال موفقیت آزمودنی در سطح سوال است به طوری که اسم آن بیان IRT عمدتا برای آگاهی سطح سوال متمرکز است چارچوبIRT دربرگیرنده گروهی ازمدل هاست و کاربرد هر مدل در موقعیتی خاص به ماهیت سوالات آزمون واعتبار فرضیه های نظری مختلف درباره سوالات آزمون بستگی دارد (فن، ۱۹۹۸) ۰
مفروضه های اصلی مدل های سوال- پاسخ (IRT)
مدلهای سوال- پاسخ دارای مفروضاتی است که اگرچه به آنها مفروضات قوی گفته می شود و برقراری آنها در شرایط تجربی چندان ساده نیست ولی در صورت برقراری به نتایج عملی معتبر و وهمی منجر می شود که از مدل های کلاسیک با مفروضات ضعیف بر نمی آید. دو مفروضه اصلی IRT و مدل های جدید عبارتست از:
تک بعدی بودن[۲۹]
هر آزمونی از تعدادی سوال تشکیل شده است که معطوف به سنجش صفت با صفات معینی است. در واقع این صفات یا توانایی ها زیر بنایی عملکرد آزمون را تشکیل می دهد . یک آزمون براساس آنکه یک یا چند صفت زیر بنایی کارکرد در آن را شامل شود و سوالات آن از چند عامل اصلی اولیه اشباع شده باشد، دارای بعد یا ابعادی خواهد بود. عملکرد آزمودنی در آزمون مورد نظر (پاسخ به سوالات) موقعیت و جایگاه او را در فضای مکنون معین می کند (لرد و ناویک، ۱۹۶۸).
در کارهای مربوط به IRT اغلب چنین فرض می شود که یک صفت با توانایی وجود دارد که به گونه ای کارآمدی عملکرد آزمودنی در تست و روابط درونی هر جفت سوال تستی را توجیه و تبیین کند، که به آن مدل های تک بعدی می گویند.
البته تعیین تک بعدی بودن یک آزمون بطور کاملاً دقیق قابل دسترس نیست زیراهمواره عوامل گوناگون شخصیتی ، شناختی، اجرایی و … مثل اضطراب، سرعت عملکرد و سرو صدا و … عملکرد آزمودنی در آزمون را تحت تأثیر قرار می دهد. لیکن آنچه ضروری است تا به برقراری مفروضه تک بعدی بودن منجر شود ، مولفه یا عامل غالب است. این مولفه به صفت یا توانایی اصلی مورد نظر تست اشاره دارد. به نظر لرد (۱۹۶۸) مفروضه تک بعدی بودن در مورد مجموعه سوالات تستی ، بطور کامل، برای بسیاری از آزمون ها مصداق ندارد هر چند وی اضافه می کند که در بعضی موارد با تقریب خوبی قابل قبول است.
استقلال موضعی (شرطی)[۳۰]
این مفروضه از ویژگی های مشترک همه مدل های IRT است و تحت عنوان مفروضه استقلال موضعی لازارسفلد شهرت دارد. این مفروضه بدان معناست که هر سوال باید مساله کاملاً تازه ای باشد و عملکرد آزمودنی در یک سوال مستقل از عملکرد او در سایر سوالات تست باشد، بنابراین عملکرد آزمودنی در یک سوال نباید در بهتر یا بدتر شدن پاسخ هایش به هر یک از سوالات دیگر آزمون تأثیر بگذارد.در واقع معنای این مفروضه این است که تنها چیزی که پاسخ های یک سوال را تبیین می کند، صفت یا توانایی مورد اندازه گیری است، با ثابت نگه داشتن سطح توانایی که تنها منبع تغییرات پاسخ هاست هر متغییر دیگری به خطا قابل انتساب است که آن هم طی سوالات مستقل است. برای مثال هیچ سوالی نباید سرنخ یا راهنمایی برای پاسخ به سوالات دیگر را فراهم کند . با توجه به این مفروضه فقط سطح توانایی آزمودنی و ویژگی های هر سوال بر عملکرد آزمودنی در سوال موثر است (همبلتون، ۱۹۹۱ )، ( مک کینلی ، ۱۹۸۹)۰
به بیان فنی و ریاضی ، توزیع های شرطی نمرات همه سوالات در درون هر گروهی از آزمودنی ها که همگی با مقادیر معین و یکسان مشخص شده اند، مستقل از یکدیگرند.
این مفروضه دارای دو شکل قوی و ضعیف است. شکل قوی آن به استقلال شرطی در تبیین سوالاتی که یک آزمودنی پاسخ می دهد، مربوط می شود. هر آزمودنی معین دارای بردار پاسخ مستقلی از لحاظ آماری است. یعنی عملکرد آزمودنی در سوال i مستقل از نحوه عملکرد او در سایر سوالات است. برقراری این مفروضه منجر به تک بعدی بودن آزمون می شود، یعنی آن که آزمونی یک بعدی و دارای یک صفت بنیادی است که استقلال موضعی در بین سوالات آن برقرار باشد. در صورتی که آزمون از بیش از یک صفت اصلی اشباع شده باشد. سئوالات دارای استقلال موضعی نیست ولی مشکل این مفروضه به استقلال موضعی در میان آزمودنیها ارتباط دارد و بدان معناست که بین پاسخ به سوالات آزمودنی هایی که در یک سطح ثابت توانایی قرار دارند همبستگی وجود ندارد. این رابطه را می توان از طریق فرمول استقلال آماری پیشامدها بدست آورد (آلن وین، ۱۹۷۹ ترجمه دلاور )، (همبلتون و کوک ، ۱۹۷۷)۰
نظریه صفت مکنون و ارتباط آن با IRT
وقتی از مقیاس مشترک توانایی بحث می شود، مقصود نوعی صفت فرضی تک بعدی است که گاه “متغیر” یا “صفت مکنون” خوانده می شودو فرض می شود که تست آن را می سنجد. اصطلاح صفت در اینجا سازه ای است که اساساً آماری است و وجود خارجی ندارد. مقصود نوعی خصیصه مکنون است که زیربنای الگوی موفقیت ها و شکست های آزمودنی ها را در یک مجموعه سوال تستی تشکیل می دهد و در واقع کیفیتی از رفتار است که تجلی آن در طول زمان های مختلف و دامنه ای از موقعیت های خاص ، دست کم تا حدودی ثابت است (هومن، ۱۳۸۵).
اصطلاح نظریه صفت مکنون شامل خانواده ای از مدل های ریاضی است که روابط تابعی بین متغیرهای مشاهده پذیر و سازه های صفت فرضی زیربنائی این متغیرها را نمایش می دهد. هسته مدلهای صفت مکنون را معادله ای تشکیل می دهد که رابطه بین پاسخ های مشاهده پذیر به یک محرک (نظریه یک سوال تستی) و سطح صفت بنیادی آن را به عنوان تابعی برای ویژگی های آن متغیر محرک بیان می کند. چنانچه مجموعه پاسخ های مشاهده شده یک آزمودنی به سوالهای یک تست با ویژگی های معلوم در دست باشد، مدلهای صفت مکنون استنباط سطح صفت این آزمودنی را با بهره گرفتن از پاسخ های مشاهده امکان پذیر می سازد. بنابراین ، احتمال موفقیت در یک سوال را می توان به عنوان تابعی از جایگاه آزمودنی در ابعاد صفات بنیادی در نظر گرفت که شکل آن چنین است:
در اینجا P نمایش احتمال موفقیت در سوال g و نمایش صفات زیربنایی سئوال است به این تابع، تابع ویژه سوال[۳۱] گفته می شود. (هومن ، ۱۳۸۵).
وقتی نظریه صفت مکنون در مورد تست های توانایی با پیشرفت به کار می رود ، نظریه خم ویژه سوال یا نظریه سوال – پاسخ (IRT) نامیده می شود. این دو اصطلاح فراوان به جای یکدیگر به کار می رود. خم ویژه سوال خمی است که احتمال پاسخ درست به یک سوال تستی را به عنوان تابع سطوح مختلف صفتی که بر حسب موفقیت در سوال می شود، نمایش می دهد. نظریه سوال- پاسخ، هم نقش سوال تستی و هم پاسخ های آزمودنی ها را مورد توجه قرار می دهد(هومن ، ۱۳۸۵).
خم ویژه سوال زیربنائی تئوری سوال پاسخ است و همه سازه های دیگر این تئوری بستگی به آن دارد، و به همین دلیل نقش آن در تئوری مذکور به گونه قابل ملاحظه ای مورد توجه قرار گرفته است (بیکر ، ۲۰۰۱). این خم دارای پارامترهایی است که در احتمال موفقیت در سوال موثرند که عبارتند از:
۱ -پارامتر شیب خم[۳۲](پارامتر تشخیص سوال) : نسبت تغییر در احتمال موفقیت را وقتی در جهت بالای مقیاس خصیصه مکنون حرکت می کنیم نشان می دهد. این پارامتر نشانگر سطح تشخیص وال است و با ag نشان داده می شود. اگر صفت دارای توزیع نرمال با میانگین صفر و انحراف استاندارد یک باشد، پارامتر ag با ضریب همبستگی دو رشته ای بین سئوال و صفت مکنون دارای رابطه زیر خواهد بود.
معمولاً ag بین -۲/۵ تا ۲/۵ دارد و بیشتر سئوالات ag=1 عمومیت دارد؛ مقادیر کوچکتر از ۰/۵۰ برای بیشتر مقادیر تستی فاقد تشخیص کافی است و مقادیر بزرگتر از ۲/۵ نیز به ندرت در محاسبات بدست می آید (هومن، ۱۳۸۵).
۲-پارامتر دشواری[۳۳]: این پارامتر نشان می دهد که خم ویژه سوال در کجای مقیاس خصیصه مکنون قرار دارد. این پارامتر معرف دشواری و سطح زیربنائی است و با bg نمایش داده می شود. بنابراین با مفهوم دشواری سوال در مدل کلاسیک که به نسبت پاسخ های درست به کل پاسخ هاست ، تفاوت دارد. پارامتر دشواری نقطه عطف[۳۴] خم ویژه سوال را توصیف می کند و با آن که مقیاس آن اختیاری است ، معمولاً بین -۲/۵ تا +۲/۵ مقیاس پردازی می شود. وقتی bg دقیق برابر یعنی برابر با سطح معینی از خصیصه مکنون باشد، درست ۵۰ درصد آزمودنی های که در آن سطح قرار دارند به سوال پاسخ درست بدهند (هومن ، ۱۳۸۵).
۳_ پارامتر موفقیت در حد شانس[۳۵](پارامتر حدس وگمان): پارامتری که بیانگر سطح پایه خم برای سطوح بسیار پائین خصیصه مکنون است یعنی احتمال انتخاب کاملاً تصادفی گزینه درست سئوال که یا Cg نمایش داده می شود و در واقع همان مجانب[۳۶] است که وقتی فوق العاده پایین باشد به خم ویژه سوال نزدیک می شود. این پارامتر بسته به اینکه سوال تستی دارای چند گزینه باشد متفاوت است مثلاً برای سوال ۴ گزینه ای حدود ۰/۲۵ است برای سئوالهای ۵ گزینه ای حدود ۰/۲ است ولی برای سوال های باز پاسخ این پارامتر حدود صفر است. چون در اینجا آزمودنی پاسخ را از بین گزینه های داده شده انتخاب نمی کنند، ولی در عمل این مقدار می توان تغییر کند بخصوص در مدل سه پارامتری که این پارامتر برای تک تک سوالات برآورد می شود.
پارامتر توانایی : هر آزمودنی به قصد جایگاه افراد در پیوستار یا صفت مورد نظر یا فضای مکنون طراحی و اجرا می شود ، این صفت یا توانایی ، پارامتر توانای نامیده می شود۰ در نظریه سوال -پاسخ از حرف یونانی θ (تتا)به عنوان نماد توانایی استفاده می شود و دامنه بین ∞+ تا ∞- را در بر می گیرد (همبلتون وکوک، ۱۹۷۷).
تابع آگاهی سوال و آزمون[۳۷] : یکی از مفاهیم برجسته ، پرقدرت و انعطاف پذیرIRT ، مفهوم آگاهی است؛ اصولا هر آزمون متشکل از تعدادی سوال است که به منظور کسب اطلاع وآگاهی از میزان صفت یا توانایی مورد سنجش آزمودنی ها طراحی، ساخته واجرا می شود۰ در مدل کلاسیک روش کارآمد و مطمئنی برای اطلاع از سودمندی و اثربخشی سوالات یک آزمون در سنجش صفت مورد نظر و به عبارت دیگر میزان آگاهی که هر سوال راجع به آزمودنی ها می دهد وجود ندارد. لیکن در مدل های جدید IRT محققان قادر هستند که سوالات را به طور انفرادی انتخاب نمایند که این تصمیم گیری مستقل از نمونه آماری می باشد.
در واقع با بهره گرفتن از تابع آگاهی، میزان آگاهی دهندگی هر سوال و لذا کل آزمون بدست می آید. مفهوم آگاهی سوال و آزمون در طراحی و ساخت آزمون ها برای مقاصد خاص انتخاب و گزینش سوالات مورد نیاز و ارزشیابی آزمون ها از نظر موفقیت در برآورد هدف آزمون سازان کاربرد بسیار دارد(همبلتون، جونز و راجرز۱۹۹۳)۰
انواع مدل براساس تعداد پارامتر
برای برآورد همزمان پارامترهای سوال و توانایی، روش های زیادی وجود دارد. مثل روش های احتمال مشترک، بیشینه احتمال شرطی بیشینه احتمال کناری، روش بیزین و روش ابتکاری و اکتشافی.
اما برای بیشتر کارهای نظری که درباره ویژگی های سوالات تستی و تست های حاصل از ترکیب این سوالات انجام می شود یکی از دو مدل ریاضی زیر استفاده می شود و هر دو مدل نتایج مشابهی را بدست می دهند و انتخاب هر کدام در بیشتر موارد بستگی به سادگی و سهولت استفاده مطالب ریاضی دارد که از بکار بردن آن حاصل می شود نخست مدل اجایو نرمال، یعنی شکل تراکمی خم نرمال[۳۸] است. وقتی Cg=0 یاشد، معادله مزبور به صورت زیر در می آید.
مدل دوم، تابعی است که تابع منطقی[۳۹] نامیده می شود که بسته به اینکه ارزش عددی چند پارامتر در آن دخیل باشند مدل های خاصی بوجود می آید و خم ویژه بخصوصی را معین می کند. در این قسمت چهار مدل ریاضی برای خم ویژه سوال ارائه می شود. این مدل ها از طریق تولید یک معادله ریاضی، رابطه احتمال پاسخ درست را با توانایی تبیین می کند. هر مدل با بهره گرفتن از ارزش عددی یک یا چند پارامتر ، خم ویژه بخصوصی را معین می کند.
۱- مدل منطقی تک پارامتری (مدل راش)
راش در دهه ۱۹۶۰ موفق شد داده های دستی را از دیدگاه تئوری کلاسیک احتمال تجزیه و تحلیل کند. هر چند کار او با چهارچوب مرجع بسیار متفاوت آغاز شد ، اما مدل خم ویژه سوال حاصل از کار وی یک مدل لوجستیک است. بر پایه این مدل ، پارامتر قدرت تشخیص (ag) همه سوالات یکسان و برابر با یک فرض می شود و پارامتر cg برابر صفر قرار داده می شود و سوالات فقط از نظر پارامتر دشواری (bg) مقادیر متفاوتی دارند. احتمال پاسخ صحیح در مدل تک پارامتری از معادله زیر بدست می آید.
در اینجا bg معرف پارامتر دشواری سطح توانایی را نشان می دهد و چون پارامتر تشخیص برابر یک است در فرمول تأثیری نداردو نشان داده نمی شود(هومن، ۱۳۸۱).
D عدد ثابت ۷۰۲/۱ است که به منظور تطبیق واحدهای مقیاس تابع منطقی با واحدهای اجایو نرمال به کار می رود. برای اجرای این مدل باید:
۱) سوالات باز پاسخ باشند تا بتوان Cg=0 در نظر گرفت (البته ممکن است دقیقاً Cg=0 نباشد ولی این گونه فرض می شود)
۲) تمام سوالات از نظر محتوا و شکل همگون بوده و تنها یک خصیصه مکنون مشترک را بسنجد و در واقع همه سوالات تک بعدی باشند مثلاً همه آنها املاء باشند یا همه آنها تفریق باشند.
۳) سوالات با بهره گرفتن از یک فرم تجربی اولیه سرند شوند و سوالات مبهم و جور نشدنی کنار گذاشته شوند.
۴) سوالات را منعکس کنند رشد کلی مربوط به نوعی خصیصه باشند، نه یک درس خاص (هومن، ۱۳۷۵).
اگر چه مدل راش می تواند به عنوان حالتی خاص از مدل های آزمون لوجستیک دو و سه پارامتری ملاحظه شود، خود آن واجد برخی ویژگی های خاص است که آن را برای کاربران جذاب می سازد نخست، به دلیل وجود پارامترهای سوال کمتر، کارکردن با آن آسانتر است. دوم ، مسایل برآورد پارامتر کمتری در مدل راش نسبت به مدل های عمومی و کلی تر وجود دارد. سرانجام ویژگی عینیت خاصی که بدست می آید ، اجازه جداسازی کامل سوال و تخمین توانایی را می دهد (همبلتون، ۱۹۹۱).
۲- مدل منطقی دو پارامتری
بر پایه این مدل پارامترهای قدرت تشخیص (ag) و دشواری سوال (bg) تغییر می کنند ولی باز هم سوالات باز پاسخ است و آزمودنی پاسخ درست را از بین گزینه ها انتخاب نمی کند بلکه موظف به تولید پاسخ است. بنابراین پارامتر Cg ثابت و برابر صفر در نظر گرفته می شود. معادله برآورد احتمال پاسخ صحیح برای مدل دو پارامتری بدین صورت است:
در اینجا ag قدرت تشخیص سوالات را نشان می دهد و بیانگر انحراف منطقی است.
۳- مدل منطقی سه پارامتری
مدل سه پارامتری علاوه بر پارامتر توانایی آزمودنی، که در کلیه مدل ها مشترک است، و علاوه بر دو پارامتر دشواری و قدرت تشخیص سوالات، که اولی در هر دو مدل یک و دو پارامتری و دومی دو پارامتری ملاحظه می شود، پارامتر سومی را برای هر سوال آزمون در نظر می گیرد و به برآوردن آن می پردازد. این پارامتر حدس یا شانس کاذب نامیده می شود و با نماد Cg معرفی می شود. منظور از پارامتر حدس، احتمال دادن پاسخ صحیح به سئوال i برای آزمودنی هایی است که در دامنه بسیار پایین صفت مکنون قرار دارند و بر روی محور افقی یا کمترین مقدار را دارا هستند. عامل حدس در سوالات صحیح – غلط یا چند گزینه ای و مشابه آنها که آزمودنی به انتخاب می پردازد صادق است. نکته قابل توجه در مورد پارامتر Cg این است که میزان این پارامتر برای همه سوالات و آزمودنی ها عملاً یکسان نیست و هر سوال Cg خاص خود را دارد زیرا چنان که لرد خاطر نشان کرده است میزان آن متأثر از مهارت و توانایی طراح سوال در ایجاد گزینه های انحرافی جذاب است. بنابراین مقادیر Cg برای سوالات چند گزینه ای تنها در صورتی خواهد بود که آزمودنی بدون هیچ اطلاعی از موضوع مورد سنجش سئوال اقدام به حدس صرف و کاذب نماید (همبلتون، ۱۹۹۱).
معادله برآورد احتمال پاسخ درست برای مدل سه پارامتری چنین است: