بهبود هوشمندانه انتخاب سوال بر پایه سطح دانش آزمون دهنده در آزمون انطباقی کامپیوتری- قسمت ۴

ارسال شده در 21 مهر 1400 توسط فاطمه کرمانی در بدون موضوع

در نظریه سوال پاسخ، برآورد سطح صفت اشخاص، مستلزم یک فرایند جستجو برای برآوردهای بهینه رفتار مدل است. نظریه سوال پاسخ به عنوان یک روش مدلسازی نیرومند شناخته می شود زیرا بر مبنای پیشفرضهای قوی استوار است. هدف نهایی مدل سوال پاسخ، مواجه کردن شخص با یک سوال معین است. الگوی پاسخ شخص به مجموعه خاصی از سوالها، مبنایی برای برآورد سطح صفت وی فراهم می سازد. اکنون نظریه سوال پاسخ شامل خانواده بزرگی از مدل هاست. سادهترین آنها مدل راش است که به مدل لوجستیک یک پارامتری (۱PL)^[8] نیز مشهور است.

آزمون انطباقی کامپیوتری، به طور روز افزونی به عنوان آزمون استاندارد شده، اهمیت پیدا کرده است. نسخههای مختلف عملیاتی CAT شاهد بسیاری از آزمونهای استاندارد مانند TOFEL، GMAT و GRE بوده است. بر خلاف آزمونهای سنتی کاغذی و کامپیوتری، CAT آزمونی را فراهم کرده است که با آزمون دهنده در تعامل است. برای هر داوطلب، CAT به صورت متوالی سطح مهارت آزمون دهنده را بعد از هر سوالی، تخمین میزند. سپس، این تخمین برای انتخاب سوال بعدی از بین سوالات باقی مانده در مجموعه عظیم سوالات، بر مبنای تعدادی از قواعد انتخاب، مورد استفاده قرار میگیرد. تخمین سطح مهارت معمولاً با بهره گرفتن از روش برآورد بیشینه درستنمایی^[۹] و یا تخمین بیض محاسبه می شود. در روشهای پارامتری، کیفیت تخمین صورت پذیرفته به شدت به مفروضات نسبتاً محدود کننده بستگی دارد. بسیاری از تحقیقات پیشین در مورد CAT بر اساس کلاسی از مدلهای آماری شناخته شده به عنوان نظریه سوال پاسخ استوار بود [۱۳, ۱۲, ۱۱]. مدلهای IRT به طور گستردهای در زمینه های مختلف از جمله آموزش و پرورش، روانپزشکی و دارو برای آنالیز پاسخهای گسسته چندگانه برای مجموعه ای از سوالهای رتبه بندی شده، استفاده شده است.
رابطه بین ویژگی سوالها و توانایی آزموندهنده، بسیار پیچیده و غیر خطی است. اگرچه تعدادی از مقالات پژوهشی به تازگی در مورد IRT مدرن که توانایی فهم همزمان چندین مهارت و موارد رتبه بندی شده را دارا و بسیار پیچیده هستند و بر مبنای چندین فرضیه محدودکننده برای ساختن یک مدل محاسباتی هستند [۱۴]. در [۵]، Vomel شبکه های بیز،که یک مدل احتمالاتی گرافیکی است، را برای طراحی آزمونهای انطباقی اعمال کرده است. شبکه های بیز یک تعمیم برای نظریه سوال پاسخهای چندبعدی فراهم می کند. به هر حال، شبکه های بیز هنوز هم جزء روشهای پارامتریک به شمار می آید و در برنامههایی با دامنه وسیع، مشکلساز است.
روش دیگر شبکه های عصبی هستند که با پیش زمینه تئوریکی قوی و قابلیت یادگیری و تعمیم و انعطاف پذیری بیشتر دقت تخمین بالاتری را ارائه میدهد [۱۶, ۱۵]. شبکه های عصبی با موفقیت در سایر حوزه ها برای حل مشکلات پیچیده مورد استفاده قرار گرفتهاند که از جمله میتوان به تشخیص پزشکی، پیش بینی بازار سهام، به رسمیت شناختن الگو و داده کاوی، اشاره کرد.
فصل سوم : بحثهای مرتبط

نظریه سوال پاسخ
مقدمه
در سالهای اخیر، پایه های اساسی روانسنجی آزمونها تغییر شگفتانگیزی یافته است. با وجود اینکه نظریه کلاسیک آزمون چندین دهه به توسعه آزمونها کمکهای فراوان نمود، نظریه سوال پاسخ به سرعت به خط فکری پایه های نظری اندازه گیری درآمده است. اکنون نظریه سوال پاسخ زیربنای چند آزمون عمده را تشکیل میدهد. به ویژه «آزمون انطباقی کامپیوتری»، بر نظریه سوال پاسخ استوار است. در «آزمون انطباقی کامپیوتری» آزموندهندگان به سوال هایی پاسخ می دهند که به نحو مطلوب برای اندازه گیری قابلیتها و تواناییهای آنان انتخاب شده است. آزمون دهندگان مختلف به سوالهای یکسان پاسخ نمیدهند. اصول نظریه سوال پاسخ، در حالی که امکان انتخاب مناسبترین سوالها برای هر آزموندهنده را فراهم می کند، همترازسازی زیر مجموعههای سوالها را نیز امکان پذیر می سازد. برای مثال، در مجموعه آزمون استعداد شغلی در خدمات نظامی، آزمایش ورودی دوره تحصیلات تکمیلی(GRE) برای برآورد توانایی آزمون دهندهها از نظریه سوال پاسخ استفاده می شود [۱۴, ۱۳].
نظریه کلاسیک آزمون (CTT) در بخش عمده سالهای قرن بیستم پایگاه اصلی پرورش آزمونهای روانی بوده است. کتاب کلاسیک گالیکسن (۱۹۵۰) که هنوز هم تجدید چاپ می شود، اغلب به عنوان منبع اصلی و معروفی به شمار می رود. اما نظریه کلاسیک بسیار قدیمیتر از نظریه سوال پاسخ است. بسیاری از رویههای روانسنجی توسط پیشگامانی چون اسپیرمن (۱۹۰۷، ۱۹۱۳) به کار بسته شده است. نظریه کلاسیک روانسنجی به عنوان معیار آزمونسازی شناخته شده است که آغازگر انفجار اولیه آزمونسازی در سالهای دهه ۱۹۳۰ به شمار میرود [۱۴, ۱۳].
لرد و ناویک (۱۹۶۸) در کتاب کلاسیک خود اندازه گیری مبتنی بر مدل را معرفی کردند. نظریه سوال پاسخ به سرعت به صورت زیربنا و خط سیر اصلی اندازه گیریهای روانشناختی درآمد. نظریه سوال پاسخ که به عنوان نظریه صفت مکنون نیز معروف است، اندازه گیری بر پایه مدل است که بر اساس آن برآورد سطح صفت هم به پاسخهای شخص و هم به ویژگیهای سوالهای اجرا شده بستگی دارد. بسیاری از آزمونهای جدید بر اساس اصول نظریه سوال پاسخ تجدید نظر شده و دوباره تدوین گشتهاند اما چون اغلب کاربران این آزمونها با این نظریه آشنا نیستند، در راهنمای آزمونها به صورت جزئی و گذرا به کاربرد این نظریه اشاره شده است. به همین دلیل، بیشتر مصرف کنندگان این آزمونها از اینکه پایه های روانسنجی آزمونها تغییر یافته است بی خبر ماندهاند. در سالهای اخیر کاربرد نظریه سوال پاسخ در موضوعهای پر اهمیت روانشناسی آشکار شده است. اکنون تفسیر نمرهها را میتوان از راه ویژگیهای اندازه گیری یکپارچه نظریه سوال پاسخ به مهارت های زیربنایی یا زمینه ساز ارتباط داد.
دانش بیشتر روانشناسان از قواعد اندازه گیری بر روانسنجی کلاسیک استوار است. (لرد و ناویک ۱۹۶۸) برای برقراری پیوستگی بین نظریه جدید و قدیم روانسنجی، بسیاری از اصول نظریه کلاسیک را از نظریه سوال پاسخ استخراج کردند. وجود این اشتقاقها^[۱۰] به ظاهر نشان میدهد که هرچند قواعد اندازه گیری در یک ساختار بدیهی و خردمندانه ریشه دارند، ولی بدون تغییر ماندهاند. اما در نظریه سوال پاسخ، بعضی قواعد شناخته شده اندازه گیری کاربرد خود را از دست داده است. به واقع قواعد جدید اندازه گیری در اساس با قواعد قدیمی تفاوت دارند. بسیاری از قواعد قدیمی باید مورد تجدید نظر قرار گیرند، تعمیم داده شوند و یا به کلی کنار گذاشته شوند. قواعد اندازه گیری اصولی هستند که بوسیله آنها آزمونها و مقیاسهای سنجشِ تفاوتهای فردی تدوین میشوند. در ادامه قواعد جدید و قدیم را به طور مختصر بیان خواهیم کرد [۱۳].
قاعده۱- خطای معیار اندازه گیری
قاعده قدیم ۱: خطای معیار اندازه گیری درمورد تمامی نمره های یک جامعه خاص صدق می کند.
قاعده جدید ۱: خطای معیار اندازه گیری در سرتاسر نمرهها(یا الگوهای پاسخ) تغییر می کند. اما در طول جامعه تعمیمپذیر است.
قاعده ۲- طول تست و اعتبار
قاعده قدیم ۲: آزمونهای بلند از آزمونهای کوتاه معتبرتر هستند.
قاعده جدید ۲: آزمونهای بلند ممکن است از آزمونهای کوتاه معتبرتر باشند.
قاعده ۳- تبدیلپذیر بودن^[۱۱] فرمهای آزمون
قاعده قدیم ۳: مقایسه نمره های آزمونها در فرمهای چندگانه (منظور فرمهایی که میانگین ، واریانس و ضرایب اعتباری نابرابر دارند)، زمانی بهینه است که آزمونها موازی یا همتا باشند.
قاعده جدید ۳: مقایسه نمره های آزمونها در فرمهای چندگانه هنگامی بهینه است که سطوح دشواری آزمون برای آزمودنیها متفاوت باشد.
قاعده ۴- سنجش بدون سوگیری ویژگیهای سوال
قاعده قدیم ۴: برآورد بدون تورش یا بدون سوگیری ویژگیهای سوال به معرف بودن نمونهها بستگی دارد. یعنی نمی توان شاخص آماری دشواری سوال دو نمونه مختلف را به یک روش محاسبه نمود.
قاعده جدید ۴: برآورد بودن تورش یا بدون سوگیری ویژگیهای سوال را میتوان در مورد نمونههای نامتعارف نیز به دست آورد. شاخص آماری دشواری سوال همه نمونهها را میتوان با یک روش یکسان محاسبه کرد.
قاعده ۵- تعیین نمره های مقیاسی با معنا
قاعده قدیم ۵: نمره های آزمون زمانی معنا پیدا می کنند که موقعیت آنها با گروه نرم یا هنجار مقایسه شود.
قاعده جدید ۵: نمره های آزمون وقتی معنا پیدا می کنند که فاصله آنها از سوال مقایسه شود.
قاعده ۶- محقق ساختن ویژگیهای مقیاس
قاعده قدیم ۶: وقتی که توزیع نمره های آزمون بهنجار باشد، ویژگیهای مقیاس فاصلهای تحقق مییابد.
قاعده جدید ۶: ویژگیهای مقیاس فاصلهای زمانی تحقق مییابد که روشهای اندازه گیری توجیهپذیر بکار بسته شود.
قاعده ۷- ترکیب چارچوبهای سوال
قاعده قدیم ۷: چارچوب مرکب سوالها در مجموع نمره های آزمون تأثیر ناهمسان برجای میگذارد.
قاعده جدید ۷: چارچوب مرکب سوالها ممکن است به نمره های بهینه آزمون بینجامد.
قاعده ۸- معنای نمره های تغییر
قاعده قدیم ۸: اگر سطوح نمره های اولیه متفاوت باشند، نمره های تغییر را نمی توان به طور معنیدار مقایسه کرد.
قاعده جدید ۸: اگر سطوح نمره های اولیه متفاوت باشند، نمره های تغییر را میتوان بهگونه معنیدار مقایسه کرد.
قاعده ۹- تحلیل عاملی مدلهای دو ارزشی
قاعده قدیم ۹: تحلیل عاملی در مورد سوالهای دو ارزشی، به جای عامل واقعی به تولید عاملهای ساختگی منجر می شود.
قاعده جدید ۹: تحلیل عاملی در مورد داده های خام سوالها، به اطلاعات کاملی در مورد تحلیل عاملی منجر می شود.
قاعده ۱۰- اهمیت ویژگیهای محرک سوال
قاعده قدیم ۱۰: ویژگیهای محرک سوالها در مقایسه با خصایص روانسنجی آنها بیاهمیتاند.
قاعده جدید ۱۰: ویژگی محرک سوالها می تواند به طور مستقیم به خصایص روانسنجی آنها ارتباط پیدا کند.
قواعد اندازه گیری که در بالا ذکر شدند نشان میدهد که نظریه سوال پاسخ شامل مجموعه اصولی است که با روانسنجی کلاسیک تفاوت دارد. اگرچه اصول روانسنجی کلاسیک را میتوان به عنوان حالتهای خاصی از نظریه سوال پاسخ استخراج کرد، ولی عکس این عمل صادق نیست. نظریه سوال پاسخ مبنای کلی تری برای روشهای روانسنجی به شمار میرود. بسیاری از اصول موجود در روانسنجی کلاسیک، غیر لازم و یا حتی نامناسب است.
مدلهای نظریه سوال پاسخ
در نظریهسوال پاسخ ، سطح توانائی شخص از روی پاسخهای وی به سوالهای آزمون برآورد می شود. مدل سوال پاسخ مشخص می کند که سطح توانائی اشخاص و ویژگیهای سوال چگونه به یکدیگر مربوط میشوند. سطح توانائی در بافت یا زمینه مدل برآورد می شود، و لذا نظریه سوال پاسخ اندازه گیری بر پایه مدل است [۱۳].
در نظریه سوال پاسخ، برآورد سطح صفت اشخاص، مستلزم یک فرایند جستجو برای برآوردهای بهینه رفتار مدل است. نظریه سوال پاسخ به عنوان یک روش مدلسازی نیرومند شناخته می شود زیرا بر مبنای پیشفرضهای قوی استوار است. هدف نهایی مدل سوال پاسخ، مواجه کردن شخص با یک سوال معین است. الگوی پاسخ شخص به مجموعه خاصی از سوالها، مبنایی برای برآورد سطح صفت وی فراهم می سازد.
اکنون نظریه سوال پاسخ شامل خانواده بزرگی از مدل هاست. سادهترین آنها مدل راش است که به مدل لوجستیک یک پارامتری (۱PL)^[12] نیز مشهور است. در مدل ساده راش، متغیر وابسته پاسخ دو ارزشی (یعنی موفقیت/شکست یا موافق/مخالف) شخص معین به یک سوال مشخص است. متغیرهای مستقل نمره های شخص در آزمون یعنی θ_s (تتاها) و سطح دشواری سوال یا β (بتا) است. متغیرهای مستقل با روش جمعپذیر ترکیب میشوند و سطح دشواری سوال از توانایی شخص (θ) منها می شود. این مدل دارای چند ویژگی مطلوب است، نخست، برآورد سطح صفت را میتوان در مورد هر سوالی که سطح دشواری آن معلوم است به کار بست. دوم، ویژگیهای سوال و سطوح صفت هر دو با رفتار پیوند یافتهاند. بنابراین، سوال پاسخ یک مدل کامل رفتار را فراهم میسازد زیرا هم برای اشخاص و هم برای سوالها پارامترهای جداگانه ای دارد. سوم، سطح صفت و ویژگیهای سوال، متغیرهای مستقل هستند که میتوان آنها را جداگانه برآورد کرد [۱۷].
مدلهای دو ارزشی نظریه سوال پاسخ
در داده های دو ارزشی، به پاسخ درست هر سوال نمره ۱ و به پاسخ غلط نمره ۰ داده می شود. دو ویژگی این نوع داده ها را باید در نظر داشت. نخست، هرچند سوالهای آزمون، پیشرفت یا توانائی نمونههای نخستین داده های دو ارزشی به شمار میروند(یعنی پاسخ درست در برابر پاسخ اشتباه)، داده های دو ارزشی برای بسیاری از انواع دیگر آزمونها نیز مناسب است. دوم اینکه، در برخی موارد، پاسخهای چند ارزشی یا چند طبقهای را میتوان به چارچوب دو ارزشی کاهش داد.
مدلهای سوال پاسخ تک بعدی برای داده های دو ارزشی
در مدلهای سوال پاسخ تک بعدی، فرض می شود که یک صفت مکنون واحد برای مشخص کردن تفاوت های اشخاص کفایت می کند. مدلهای سوال پاسخ تک بعدی برای دادههایی که زیر بنای پاسخ به سوالها فقط شامل یک عامل مشترک باشد مناسب است. مدلهای سوال پاسخ تک بعدی برای دادههایی که در آنها (الف) دو یا چند صفت مکنون، اثرهای متفاوتی بر سوالها دارند و (ب) از نظر راهبردها، ساختارهای دانش، و شیوه های تفسیر سوالها بین افراد تفاوت های اساسی وجود دارد، مناسب نیستند. در این گونه موارد مدلهای سوال پاسخ چند بعدی مناسبترند. در جدول ‏۳‑۱ نمادهای متداول در مدلهای نظریه سوال پاسخ که در این فصل استفاده می شود، را مشاهده میکنید.
جدول ‏۳‑۱: نمادهای متداول در مدلهای نظریه سوال پاسخ.

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

آخرین نظرات

کلیه مطالب این سایت فاقد اعتبار و از رده خارج است. تعطیل کامل

جستجو

آخرین مطالب

موضوعات

فیدهای XML