نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری سنجش آموزش، دانشگاه تهران، تهران، ایران
2 استادیار گروه روش ها و برنامه های آموزشی و درسی، دانشگاه تهران، تهران، ایران
3 دانشگاه علاه طباطبائی تهران، گروه سنجش و اندازه گیری
4 استادیار گروه آموزشی برنامه ریزی درسی، دانشگاه خوارزمی، تهران، ایران
چکیده
کلیدواژهها
عنوان مقاله [English]
مقدمه و بیان مسئله
استفاده از آزمونها بهعنوان وسیله تصمیمگیریهای آموزشی، تاریخچهای طولانی داشته و مدت زمان زیادی است که آزمونها وسیلهای برای انتخاب افراد شده است. سنجش بهعنوان فعالیت مهم آموزشی نقش بسیار مهمی در عملکرد یادگیرندگان و آموزگاران دارد (Diamond, Persson, 2016). دادههای حاصل از آزمونهای سرنوشتساز معمولاً برای اطلاعرسانی سیاستها و اجرای برنامههای درسی و تصمیمگیریهای آموزشی به کار برده میشود. فرض ضمنی استفاده از دادههای آزمون این است که اندازهگیریها در میان استانها و مناطق آموزشی مقایسهپذیر باشند. این فرض به معنای مقایسهپذیری نمرات سؤالها و سازههای اندازهگیری شده در سنجشهاست. مرکز اصلی تلاشها و ایجاد تفاسیر دارای روایی بر مبنای نتایج سنجش، نمرات مقایسهپذیر است (Oliveri, von Davier, 2014).
در تحلیل مقایسهپذیری نمرات یک آزمون، دو جنبه مهم وجود دارد که شامل بررسی کارکرد افتراقی سؤال و شناسایی منابع آن است. یکی از چالشهای DIF برای بررسی مقایسهپذیری سؤالها آزمون، شناسایی علل بالقوه DIF است. در تحلیل مجموعه دادههای پیچیده که شامل افراد از ملتها، ایالتها، اقوام و فرهنگهای مختلف هستند، تمرکز مطالعات در پیشینه تحقیق فراتر از شناساییDIF است و به سمت توضیح منابع DIF حرکت کرده است (Albano, Rodriguez, 2013). شناسایی علل DIF با بازبینی محتوای سؤالهای دارای DIF، بنیش عمیقتری نسبت به متغیرهای مرتبط با DIF فراهم مینماید و بهاینترتیب اطلاعاتی به کارشناسان در خصوص جنبههای بالقوهای از سؤالها که باید در بررسیهای مهم مورداستفاده قرار گیرد، ارائه میدهد.
هنگامیکه DIF شناسایی شد، تحلیل اضافی برای بررسی منابع آن انجام میشود. منابع DIF موردبررسی قرار میگیرد تا عوامل سازه مزاحم[1] که بهطور غیرمنتظره با سازه مورداندازهگیری آزمون همراه میشود را شناسایی نموده و تصمیمگیریهای مربوط به حفظ یا حذف این سؤالها را اعلام نماید. تحلیل برای بررسی منابع بالقوه DIF شامل بررسی سؤالها توسط کارشناسان برای محتوا، پیچیدگی شناختی، بار فرهنگی، تفاوتهای زبانی در نسخههای چندگانه زبانی آزمون و همچنین مصاحبههای شناختی است (Oliveri, Ercikan, Zumbo, 2013). اگرچه روشهای شناسایی DIF برای بهبود کیفیت آزمون مفید است، اما پیشرفت اندکی در زمینه شناسایی علل و ماهیت موضوعاتی که منجر به وجود DIF در سؤالها میشود، وجود دارد. یعنی هنگامیکه سؤالها در یک آزمون از نظر آماری دارای عملکرد افتراقی از یک گروه آزمودنی به گروه دیگر باشند، شناسایی دلایل عملکرد افتراقی سؤالها، دشوار است. تحلیل برای بررسی منابع بالقوه DIF شامل بررسی سؤالها توسط کارشناسان برای محتوا، پیچیدگی شناختی، بار فرهنگی، تفاوتهای زبان در نسخههای چندگانه زبانی آزمون و همچنین مصاحبههای شناختی است. این تلاشها برای شناسایی وجود سوگیری است، یعنی اینکه پاسخهای آزمودنیها نهتنها توانایی در سازه موردنظر را نشان میدهد، بلکه به واریانسی خارج از سازه مورداندازهگیری (مثلاً واریانس سازه مزاحم) نیز اشاره دارد که روایی استنباطهای مربوط به تفاوتهای عملکرد گروهی را کاهش میدهد. تحلیل منابع DIF به محققان اجازه میدهد تا فرضیههای در ارتباط با منابع اصلی و بالقوه اریبی و واریانس سازه مزاحم را فرمولبندی کنند (Roth, Oliveri, Sandilands, Lyons-Thomas, Ercikan, 2013).
هنگامیکه دادههای سنجش در مقیاس بزرگ برای تصمیمگیریهای سیاسی و آموزشی استفاده میشود، مهم است که توجه داشته باشید همه آزمودنیها در هر کشور بهطور همگن به سؤالها پاسخ ندادهاند. فرض همگونی درونگروهی باید بهصورت تجربی بهعنوان اولین گام در تحلیل مقایسهپذیری بین گروهها (بر مبنای کشورها، جنسیت یا زبان) مورد ارزیابی قرار گیرد. زیرا هنگامیکه دادهها ناهمگون هستند، ممکن است یافتهها فقط برای یک زیرگروه از آزمودنیها نه تمام آنها بهکار برده شود. این یافتهها مفاهیمی برای سیاستگذاری در آموزش دارد زیرا سیاستها اغلب برای کل یک گروه اعمال میشود (تفاوتهای پیشرفت تحصیلی در دختران و پسران). اگر گروههای آزمودنیها بهطور مشابه به سؤالها پاسخ ندهند، استنباطها بر مبنای آزمون، ممکن است برای تمام آزمودنیها در یک گروه قابل تعمیم نباشد. این امر منجر به نتیجهگیریهایی میشود که قابلیت تعمیمپذیری محدودی دارند و نتایجی که برای کاربرد در اصلاح آموزش برای زیرگروههایی متفاوت از شرکتکنندگان در سنجش، محدود است (Ercikan, 2008).
دغدغه شناسایی منابع DIF به تحقیق انگوف برمیگردد، او نوشت: سازندگان آزمونها اغلب با نتایج DIF مواجه میشوند که نمیتوانند آن را درک کنند و به نظر میرسد هیچ بررسی نمیتواند به توضیح اینکه چرا برخی سؤالها کاملاً معقول دارای DIF هستند، کمک کند (Angoff,1993). بهعلاوه عدم شناسایی منابع DIF در استانداردها (انجمن تحقیقات آموزشی آمریکا [AERA]، انجمن روانشناسی آمریکا [APA] و شورای ملی اندازهگیری در آموزشوپرورش [NCME]،1995) نیز برجسته شده است. تحقیقات قبلی در مورد DIF و منابع آن نشان دادند که نسخههای چندزبانه یک سنجش را نمیتوان مقایسهپذیر فرض نمود زیرا دارای نسبت بزرگی از DIF هستند. بهعلاوه در نسبت زیادی از سؤالها دارای DIF، منابع DIF را نمیتوان شناسایی نمود. برای مثال نسخههای انگلیسی و فرانسوی آزمون پیشرفت تحصیلی ملی کانادا را با استفاده از SIBTEST و رویکرد لین-هارنیش[2] (LH) بررسی شد و نشان داد که بیش از 36 درصد سؤالها برای آزمودنیهای انگلیسی و فرانسوی زبان دارای کارکرد افتراقی است و منابع DIF برای 30 تا 40 درصد از سؤالها مشخص شده یافته شد (Ercikan, Gierl, McCreith, Puhan, Koh,2004). فرآیندهای شناختی درگیر در هنگام آزمون و نوع خاص تفکر، بهوسیله زبان و فرهنگ تحت تأثیر قرار میگیرد، زمینههای فرهنگی میتواند اندازهگیری دانش را در آزمونهای استاندارد مختل کند، گروههای متمایز از لحاظ فرهنگی، الگوهای خاص تفکر و یادگیری دارند که ممکن است منابعی برای DIF باشند (Li,Cohen,Ibarra,2004, Pellegrino, Chudowsky, Glaser, 2001).
مرور تحقیقات نشان میدهد که تاکنون در ایران در رابطه با منابع کارکرد افتراقی سؤال، پژوهشی انجام نشده است. بهدلیل اهمیت مقایسه گروهی نمرات در سنجشهای در مقیاس بزرگ و لزوم همارزی سؤالها برای مقایسه گروههای مختلف داوطلبان شرکتکننده در یک آزمون، شناسایی و تحلیل منابع DIF ضروری است. همچنین در ایران به دلیل وابستگی سیاستگذاران و تصمیمگیرندگان به آزمونهای گوناگون مانند آزمونهای ورودی آموزش عالی و آزمونهای استخدامی، عدمتوجه به منابع DIF میتواند منجر به استنباطهایی نادرست در مقایسه نمرات آزمونها شود. لذا تهیه مقالهای که بهطور نظامند روند مقالات انجام گرفته در این زمینه را بررسی نماید، به شناسایی منابع DIF برای ساخت و آزمون فرضیهها، در تحقیقات آینده کمک مینماید و همچنین با معرفی منابع بالقوه DIF به سازندگان آزمون، اطلاعاتی در مورد جنبههای از سؤالها ارائه میدهد که باید در بررسیهای مهم مورد استفاده قرار گیرد، بنابراین به ساخت سؤالهایی باانصاف بیشتر کمک خواهد کرد. اهداف ویژه مطالعه مروری حاضر عبارت است از: 1- بررسی منابع DIF شناساییشده در آزمونهای آموزشی، 2- تبیین روشهای مورداستفاده برای شناسایی منابع DIF، 3- معرفی راهبردهای بررسی تأثیر منابعی که برای DIF شناساییشده است.
روششناسی پژوهش
این پژوهش یک مرور نظاممند است که با رجوع به سایتهای بینالمللی انجام شد. به این منظور ابتدا Google Scholar برای جستجوی کلی کلید واژههای sources of differential item functioning و causes of differential item functioning مورداستفاده قرار گرفت. ملاک ابتدایی برای ورود به مطالعه ارتباط مقاله با شناسایی منابع DIF بود. از دیگر ملاکهای ورود میتوان به چاپ مقاله در پایگاههای معتبر از جمله Taylor& Francis، WILEY، Springer، SAGE اشاره نمود. جستجو، شامل مقالاتی در مجلات مربوط به سلامت، پزشکی، کیفیت زندگی و روانپزشکی بود که این موارد از بررسی در مطالعه خارج شدند.
از تعداد 11 مقاله در پایگاه Taylor& Francis و 8 مقاله در پایگاه Springer، 9 مقاله در پایگاه SAGE و 14 مقاله در پایگاه WILEY بر اساس ملاکهای ورود تعداد 19 مقاله مرتبط با موضوع شناسایی شد و مورد بررسی قرار گرفت. در استفاده از هر مقاله سعی شد نمرات مورد مقایسه در DIF، منابع شناساییشده برای DIF، چگونگی شناسایی منبع DIF، راهبرد مورد استفاده برای تأثیر منبع DIF شناساییشده استخراج شود و سپس اطلاعات با دقت دستهبندی و تحلیل شود. جزئیات مقالات بررسی شده در جدول1 نشان داده شده است.
جدول (1): جزئیات مقالات مربوط به منابع DIF
نتیجه |
نمرات مورد مقایسه |
راهبرد مورداستفاده برای بررسی تأثیر منابع DIF |
چگونگی شناسایی منبع DIF |
منابع DIF |
مقالات |
شماره |
نتایج این مطالعه منابع DIF یافته شده است. |
نمرات بخش کلامی آزمون روانسنجی ورودی دانشگاه در اسرائیل بین نسخه اصلی به زبان عبری و نسخه ترجمه شده به زبان روسی |
|
استفاده از نظر 5 مترجم و 3 کارشناس زبان عبری |
تغییرات در دشواری کلمات یا عبارات، تغییرات در محتوا، تغییر قالب، تفاوتهای مربوط به فرهنگ |
Allalouf, Hambleton Sireci (1999) |
1 |
اثر کوچک اما معنادار و ثابت در میان سؤالها، از قالب سؤال و اثر بزرگ و باثبات کمتری در مورد نوع سؤال. اثرات متقابل شامل اثرات سؤال و عوامل معنیدار نبود. |
نمرات بخش ریاضی از یک اجرای منحصربهفرد از آزمون سنجش مدرسهای در گروه مردان وزنان |
طرح مطالعه DIF تصادفی و استفاده از SIBTEST برای آزمون اثرات علل DIF
|
تحقیقات گذشته |
قالب سؤال (چهارگزینهای در مقابل بازپاسخ) و نوع سؤال (انتزاعی در مقابل حقیقی) |
Bolt (2000) |
2 |
23 درصد سؤالهای DIF ریاضی و 13 درصد سؤالهای DIF علوم در تفاوت در برنامه درسی و 50 درصد سؤالها به دلیل دو منبع ذکر شده نبود. 27 درصد در ریاضی و 37درصد سؤالها در علوم دارای DIF به دلیل انطباق |
نمرات تیمز نسخه انگلیسی و فرانسوی در کشورهای کانادا، انگلیس، فرانسه و ایالات متحده در درس علوم و ریاضیات دانشآموزان 13 ساله |
1- مرور قضاوتی با مترجمان چندزبانه برای همه سؤالها، 2- روایی متقاطع DIF در گروههای چندگانه، 3- بررسی توزیع DIF سؤالها بهوسیله موضوع |
تحقیقات گذشته |
انطباق نسخههای چندزبانه آزمون تیمز، برنامه درسی |
Ercikan(2002) |
3 |
آزمودنیها در ابعاد مزاحم ثانویه در اندازههای پیشرفت تحصیلیشان متفاوتاند. |
نمره آزمون گمارش ریاضی (به دوره پیش محاسبات) برای دانشجویان سال اول بین زنان و مردان |
|
مدل ترکیبی IRT |
ابعاد ثانویه مزاحم، در گروه جبر، گروه هندسه و اندازهگیری و گروه بهکارگیری نمادین |
Cohen, Bolt (2005) |
4 |
کلاسهای اضافه پس از مدرسه با کاهش در مقدار و تعداد سؤالهای DIF مرتبط است |
نمرات ریاضی تیمز بین ایالات متحده و تایوان |
مدلسازی DIF ترتیبی (رگرسیون لوجستیک) |
تحقیقات گذشته، اسناد و اطلاعات موجود |
کلاسهای اضافه برای درس پس از مدرسه |
Amery, Ercikan (2006) |
5 |
بهجز ویژگیهای فرهنگی سایر عوامل بر DIF تأثیر میگذارند |
نمرات بخش کلامی مخزن سؤالها استعداد عمومی در دانشآموزان اسپانیایی و باسک
|
تشکیل گروه دومی از متخصصان مستقل از گروه اول و بررسی هماهنگی بین نظرات دو گروه |
گروهی از متخصصان
|
نقض در ترجمه، تفاوت دستوری بین زبانها، تفاوتهای معنایی و ویژگیهای فرهنگی |
Elosua, López-jaúregui,(2007) |
6 |
تأثیر منبع DIF معنادار نیست. |
نمرات آزمون شنیداری CAE کمبریج 2002 در سه گروه سنی کمتر از 17 سال، 18 تا 22 سال و بالای 23 سال |
تحلیل آماری و تحلیل محتوا |
بررسی تحقیقات گذشته و اینکه تا قبل از این مطالعه در موردبررسی سن بهعنوان منبع DIF تحقیقی انجام نگرفته است |
سن داوطلبان
|
Ardeshir, Antony (2007) |
7 |
آزمودنیها بهطور افتراقی به گزینه انحرافی "بدون اشتباه" کشیده شدند و هیچکدام از سؤالها MP از هر سه مرحله گذر نکردند. |
نمرات آزمون UE و MP در میان زنان و مردان و سفید و سیاهپوستان و اسپانیاییها و سفیدپوستان
|
استفاده از آزمون SIBTEST، برازش مدل لگاریتم خطی، محاسبه نسبت بختها
|
تحقیقات گذشته |
کارکرد افتراقی گزینههای انحرافی |
Banks (2009) |
8 |
برای سایر منابع بهجز قالببندی و ارائه بصری، وضوح و هدایت زبانی، شواهد، پروتکل تفکر با صدای بلند شواهد تأییدی فراهم نمود. |
نمرات علوم و ریاضی آزمون SAIP 2003 یک آزمون پیشرفت تحصیلی کانادایی بین دانشآموزان پایه 7 و 8 انگلیسی و فرانسویزبان |
پروتکل تفکر با صدای بلند |
مرور متخصصان |
کلمات کلیدی سؤال که ممکن است کمک یا مانع برای حل سؤال باشد، وضوح و مشخصه زبان، تفاوتهای زبانی غیرمنتظره (اشتباه خواندن یک کلمه توسط دانشآموزان فرانسویزبان) |
Ercikan, Arim, Law, Domene, Gagnon & Lacroix (2010) |
9 |
|
مقایسه نمرات آزمون شنیداری موسسه زبان انگلیسی میشگان در گروه مردان وزنان
|
تحلیل محتوای تعقیبی[3] سؤال |
تحقیقات گذشته |
محتوای سؤالها ازجمله، عبارات منفی، اصطلاحات، استعارهها و سؤالها با طولی که ممکن است در حافظه آزمودنیها با توانایی پایین باقی نماند. |
Aryadoust, Goh & Kim(2011) |
10 |
|
مقایسه نمرات آزمون تعیین سطح ریاضی در سطح دانشگاه در میان مردان وزنان |
استفاده از مدل دو پارامتری آشیانهای چندگروهی و سه مدل سلسله مراتبی آشیانهای با محدودیتهای متفاوت و مطالعه شبیهسازی برای سنجش عملکرد آماره نسبت درستنمایی برای شناسایی DDF تحت مدل دو پارامتری آشیانهای |
تحقیقات گذشته |
کارکرد افتراقی گزینههای انحرافی |
11 |
|
توافق در سه روش آماری برای سه متغیر یافته شد: میانگین مقادیر قابلقبول، مقایسه بین هنگکنگ و قطر و سن. معنیداری دیگر متغیرها، مقایسه دو کشور دیگر، جنسیت و آموزش مهارتهای رمزگشایی و گروههای کوچک، به روش مورداستفاده برای بررسی منابع DIF طبقه مکنون وابسته است. |
دادههای آزمون خواندن پیلز 2006 دانشآموزان در دو کشور چینی زبان (تایپه و هنگکنگ) و دو کشور عربی زبان (کویت و قطر) |
مدلسازی طبقه مکنون با استفاده از سه روش آماری: تابع تشخیص توصیفی، رگرسیون لوجستیک چندجملهای و تحلیل رگرسیون لوجستیک چندجمله ای چند سطحی
|
محقق به دنبال یافتن متغیرهایی است که ممکن از بیشتر از متغیرهای مانیفست با نمرات پیشرفت تحصیلی ارتباط داشته باشند |
عوامل مرتبط با دانشآموز (کشور، سن و جنس) و معلم (آموزش مهارتهای رمزگشایی، گروه ه بندی ها با توانایی مشابه، آموزش گروههای کوچک) |
(Oliveri, Ercikan, Zumbo(2013) |
12 |
نتیجه این مقاله منابع یافته شده برای DIF است. |
نسخه انگلیسی و فرانسوی 40 سؤال که در تحقیق قبلی20 تا از آنها دارای DIF و 20 تا فاقد DIF شناسایی شدند در درس علوم آزمون SAIP آزمون پیشرفت تحصیلی ملی در کانادا
|
|
تحلیل پروتکل تفکر با صدای بلند در مورد مرورگران حرفهای با استفاده از روشهای استاندارد تحلیل محتوا
|
تفاوت در طول نسبی دو نسخهی زبانی، تفاوت در مسائل زبانشناختی، تفاوت در ساختار منطقی محتوا یا قالب سؤالها، تفاوت در محتوای شناختی مفهومی، تفاوت در مسائل تنوع[4] |
Roth, Oliveri, Sandilands, Lyons-Thomas& Ercikan (2013) |
13 |
برخلاف بارهای شناختی سؤالها، اثر ترجمه و انطباق تأیید نمیشود |
نمرات آزمون خواندن پیرلز 2001 بین دانشآموزان انگلیسی و اسپانیاییزبان در دانشآموزان نه ساله در پایه چهارم |
استفاده از آزمون Poly-SIBTEST تحلیل کارکرد افتراقی دسته |
تحقیقات گذشته |
ترجمه و انطباق نسخههای چندزبانه آزمون و بار شناختی سؤال
|
Sandilands, Oliveri, Zumbo, Ercikan (2013) |
14 |
سؤالهای با DIF فراگیر حاوی عناصر مفهومی متفاوت است که دارای معانی مختلفی هستند، سؤالها با DIF غیرفراگیر، به دلیل تجارب مختلف مرتبط با زمینه یا فرهنگ، متفاوت هستند. مشکلات ناشی از انطباق در اصطلاحاتی است که در دو نسخه معادل نیست. |
مقایسه نمرات آزمون پیزا 2006 بین دانشآموزان 15 و 16 ساله از ایالات متحده و اسپانیا
|
ادغام نتایج بهدستآمده از تحلیل کمی DIF و مصاحبه شناختی
|
تفسیرهای شرکتکنندگان بهوسیلهی تمها و زیر تمها که از روایات آنها بهدستآمده، مقایسه میشوند.
|
تفسیر سؤالها بهطور افتراقی توسط شرکتکنندگان در گروههای مختلف |
Benítez, Padilla (2014) |
15 |
روش نقطه شروع بهطور متوالی آزاد خطای نوع اول و توان آزمون عالی فراهم مینماید و نتایج آن مشابه با روش نقطه شروع آزاد ایده آل است که از طرح لنگر فاقد DIF استفاده میکند و خیلی بهتر از روش نقطه شروع ثابت است که از همه سؤالها بهجای سؤالهای موردمطالعه بهعنوان لنگر استفاده میکند. |
گروههای جنسیتی مردان وزنان و گروههای قومیِ اقلیت و اکثریت. گروه مردان با قومیت اکثریت بهعنوان گروه مرجع در نظر گرفته میشود
|
مطالعه شبیهسازی بهمنظور بررسی اثربخشی سه روش پیادهسازی MIMIC، نقطه شروع ثابت، نقطه شروع آزاد و روش جدید نقطه شروع آزاد متوالی(MIMIC) برای شناسایی کارکرد افتراقی یکنواخت و غیریکنواخت سؤال برای چندگروه
|
تحقیقات کمی وجود دارد که به بررسی دقت MIMIC برای تشخیص DIF به دلیل ترکیب متغیرهای پیشزمینه و اثرات متقابل آنها پرداخته باشد. |
متغیرهای پیشزمینه مثل جنسیت و گروههای قومی و اثرات متقابل آنها
|
Chun, Stark, Kim, Chernyshenko (2016) |
16 |
DIF بر مبنای زبان مادری در چندین سؤال پیلز وجود دارد اما الگوی DIF در همه کشورها یکسان نیست. |
نمرات 13 سؤال از آزمون پیلز 2011 برای 11 کشور اروپایی با کنترل منابع آموزشی در دسترس آزمودنی |
استفاده از جزءبندی بازگشتی مبتنی برمدل (MBRP) برای بررسی DIF یکنواخت |
تحقیقات گذشته |
زبان مادری آزمودنی |
Finch, Finch ,French (2016) |
17 |
|
نمرات آزمون علوم پیزا 2006 در میان گروههای : 1- ایالات متحده و کانادا انگلیسیزبان، 2- سرزمین چین و چینیزبانهای هنک کنگ، 3- ایالات متحده و چین |
استفاده از یک شخص دو زبانه برای بررسی اثر ترجمه، استفاده از یک پانل با 10 نفر متخصص بررسی محتوا و 15دانشآموز برای بررسی اثر پوشش برنامه درسی |
تحقیقات گذشته |
ترجمه آزمون، پوشش برنامه درسی متفاوت، تفاوتهای فرهنگی |
Huang, Wilson & Wang (2016) |
18 |
بهطور متوسط تفاوت در میزان چیرگی بر یک ویژگی بین دریافت کنند و عدم دریافتکنندگان مساعدت در حدود 33 تا 44 درصد است |
نمرات سنجش ریاضی در NAEP 2007 برای دانشآموزان بدون مساعدت (گروه مرجع)، مساعدت با زمان اضافی، مساعدت با خواندن سؤالها با صدای بلند و مساعدت در گروههای کوچک |
تفاوت معنادار احتمال چیرگی در ویژگیها در گروههای مورد مقایسه با آزمون مانوا انجام شد. |
مدلهای شناختی تشخیصی ماتریس Q که شامل ویژگیهای زیر بنایی عملکرد در سؤالها است، استخراج ویژگیهای زیر بنایی از تحقیقات گذشته و ارزیابی توسط دومتخصص، محاسبه احتمال چیرگی در ویژگیها با استفاده از مدل RUM |
چیرگی در ویژگیها و مهارتهای زیربنایی برای عملکرد در سؤالها
|
Svetina, Dai & Wang (2017) |
19 |
یافتههای پژوهش
به دلیل اهمیت مقایسههای گروهی نمرات در سنجشهای در مقیاس بزرگ و لزوم همارزی سؤالها برای مقایسه گروههای مختلف شرکتکننده در یک آزمون، در طی سالها با استفاده از روشهای گوناگون به شناسایی منابع وجود DIF پرداخته شده است. 19 مقاله موردبررسی در این مطالعه در امتداد سالهای 1999 تا 2017 انجام گرفته است. در بیشتر مقالات (12مقاله) به بررسی DIF در نسخههای زبانی مختلف یک آزمون پرداخته شده، گروههای مورد مقایسه دیگر برای بررسی DIF، گروههای قومی، جنسیتی، گروههای سنی و گروههای دریافتکننده مساعدت آزمون و گروههای بدون دریافت مساعدت آزمون است و در یک مقاله از سؤالهایی که در پژوهش قبلی دارای DIF شناساییشدهاند استفاده شده است.
بهطورکلی منابع یافته شده برای DIF در 7 دسته قرار دارند. دستهبندی منابع و تعداد مقالاتی که این منابع را بهعنوان علت DIF موردبررسی قرار دادهاند، در جدول 2 ارائه شده است. به دلیل اینکه معمولاً مقالات چندین عامل را بهعنوان منبع DIF شناسایی نمودهاند، مجموع ستون تعداد مقالات از 19 بیشتر شده است.
جدول (2): دستهبندی منابع DIF در مقالات مرتبط با منابع و علل DIF
منبع DIF |
|
تعداد مقالات |
ویژگیهای سؤال |
|
9 |
عوامل مرتبط با دانشآموز(سن داوطلب، جنس، کشور، قومیت، زبان مادری، چیرگی در مهارتهای زیربنایی برای عملکرد در آزمون) |
|
5 |
مسائل مربوط به انطباق و ترجمه نسخههای چندزبانه |
|
4 |
ویژگیهای فرهنگی |
|
3 |
برنامه درسی |
|
2 |
عوامل مرتبط با آموزش معلم |
|
1 |
کلاسهای اضافه پس از مدرسه |
|
1 |
منابع DIF مربوط به ویژگیهای سؤال عبارت است از بارشناختی مفهومی سؤال، تفاوت در ساختار منطقی محتوا و قالب سؤالها (مثل سؤالهای چندگزینهای یا باز پاسخ)، نوع سؤال (انتزاعی یا حقیقی)، تفاوت در طول نسبی دو نسخه، تغییر در دشواری کلمات یا عبارات، کلمات کلیدی که کمک یا مانعی برای حل سؤال هستند، کارکرد افتراقی گزینههای انحرافی سؤال، محتوای سؤالها ازجمله، عبارات منفی، اصطلاحات، استعارهها و سؤالها با طولی که ممکن است در حافظه آزمودنیها با توانایی پایین باقی نماند، است. همچنین منابع DIF شناساییشده در مسائل مربوط به ترجمه و انطباق آزمون شامل نقص در ترجمه، تفاوت دستوری بین زبانها، تفاوتهای معنایی و مسائل زبانشناختی است.
در مورد روشهای شناسایی منابع DIF، تعداد 14 مقاله از طریق تحقیقات گذشته منبع DIF را شناسایی نمودهاند، که از آن جمله میتوان استفاده از نظر 5 مترجم و 3 کارشناس زبان (Allalouf, Hambleton, Sireci,1999)، از نظر گروهی از متخصصان (Elosua, López-jaúregui,2007, Ercikan and et al,2010) ،از تحلیل محتوای پروتکل تفکر با صدای بلند در مورد مرورگران حرفهای با استفاده از روشهای استاندارد تحلیل محتوا (Roth and et al,2013) و از تفسیر شرکتکنندگان در آزمون برای شناسایی منابع DIF (Benítez, Padilla,2014) استفاده شده است. همچنین از روش مدلهای ترکیبی[5] IRT برای شناسایی ابعاد ثانویه مزاحم استفاده شده است، چندبعدی بودن آزمون یکی از علتهای اصلی DIF است، یافتههای این تحقیق سه طبقه مکنون را نشان میدهد که در توانایی اندازهگیری در آزمون جبر و درک مطلب، متفاوت هستند (Cohen, Bolt, 2005).
پسازاینکه منابع DIF شناسایی شد، از راهبردهای آماری و یا غیر آماری برای بررسی تأثیر منابع شناساییشده، بر DIF استفاده شده است. در 10 مقاله از راهبردهای آماری، در 5 مقاله راهبردهای غیر آماری، در یک مقاله، هم از تحلیلهای آماری و هم از تحلیل محتوا استفاده شده است و طرح پژوهش یک مقاله هم طرح ترکیبی، شامل ترکیب روشهای کیفی و کمی است. در دو مقاله هم راهبردی برای بررسی تأثیر منابع DIF معرفی نشده و هدف آنها تنها ارائه منابع احتمالی برای DIF بوده است. در تمامی مقالاتی که از راهبردهای بررسی تأثیرگذاری DIF استفاده نمودهاند، بهجز گروههای سنی، ویژگیهای فرهنگی (Elosua and et al., 2007)، قالببندی و ارائه بصری، وضوح و هدایت زبانی (Ercikan and et al., 2010) در تأثیر منابع DIF به تأیید رسید.
راهبردهای آماری برای بررسی تأثیر منابع DIF
در این بخش راهبردهای به کارگرفته شده در مطالعات به ترتیب زمانی قرار داده شدهاند. برای بررسی تأثیر قالب سؤال (چهارگزینهای در مقابل بازپاسخ) و نوع سؤال (انتزاعی در مقابل حقیقی) در DIF از طرح مطالعه DIF تصادفی و استفاده از SIBTEST برای آزمون اثرات علل DIF استفاده شده است. نتایج، اثر کوچک اما معنادار و ثابت در میان سؤالها، از قالب سؤال و اثر بزرگ و باثبات کمتری در نوع سؤال را نشان داد و اثرات متقابل شامل اثرات سؤال و عوامل معنیدار نبود (Bolt, 200). یکی از راههایی بررسی ویژگیهای سؤال مضنون به DIF از طریق مطالعه DIF تصادفی است. در سادهترین شکل، چنین مطالعهای شامل اجرای دو نسخه از سؤالهای یکسان در دو نمونه تصادفی از آزمودنیهاست، در یک نسخه عوامل مضنون به DIF حاضر هستند (یعنی نسخة آزمایشی) و در نسخه دیگر عوامل مضنون وجود ندارند (یعنی نسخه کنترل) (Schmitt, Holland, Dorans,1993). سهم عامل موردمطالعه در DIF با مقایسه مقدار DIF مشاهده شده در دو نسخه ارزیابی میشود. مطالعه DIF تصادفی ممکن است بهترین کاربرد برای مطالعه عواملی باشد که ابعاد اصلی نیستند، یا اثرشان بعید است در بیش از یک سؤال در آزمون مشاهده شود، یا تأثیر نهایی آنها در عملکرد سؤال نسبتاً کوچک است. نکته مهم در مطالعات DIF تصادفی، بررسی ثبات اثر یک عامل تصادفی در میان سؤالها است.
یکی از راهبرد مورداستفاده برای بررسی تأثیر کلاسهای اضافه پس از مدرسه در نمرات ریاضی تیمز بین ایالات متحده و تایوان، استفاده از مدلسازی DIF ترتیبی (رگرسیون لوجستیک) است. نتایج این مطالعه نشان میدهد که کلاسهای اضافه پس از مدرسه با کاهش در مقدار و تعداد سؤالهای DIF مرتبط است. معمولاً در کشورهای آسیای شرقی آزمون ورودی متمرکز ملی برای ورود به دبیرستان یا دانشگاه وجود دارد، برای اطمینان از برد رقابتی در این آزمونهای ورودی، دانشآموزان برای تکمیل آموزش رسمی از آموزش خصوصی کمک میگیرند، به همین دلیل کلاسهای اضافه میتواند عاملی برای DIF بین کشورها باشد (Amery, Ercikan, 2006).
دیگر راهبرد مورداستفاده برای بررسی تأثیر گزینههای انحرافی بر DIF در بانکز (2009) به این صورت است که ابتدا آزمون SIBTEST انجام میشود تا تعیین نماید آیا هر گروه مقایسه شده در احتمال پاسخ صحیح به سؤالهای آزمون متفاوت است. دوما روش برازش مدل لگاریتم خطی مورداستفاده قرار گرفت تا تعیین کند آیا سؤالهایی که DIF متوسط یا زیاد دارند ارتباط معناداری با نمره کل، عضویت گروهی و گزینههای انحرافی نشان میدهند. سوم نسبتبختها محاسبه میشود برای تعیین اینکه آیا گروهی که سؤالهای DIF بر علیه آن است دارای شانس بیشتری برای انتخاب گزینه پیچیده انحرافی نسبت به سایر گزینههای انحرافی در مقایسه با دیگر گروهها با توانایی مشابه، است. سؤالهایی که از هر سه مرحله عبور کنند، بهعنوان سؤالهایی که نتایج DIF آن مربوط به (کارکرد افتراقی گزینه انحرافی) DDF است شناسایی میشوند. نتایج نشان میدهد چهار سؤال دارای DIF متوسط بر علیه زنان در آزمون UE بود و یک سؤال DIF متوسط برعلیه سفیدپوستان داشت و این آزمودنیها بهطور افتراقی به سمت گزینه انحرافی "بدون اشتباه" کشیده شدند. هیچکدام از سؤالهای آزمون MP از هر سه مرحله گذر نکردند (Banks, 2009).
یک روش رایج وابسته به مدل برای تشخیص DIF در IRT، آزمون نسبت درستنمایی است که توابع درستنمایی برای ارزیابی تفاوت پارامترها در گروهها، مقایسه میشوند (Thissen, Steinberg,Gerrard,1986; Thissen, Steinberg, Wainer,1988,1993). برای مطالعه گزینههای انحرافی بهعنوان عاملی برای DIF در سؤالهای چندگزینهای تحت مدل دو پارامتری آشیانهای چندگروهی، سه مدلِ سلسله مراتبی آشیانهای با محدودیتهای متفاوت در مطالعه دیگر نظر گرفته شد: 1- یک مدل فشرده که در آن پارامترهای سؤال برای یک سؤال در تمامی گروهها برابر در نظر گرفته شده، 2- یک مدل افزوده شده که در آن تنها پارامترهای گزینه انحرافی سؤال محدود شدند که در تمام گروهها مساوی باشند، 3- مدل افزوده دوم که در آن هیچکدام از پارامترهای سؤال (پارامترهای گزینه انحرافی و گزینه درست) محدود نشدند که مساوی باشند. با محاسبه آماره برای مقایسه مدل فشرده و افزوده اول (آزمون1) میتوان آزمود که آیا DIF وجود دارد. با محاسبه برای مقایسه مدلهای افزوده اول و دوم (آزمون 2) میتواند ارزیابی کرد که آیا DIF مشاهده شده از رد آزمون1 بهدلیل حضور DDF اتفاق افتاده است. این پژوهش، مطالعهای شبیهسازی بهمنظور سنجش عملکرد آماره نسبت درستنمایی برای شناسایی DDF تحت مدل دو پارامتری آشیانهای است (Suh, Bolt, 2011).
راهبردی برای اثر انطباق نسخههای زبانی و بارهای شناختی سؤال بر DIF، تحلیل کارکرد افتراقی دسته (DBF) با استفاده از SIBTEST است. سؤالهایی که تصور میشود منابع بالقوه DIF هستند توسط متخصصان شناسایی میشوند. سپس این سؤالها بهصورت دسته در میآیند و تحلیل DBF در مورد آنها انجام میشود. در مطالعهای که از این راهبرد استفاده نمود DBF معناداری یافته نشد بنابراین فرضیه اثر ترجمه و انطباق بهعنوان منبع DIF در این مجموعه داده مورد تأیید قرار نگرفت. این مورد میتواند مثالی از سؤالهای DIF باشد که بهطور هماهنگ عمل میکنند تا در سطح دستهبندی شده لغو شوند، پدیدهای که لغو DIF نامیده میشود. اثر بارهای شناختی سؤال بر DIF در این مطالعه تأیید شد (Sandilands and et al., 2013).
راهبرد مورداستفاده برای بررسی تأثیر ویژگیهای معلم و دانشآموز در DIF به این صورت است که تحلیل ابتدا با تعیین ابعاد ساختار دادههای آزمون و بررسی تعداد طبقههای مکنون انجام میگیرد. سپس DIF در میان طبقههای مکنون بررسی میشود. در انتها منابع DIF طبقههای مکنون با استفاده از دو روش بررسی میشود. ابتدا بهطور نظاممند سؤالهای DIF را بر مبنای جنبههای اصلی گروهبندی نموده، دوما از مدل پیشبینی برای بررسی عوامل مرتبط با دانشآموز (کشو، سن و جنس) و معلم (آموزش مهارتهای رمزگشایی، گروهبندیها با توانایی مشابه، آموزش گروههای کوچک) که میتواند بهطور بالقوه زمینهساز DIF باشد، استفاده میشود. مدلسازی طبقه مکنون با استفاده از سه روش آماری: تابع تشخیص توصیفی، رگرسیون لوجستیک چندجملهای و تحلیل رگرسیون لوجستیک چندجملهای چند سطحی انجام میگیرد. توافق در سه روش آماری برای سه متغیر یافته شد: میانگین مقادیر قابلقبول، مقایسه بین هنگکنگ و قطر، و سن. معنیداری دیگر متغیرها، مقایسه دو کشور دیگر، جنسیت و آموزش مهارتهای رمزگشایی و گروههای کوچک، به روش مورداستفاده برای بررسی منابع DIF طبقه مکنون وابسته است (Oliveri and et al., 2013).
در مطالعهای دیگر با استفاده از ادغام نتایج بهدستآمده از تحلیل کمی DIF و مصاحبه شناختی، تفسیرهای شرکتکنندگان بهوسیله تمها و زیرتمها که از روایات آنها بهدستآمده، مقایسه شدند. نتایج این مطالعه نشانداد سؤالها با DIF فراگیر منجر به فرایندهای پاسخ مختلف به عناصر موجود در متن سؤال میشود، یعنی افراد هنگامیکه به این سؤالها پاسخ میدهند، درباره مسائل مختلفی فکر میکنند. بنابراین میتوان گفت سؤالها با DIF فراگیر حاوی عناصر مفهومی متفاوت است که دارای معانی مختلفی هستند درحالیکه سؤالهای با DIF غیرفراگیر، بهدلیل تجارب مختلف مرتبط با زمینه یا فرهنگ، متفاوت هستند. نتایج همچنین نشاندهنده وجود مشکلات احتمالی در انطباق، ناشی از استفاده از اصطلاحاتی است که در دو نسخه معادل نیستند (Benítez, Padilla, 2014).
برای بررسی تأثیر زبان مادری آزمودنی بر DIF، از جزءبندی بازگشتی مبتنی برمدل[6] (MBRP) برای بررسی DIF یکنواخت استفاده شده است، نتایج نشان داد که DIF بر مبنای زبان مادری در چندین سؤال پیرلز وجود دارد اما الگوی DIF در همه کشورها یکسان نیست (Finch and et al., 2016).
بهمنظور بررسی اثربخشی سه روش پیادهسازی MIMIC، نقطه شروعِ ثابت، نقطه شروع آزاد و روش جدید نقطه شروعِ آزاد متوالی(MIMIC) مطالعه شبیهسازی برای شناسایی کارکرد افتراقی یکنواخت و غیریکنواخت سؤال برای چندگروه، انجام شده است. نتایج نشان میدهد روش نقطه شروعِ بهطور متوالی آزاد خطای نوع اول و توان آزمون عالی فراهم مینماید و نتایج آن مشابه با روش نقطه شروع آزاد ایدهآل است که از طرح لنگر فاقد DIF استفاده میکند و خیلی بهتر از روش نقطه شروع ثابت است که از همه سؤالها بهجای سؤالهای موردمطالعه بهعنوان لنگر استفاده میکند (Chun and et al., 2016).
در بررسی تأثیر چیرگی در ویژگیها و مهارتهای زیربنایی برای عملکرد در سؤالها، مدلهای شناختی تشخیصی ماتریس Q که شامل ویژگیهای زیربنایی عملکرد در سؤالها است تشکیلشده است و تفاوت معنادار احتمال چیرگی در ویژگیها در گروههای مورد مقایسه، با آزمون مانوا انجام شد و نتایج نشان داد که بهطور متوسط تفاوت در میزان چیرگی بر یک ویژگی بین دریافتکننده و عدمدریافتکنندگان مساعدت در حدود 33 تا 44 درصد است (Svetina and et al., 2017).
راهبردهای غیر آماری برای بررسی تأثیر منابع DIF
راهبردی که برای شناسایی انطباق نسخههای آزمون بهعنوان منبع DIF بهکارگرفته شده است، مرور قضاوتی با مترجمان چندزبانه و روایی متقاطع DIF در گروههای چندگانه است، دو شاهد برای حمایت از این فرض که انطباق منبعی برای DIF است بهکار گرفته شد، اول شناسایی تفاوتها در معانی، ساختار و قالب بین نسخههای ترجمه شده سؤالها در مرور قضاوتی و دوم روایی متقاطع DIF در دو مقایسه اضافه است (Ercikan, 2002). راهبرد دیگر برای سنجش منابع یافته شده برای DIF در انطباق نسخههای چندزبانه آزمون، تشکیل کمیته دومی از متخصصان است، این کمیته شامل متخصصان زبانشناسی و معلمانی است که بهطور مستقل از اولین کمیته (برای شناسایی منابع DIF) کار میکنند. همچنین برای بررسی تأثیر پوشش برنامه درسی بهعنوان منبعی برای DIF، توزیع DIF سؤالها بهوسیله موضوعات درسی بررسی شد. نتایج این پژوهش نشان داد، 23 درصد سؤالهای DIF ریاضی و 13 درصد سؤالهای DIF علوم در تفاوت در برنامه درسی دارند و 27 درصد در ریاضی و 37درصد سؤالهای در علوم دارای DIF به دلیل انطباق نسخههای آزمون است و 50 درصد سؤالها به دلیل انطباق نسخههای چندزبانه آزمون تیمز و برنامه درسی نبود (Elosua, López-jaúregui, 2007).
راهبرد مورداستفاده برای تأثیر سن افراد در DIF، تحلیل محتوای سؤالهایی است که بهوسیله متخصصان، دارا یا فاقد DIF شناساییشده است. قضاوت متخصصان بهطور واضح منابع را برای سؤالهای دارای DIF مشخص نمیکند. در این مطالعه، آزمون سوگیری علیه گروههای سنی ندارد (Ardeshir, Antony, 2007).
در مطالعه دیگر مشخصههای از سؤالها که بهوسیله مرور متخصصان بهعنوان منبع DIF بین دانشآموزان از دو زبان، شناساییشده است را بهوسیله تأیید شواهد تجربی از پروتکل تفکر با صدای بلند بررسی نمودند. خواندن با صدای بلند برای درک اشتباه خواندن سؤال ضروری بود، هنگامیکه دو نسخه زبانی دقیقاً معنای یکسانی داشتند اما دارای واژگان مستعد خطا هستند. منابع شناسایی شده در این مطالعه کلمات کلیدی سؤال که ممکن است کمک یا مانع برای حل سؤال باشد، وضوح و هدایت زبان، قالببندی و ارائه بصری، تفاوتهای زبانی غیرمنتظره (اشتباه خواندن کلمه توسط دانشآموزان فرانسویزبان) است که بهجز قالببندی و ارائه بصری، وضوح و هدایت زبانی، پروتکل تفکر با صدای بلند برای سایر منابع، شواهد تأییدی فراهم نمود (Ercikan and et al., 2010).
در مطالعه دیگر برای بررسی تأثیر ویژگیهای سؤال بر DIF از تحلیل محتوای تعقیبی سؤالها کمک گرفتهاست، مثلاً توضیح احتمالی برای DIF غیریکنواحت مشاهده شده بر مبنای جنسیت این است که مردانی با توانایی پایین احتمالاً تمایل به ریسک داشتند و الگوی موفقیتهای آنان با خوششانسی در سؤالهای آزمون با گزینههای غیر جذاب بودهاست (Aryadoust and et al., 2011).
بهدلیل اینکه مقایسه بین دو گروه با زبان، فرهنگ و برنامه درسی یکسان، زبان و فرهنگ مشابه اما برنامه درسی متفاوت، زبان و فرهنگ و برنامه درسی متفاوت، امکانپذیر شود، چهار گروه از دانشآموزان از ایالت متحده، کانادا، چین و هنککنگ انتخاب شدند. راهبرد بررسی تأثیر منابع شناساییشده شامل ترجمه آزمون، پوشش برنامه درسی متفاوت و تفاوتهای فرهنگی، استفاده از یک شخص دو زبانه برای بررسی اثر ترجمه (بهدلیل محرمانه بودن اطلاعات تنها یک نفر انتخاب شده) است، استفاده از یک پانل شامل 10 نفر متخصص بررسی محتوا (معمولاً معلمانی که با محتوای برنامه درسی آشنایی دارند) و تعداد 15دانشآموزان برای بررسی اثر پوشش برنامه درسی، برای بررسی اثر تفاوت فرهنگی بر DIF است. نتایج تحقیق نشان داد که جدیترین عامل DIF در بین سه عامل نام بردهشده، پوشش افتراقی برنامههای درسی است و آشنایی با محتوای آزمون به طور افتراقی نیز در DIF سهم داشتهاست. جدیترین DIF بین دانشآموزان چین و ایالات متحده وجود دارد و بین دانشآموزان انگلیسیزبان کمترینDIF نشان دادهشد (Huang and et al., 2016).
بحث و نتیجهگیری
یافتههای مرور مقالات در مورد منابع DIF نشان داد، برای سازندگان آزمونها یکی از اهداف اصلی در تحقیق DIF، درک بهتر علل DIF در سؤالهای آزمون است. محدودیت مطالعات DIF این است که آنها صرفاً بر مبنای مشاهدات هستند و در نتیجه تنها اجازه استنباطهای مربوط به رابطه بین ویژگیهای سؤال و DIF را میدهند (Schmitt and et al.,1993). به همین دلیل بیشتر مطالعات انجام شده به بررسی ویژگیهای سؤال بهعنوان منبعی برای DIF پرداختهاند. سازندگان آزمون لازم است در هنگام ساخت آزمون توجه کامل به ویژگیهای سؤال نمایند خصوصاً اینکه تقریباً در تمامی مقالات موردبررسی، معناداری این عوامل تأیید شده است. راهکارهای مختلفی برای جلوگیری از تأثیر ویژگیهای سؤال بهعنوان منابع DIF در مقالات اشاره شده است. بهعنوانمثال بررسی کارکرد افتراقی گزینه انحرافی (DDF) ضروری است زیرا با ترکیب DIF و DDF تحلیل کاملتری از کارکرد سؤال ارائه میشود. ویژگی دیگر سؤال، بارهای شناختی است که منابع اساسی از DIF را نشان میدهد. با توجه به این منبع DIF، سازندگان آزمون بهتر است آزمونهایی طراحی کنند که شامل سؤالهایی با نسبت متعادل بارهای شناختی بالاتر نسبت به بارهای شناختی پایینتر باشند. محتوای سؤالها همچنین میتواند علت احتمالی DIF باشد. برخی از عناصر در سؤالهای داری DIF ممکن است برای آزمودنیهای با توانایی پایین دشوارتر باشد، ازجمله، عبارات منفی، اصطلاحات، استعارهها و سؤالها با طولی که ممکن است در حافظه آزمودنیها با توانایی پایین باقی نماند. تفاوتهای زبانی ممکن است بهوسیله آزمودنیها با توانایی بالا بهتر مدیریت شود، آزمودنیهایی که ممکن است با استفاده از اشارات زمینهای یا زبانی، به راهبردهای استنباطی متوسل شوند. عامل حدس زدن و طول سؤال، سازههای مزاحم هستند و روایی استدلال آزمون را کاهش میدهند. طراحان آزمون باید احتمال حدس را با افزایش گزینههای سؤال به چهار یا حتی پنج گزینه محدود نمایند.
در مطالعات مربوط به انطباق نسخههای ترجمه شده و برنامه درسی، محققان اعلام میکنند تنها در نظر گرفتن انطباق نسخههای زبانی بهعنوان منبع DIF کافی نیست، بلکه عوامل دیگری هم که میتواند بهطور بالقوه DIF را توضیح دهد، بهتر است در نظر گرفت. از این جمله میتوان به تفاوتهای روشهای آموزشی، تفاوتهای فرهنگی و محدودیت در تعاریف موضوعات اشاره نمود (ارسی کان، 2002). یکی از محدودیتهای مطالعات انطباق آزمون این است که تنها شامل دو زبان است. تکرار این مطالعات با استفاده از زبانهای دیگر و انجام تحلیلهای همزمان DIF چندگانه بین چندین زبان، راهحل پیشنهادی برای تحقیقات آینده است. تحقیقات بیشتر در مورد علل DIF در سؤالهای ترجمه شده میتواند بر اساس ایدههای زیر طراحی شود: 1- تمرکز بر سؤالهایی که نشاندهنده DIF نیستند 2- قرار دادن پرسشنامهای برای متقاضیان در هر دو گروه که از آنها میخواهد درباره پاسخشان به سؤالی خاص توضیحدهند. تحلیل توضیحات افرادی که به سؤال دارای DIF پاسخ نادرست دادند ممکن است به درک بهتر دلیل DIF بینجامد (Amery,Ercikan, 2006).
اگر علیه دانشآموزانی سوگیری به دلیل فقدان موضوع سؤال در برنامه درسیشان ایجاد شود، احتمال دارد سوگیری بهوسیله طراحی مناسب سؤال از بین برود. از محققان و آموزگاران خواسته میشود در طراحی سؤال به چند مورد مهم فکر کنند: دانش مشترک و فرآیندهای مورد انتظار از دانشآموز بدون در نظر گرفتن کشور مبدأ، چیست؟ چه علومی دانشآموزان باید بداند تا بتوانند بهعنوان نیروی کار جهانی در آینده کار کنند؟ چه مواد آموزشی باید در برنامههای درسی جدید قرار داده شود تا به توسعه توانایی علمی و مهارت دانشآموز که موردنیاز جامعه مدرن است، کمک کند؟ تفاوت فرهنگی یکی دیگر از منابع بالقوه DIF است. تنها جنبهای که مطالعات حاضر در این زمینه یافتهاند، آشنایی متفاوت با محتوای آزمون بوده است.
منابع متعددی برای DIF وجود دارد و بسته به نوع و هدف گروههای موردسنجش و مقایسه، معنا و منابع DIF ممکن است متفاوت باشد. در نظر داشته باشید که یک متغیر برای منبع DIF در محتوای خاص و برای یک هدف خاص ممکن است منبع مناسبی برای DIF در سایر موارد نباشد و ویژگیهای فرهنگی یک منبع ذاتی DIF نیست، همانطور که تأثیر ویژگیهای فرهنگی بهعنوان منبعی برای DIF تأیید نشد (Elosua, López-jaúregui, 2007). تحقیقات آینده میتواند بر متغیرهایی که بهطور مستقیم مربوط به زمینههای آزمون است، مثل تفاوت در دانش تئوری دانشآموزان، مهارتهای آزمون دادن، استفاده از ماشینحساب یا نگرش نسبت به ریاضیات، متمرکز شود. در سنجشهای چندزبانه، همارزی سؤالها برای مقایسه گروهها بیشتر توسط نسخههای چندزبانه آزمون تحت چالش قرار میگیرد. همچنین لازم است در نظر داشته باشید که تأثیر این عوامل بر DIF بسته به اینکه آیا آزمون یک آزمون روانشناختی، پیشرفت تحصیلی یا آزمون کسب مجوز است، متفاوت است.
در مورد روشهای شناسایی منابع DIF، بیشتر مقالات با استفاده از تحقیقات گذشته به شناسایی منابع پرداختهاند و همچنین برخی مقالات از نظر متخصصان استفاده نمودهاند، هرچند استفاده از نظر متخصصان برای شناسایی منابع DIF بسیار مؤثر است و تعداد زیادی از مطالعات مورد بررسی از این شیوه استفاده نمودهاند ولی پروتکل تفکر با صدای بلند منابعی از DIF را نشان میدهد که بهوسیله مرور متخصصان مشخص نشده است. از طرفی سؤالهایی که توسط متخصصان دارای DIF شناسایی نشده در پروتکل تفکر با صدای بلند قرار نمیگیرد، بنابراین امکان بررسی تفاوتهای گسترده بین گروهها وجود ندارد. بااینحال در آزمونها با تعداد زیادی از سؤالها، ورود همه سؤالها در پروتکل تفکر با صدای بلند برای بررسی مقایسهپذیری سازه عملی نیست. محدودیت پروتکل تفکر با صدای بلند، در نمونه محدود دانشآموزان مورداستفاده در مطالعه است. با تعداد نمونه خیلی کوچکی که بهطورمعمول در این پروتکل استفاده میشود، نمیتوان انتظار داشت که، نماینده جمعیت مربوطه باشد (Ercikan and et al., 2010).
استفاده از روش طبقههای مکنون برای شناسایی منابع DIF مفید است، ازآنجاییکه چندبعدی بودن آزمونها علت اصلی DIF است، درک چندبعدی بودن آزمون و اثرات این ابعاد بر DIF، توانایی تفسیر دقیقتر نمرات آزمون، کنترل بیشتر بر ابعاد مزاحم مرتبط و کاهش تأثیر آنها را فراهم مینماید (Cohen, Bolt, 2005). یکی از محدودیتهای مطالعه DIF، فقدان اظهارات صریح در مورد ابعاد اولیه و ثانویه مربوط به سؤالهای آزمون از سازندگان آزمون است، که اگر ابعاد آزمون مشخص بود، میتوانست در فرضیهسازی DIF در سؤالهای چندبعدی کمک کند و سپس امکان آزمون فرضیهها بهطور کامل بهوسیله رویکرد تحلیل DIF مبتنی بر چندبعد، علاوه بر روش شناسایی DIF با SIBTEST استات[7]، وجود داشت (Roussos, Stout, 2004).
بهطورکلی مرور مقالات نشان میدهد که مطالعات انجام شده یا اینکه تنها بر شناسایی منابع DIF تمرکز داشتهاند و راهبردی برای بررسی تأثیر منابع DIF شناساییشده به کار نگرفتهاند و یا تمرکز اصلی مطالعه در راهبردی برای بررسی تأثیر منابع DIF شناساییشده در مطالعات گذشته یا منابعی که توسط متخصصان یافته شده، بوده است، این مسئله از نقاط ضعف مطالعات است، انجام مطالعهای که هم بر شناسایی منابع DIF و هم بر انتخاب راهبرد مناسب برای بررسی تأثیر منابع شناساییشده تمرکز داشته باشد، مطالعهای کامل در زمینه منابع DIF محیا خواهد نمود.
در راهبردهای کمی برای بررسی تأثیر منابع DIF مثل مدلسازی رگرسیونی، لازم است توجه کنیم که توفیق استفاده از این روشها در انتخاب دقیق متغیرها، هم از لحاظ نظری و هم از نظر آماری است. همچنین مدلسازی MIMIC میتواند تغییرات را در پاسخ سؤالهایی که با سازه زیربنایی ارتباط ندارد، مشخص نماید، اما اطلاعاتی درباره اینکه چرا این تغییرات ممکن است وجود داشته باشد ارائه نمیدهد. اگرچه مدلسازی MIMIC قادر به سنجش تفاوتها در مورد دشواری سؤال (DIF یکنواخت) است اما نمیسنجد که آیا پارامتر تشخیص سؤالها در گروهها یکسان است (DIF غیریکنواخت). در مورد راهبردهای غیر آماری مورداستفاده باید در نظر داشت که در شناسایی منابع DIF با استفاده از مرور قضاوتی، تفسیرها و تلاشهای برای شناسایی منابع DIF میتواند وابسته به اندیشه فرد باشد. این مسئله حادتر میشود اگر مرورگران بدانند که کدام سؤالها بهطور افتراقی عمل میکنند. منابع چندگانه در بررسی منابع DIF و فرایندهای مرور قضاوتی باید در نظر گرفته شود، با تمرکز بر یک منبع انتظار نداشته باشید که منبع DIF را برای همه سؤالهایی که دارای DIF شناساییشدهاند، توضیح دهد.
همچنین مرور تخصصی سؤالها باید بهوسیله افرادی که در مورد یادگیری دانشآموزان آگاه هستند و تخصص فرهنگی یا زبانی دارند انجام شود، این روش رایجترین روش برای شناسایی خواصی (مثل محتوا، قالب، زمینه و زبان) از سؤالهای دارای DIF آزمون است. بااینحال حتی اگر مرور تخصصی بتواند مشخص کند که آیا برخی جنبههای سؤالهای آزمون به DIF ارتباط دارد، نمیتواند منابع DIF را شناساییکند. بهعلاوه مرور تخصصی توضیح نمیدهد که چگونه مشخصات سطحی سؤال ممکن است منجر به کارکرد افتراقی بین گروههای آزمودنی شود. برای پاسخ به سؤالهای چگونه و چرا لازمست اثر متقابل زبان سؤالهای آزمون و فرایند تفکر آزمودنی درک شود.
در نهایت سنجش کارکرد افتراقی سؤال در روایی نمرات آزمون مسئلهای کلیدی است. با توجه به افزایش وابستگی سیاستگذاران آموزشی بر ارزیابیهای بینالمللی مانند آزمونهای تیمز و پیرلز و آزمونهای ملی مثل آزمونهای استخدامی و آموزش عالی، عدمتوجه به منابع DIF میتواند منجر به استنباطهایی اشتباه در مقایسه نمرات آزمونها شود. سیاستگذاران باید هنگام تصمیمگیری در مورد برنامه درسی، منابع یا آموزش بر مبنای هر مقایسه مستقیم با استفاده از سؤالهای آزمونها، بسیار مراقب باشند. روایی مقایسه بین گروهها همیشه باید قبل از مقایسه نمرات، بررسی شود.
پیشنهادها
1- سازندگان آزمون لازم است در هنگام ساخت آزمون توجه کامل به ویژگیهای سؤال نمایند خصوصاً اینکه تقریباً در تمامی مقالات موردبررسی، معناداری این عوامل تأیید شده است و بهتر است آزمونهایی طراحی کنند که شامل سؤالهایی با نسبت متعادل بارهای شناختی بالاتر نسبت به بارهای شناختی پایینتر باشند.
2- یکی از محدودیتهای مطالعات انطباق آزمون این است که تنها شامل دو زبان است. تکرار این مطالعات با استفاده از زبانهای دیگر و انجام تحلیلهای همزمان DIF چندگانه بین چندین زبان، راهحل پیشنهادی برای تحقیقات آینده است.
3- تحقیقات آینده میتواند بر متغیرهایی که بهطور مستقیم مربوط به زمینههای آزمون است، مثل تفاوت در دانش تئوری دانشآموزان، مهارتهای آزمون دادن، استفاده از ماشینحساب یا نگرش نسبت به ریاضیات، متمرکز شود. در سنجشهای چندزبانه، همارزی سؤالها برای مقایسه گروهها بیشتر توسط نسخههای چندزبانه آزمون تحت چالش قرار میگیرد.
4- اظهارات صریح در مورد ابعاد اولیه و ثانویه مربوط به سؤالهای آزمون توسط سازندگان آزمون میتواند در فرضیهسازی DIF در سؤالهای چندبعدی کمک کند و امکان آزمون فرضیهها را بهطور کامل فراهم نماید.
5- انجام مطالعهای که هم بر شناسایی منابع DIF و هم بر انتخاب راهبرد مناسب برای بررسی تأثیر منابع شناساییشده تمرکز داشته باشد، مطالعهای جامع در زمینه منابع DIF محیا خواهد نمود.