Sources of Question Differential Function and its Application in Education

Document Type : Research Paper

10.34785/J012.2019.551

مقدمه و بیان مسئله

استفاده از آزمون­ها به‌عنوان وسیله تصمیم­گیری­های آموزشی، تاریخچه­ای طولانی داشته و مدت زمان زیادی است که آزمون­ها وسیله­ای برای انتخاب افراد شده است. سنجش به‌عنوان فعالیت مهم آموزشی نقش بسیار مهمی در عملکرد یادگیرندگان و آموزگاران دارد (Diamond, Persson, 2016). داده­های حاصل از آزمون­های سرنوشت­ساز معمولاً برای اطلاع­رسانی سیاست­ها و اجرای برنامه­های درسی و تصمیم­گیری­های آموزشی به کار برده می­شود. فرض ضمنی استفاده از داده­های آزمون این است که اندازه‌گیری‌ها در میان استان­ها و مناطق آموزشی مقایسه­پذیر باشند. این فرض به معنای مقایسه­پذیری نمرات سؤال‌ها و سازه­های اندازه­گیری شده در سنجش­هاست. مرکز اصلی تلاش­ها و ایجاد تفاسیر دارای روایی بر مبنای نتایج سنجش، نمرات مقایسه­پذیر است (Oliveri, von Davier, 2014).

در تحلیل مقایسه­پذیری نمرات یک آزمون، دو جنبه مهم وجود دارد که شامل بررسی کارکرد افتراقی سؤال و شناسایی منابع آن است. یکی از چالش­های DIF برای بررسی مقایسه­پذیری سؤال‌ها آزمون، شناسایی علل بالقوه DIF است. در تحلیل مجموعه داده­های پیچیده که شامل افراد از ملت‌ها، ایالت­ها، اقوام و فرهنگ­های مختلف هستند، تمرکز مطالعات در پیشینه تحقیق فراتر از شناساییDIF است و به سمت توضیح منابع DIF حرکت کرده است (Albano, Rodriguez, 2013). شناسایی علل DIF با بازبینی محتوای سؤال‌های دارای DIF، بنیش عمیق­تری نسبت به متغیرهای مرتبط با DIF فراهم می­نماید و به‌این‌ترتیب اطلاعاتی به کارشناسان در خصوص جنبه­های بالقوه­ای از سؤال‌ها که باید در بررسی­های مهم مورداستفاده قرار گیرد، ارائه می­دهد.

    هنگامی‌که DIF شناسایی شد، تحلیل اضافی برای بررسی منابع آن انجام می­شود. منابع DIF موردبررسی قرار می­گیرد تا عوامل سازه مزاحم[1] که به‌طور غیرمنتظره با سازه مورداندازه‌گیری آزمون همراه می­شود را شناسایی نموده و تصمیم­گیری­های مربوط به حفظ یا حذف این سؤال‌ها را اعلام نماید. تحلیل برای بررسی منابع بالقوه DIF شامل بررسی سؤال‌ها توسط کارشناسان برای محتوا، پیچیدگی شناختی، بار فرهنگی، تفاوت­های زبانی در نسخه­های چندگانه زبانی آزمون و همچنین مصاحبه­های شناختی است (Oliveri, Ercikan, Zumbo, 2013). اگرچه روش­های شناسایی DIF برای بهبود کیفیت آزمون مفید است، اما پیشرفت اندکی در زمینه شناسایی علل و ماهیت موضوعاتی که منجر به وجود DIF در سؤال‌ها می­شود، وجود دارد. یعنی هنگامی‌که سؤال‌ها در یک آزمون از نظر آماری دارای عملکرد افتراقی از یک گروه آزمودنی به گروه دیگر باشند، شناسایی دلایل عملکرد افتراقی سؤال‌ها، دشوار است. تحلیل برای بررسی منابع بالقوه DIF شامل بررسی سؤال‌ها توسط کارشناسان برای محتوا، پیچیدگی شناختی، بار فرهنگی، تفاوت­های زبان در نسخه‌های چندگانه زبانی آزمون و همچنین مصاحبه­های شناختی است. این تلاش­ها برای شناسایی وجود سوگیری است، یعنی اینکه پاسخ­های آزمودنی­ها نه‌تنها توانایی در سازه موردنظر را نشان می‌دهد، بلکه به  واریانسی خارج از سازه مورداندازه‌گیری (مثلاً واریانس سازه مزاحم) نیز اشاره دارد که روایی استنباط­های مربوط به تفاوت­های عملکرد گروهی را کاهش می­دهد. تحلیل منابع DIF به محققان اجازه می­دهد تا فرضیه­های در ارتباط با منابع اصلی و بالقوه اریبی و واریانس سازه مزاحم را فرمول‌بندی کنند (Roth, Oliveri, Sandilands, Lyons-Thomas, Ercikan, 2013).

    هنگامی‌که داده­های سنجش در مقیاس بزرگ برای تصمیم­گیری­های سیاسی و آموزشی استفاده می­شود، مهم است که توجه داشته باشید همه آزمودنی­ها در هر کشور به‌طور همگن به سؤال‌ها پاسخ نداده­اند. فرض همگونی درون‌گروهی باید به‌صورت تجربی به‌عنوان اولین گام در تحلیل مقایسه‌پذیری بین گروه­ها (بر مبنای کشورها، جنسیت یا زبان) مورد ارزیابی قرار گیرد. زیرا هنگامی‌که داده­ها ناهمگون هستند، ممکن است یافته­ها فقط برای یک زیرگروه از آزمودنی­ها نه تمام آن‌ها به­کار برده شود. این یافته­ها مفاهیمی برای سیاست­گذاری در آموزش دارد زیرا سیاست­ها اغلب برای کل یک گروه اعمال می­شود (تفاوت­های پیشرفت تحصیلی در دختران و پسران). اگر گروه­های آزمودنی­ها به‌طور مشابه به سؤال‌ها پاسخ ندهند، استنباط­ها بر مبنای آزمون، ممکن است برای تمام آزمودنی­ها در یک گروه قابل ‌تعمیم نباشد. این امر منجر به نتیجه­گیری­هایی می­شود که قابلیت تعمیم­پذیری محدودی دارند و نتایجی که برای کاربرد در اصلاح آموزش برای زیرگروه­هایی متفاوت از شرکت­کنندگان در سنجش، محدود است (Ercikan, 2008).

دغدغه شناسایی منابع DIF به تحقیق انگوف برمی­گردد، او نوشت: سازندگان آزمون­ها اغلب با نتایج DIF مواجه می­شوند که نمی­توانند آن را درک کنند و به نظر می­رسد هیچ بررسی نمی­تواند به توضیح اینکه چرا برخی سؤال‌ها کاملاً معقول دارای DIF هستند، کمک کند (Angoff,1993). به‌علاوه عدم‌ شناسایی منابع DIF در استانداردها (‌انجمن تحقیقات آموزشی آمریکا [AERA]، انجمن روانشناسی آمریکا [APA] و شورای ملی اندازه‌گیری در آموزش‌وپرورش [NCME]،1995) نیز برجسته شده است. تحقیقات قبلی در مورد DIF و منابع آن نشان دادند که نسخه­های چندزبانه یک سنجش را نمی­توان مقایسه­پذیر فرض نمود زیرا دارای نسبت بزرگی از DIF هستند. به‌علاوه در نسبت زیادی از سؤال‌ها دارای DIF، منابع DIF را نمی­توان شناسایی نمود. برای مثال نسخه­های انگلیسی و فرانسوی آزمون پیشرفت تحصیلی ملی کانادا را با استفاده از SIBTEST و رویکرد لین-هارنیش[2] (LH) بررسی شد و نشان داد که بیش از 36 درصد سؤال‌ها برای آزمودنی­های انگلیسی و فرانسوی‌ زبان دارای کارکرد افتراقی است و منابع DIF برای 30 تا 40 درصد از سؤال‌ها مشخص شده یافته شد (Ercikan, Gierl, McCreith, Puhan, Koh,2004). فرآیندهای شناختی درگیر در هنگام آزمون و نوع خاص تفکر، به‌وسیله زبان و فرهنگ تحت تأثیر قرار می­گیرد، زمینه­های فرهنگی می­تواند اندازه­گیری دانش را در آزمون­های استاندارد مختل کند، گروه­های متمایز از لحاظ فرهنگی، الگوهای خاص تفکر و یادگیری دارند که ممکن است منابعی برای DIF باشند (Li,Cohen,Ibarra,2004, Pellegrino, Chudowsky, Glaser, 2001).   

    مرور تحقیقات نشان می­دهد که تاکنون در ایران در رابطه با منابع کارکرد افتراقی سؤال، پژوهشی انجام نشده است. به‌دلیل اهمیت مقایسه گروهی نمرات در سنجش­های در مقیاس بزرگ و لزوم هم­ارزی سؤال‌ها برای مقایسه گروه­های مختلف داوطلبان شرکت‌کننده در یک آزمون، شناسایی و تحلیل منابع DIF ضروری است. همچنین در ایران به دلیل وابستگی سیاست‌گذاران و تصمیم‌گیرندگان به آزمون­های گوناگون مانند آزمون­های ورودی آموزش عالی و آزمون­های استخدامی، عدم‌توجه به منابع DIF می­تواند منجر به استنباط‌هایی نادرست در مقایسه نمرات آزمون­ها شود. لذا تهیه مقاله­ای که به‌طور نظامند روند مقالات انجام گرفته در این زمینه را بررسی نماید، به شناسایی منابع DIF برای ساخت و آزمون فرضیه­ها، در تحقیقات آینده کمک می­نماید و همچنین با معرفی منابع بالقوه DIF به سازندگان آزمون، اطلاعاتی در مورد جنبه­های از سؤال‌ها ارائه می­دهد که باید در بررسی­های مهم مورد استفاده قرار گیرد، بنابراین به ساخت سؤال‌هایی باانصاف بیشتر کمک خواهد کرد. اهداف ویژه مطالعه مروری حاضر عبارت است از: 1- بررسی منابع DIF شناسایی‌شده در آزمون­های آموزشی، 2- تبیین روش­های مورداستفاده برای شناسایی منابع DIF، 3- معرفی راهبردهای بررسی تأثیر منابعی که برای DIF شناسایی‌شده است.

 

روششناسی پژوهش

این پژوهش یک مرور نظام­مند است که با رجوع به سایت­های بین­المللی انجام شد. به این منظور ابتدا Google Scholar برای جستجوی کلی کلید واژه­های sources of differential item functioning و causes of differential item functioning مورداستفاده قرار گرفت. ملاک ابتدایی برای ورود به مطالعه ارتباط مقاله با شناسایی منابع DIF بود. از دیگر ملاک­های ورود می­توان به چاپ مقاله در پایگاه­های معتبر از جمله Taylor& Francis، WILEY، Springer، SAGE اشاره نمود. جستجو، شامل مقالاتی در مجلات مربوط به سلامت، پزشکی، کیفیت زندگی و روان‌پزشکی بود که این موارد از بررسی در مطالعه خارج شدند.

    از تعداد 11 مقاله در پایگاه Taylor& Francis و 8 مقاله در پایگاه Springer، 9 مقاله در پایگاه SAGE و 14 مقاله در پایگاه  WILEY بر اساس ملاک­های ورود تعداد 19 مقاله مرتبط با موضوع شناسایی شد و مورد بررسی قرار گرفت. در استفاده از هر مقاله سعی شد نمرات مورد مقایسه در DIF، منابع شناسایی‌شده برای DIF، چگونگی شناسایی منبع DIF، راهبرد مورد استفاده برای تأثیر منبع DIF شناسایی‌شده استخراج شود و سپس اطلاعات با دقت دسته­بندی و تحلیل شود. جزئیات مقالات بررسی شده در جدول1 نشان داده شده است.


جدول (1): جزئیات مقالات مربوط به منابع DIF

نتیجه

نمرات مورد مقایسه

راهبرد مورداستفاده برای بررسی تأثیر منابع DIF

چگونگی شناسایی منبع DIF

منابع DIF

مقالات

شماره

نتایج این مطالعه منابع DIF یافته شده است.

نمرات بخش کلامی آزمون روان‌سنجی ورودی دانشگاه در اسرائیل بین نسخه اصلی به زبان عبری و نسخه ترجمه شده به زبان روسی

 

استفاده از نظر 5 مترجم و 3 کارشناس زبان عبری

تغییرات در دشواری کلمات یا عبارات، تغییرات در محتوا، تغییر قالب، تفاوت‌های مربوط به فرهنگ

Allalouf, Hambleton  Sireci (1999)

1

اثر کوچک اما معنادار و ثابت در میان سؤال‌ها، از قالب سؤال و اثر بزرگ و باثبات کمتری در مورد نوع سؤال. اثرات متقابل شامل اثرات سؤال و عوامل معنی‌دار نبود.

نمرات بخش ریاضی از یک اجرای منحصربه‌فرد از آزمون سنجش مدرسه‌ای در گروه مردان وزنان

طرح مطالعه DIF تصادفی و استفاده از SIBTEST برای آزمون اثرات علل DIF

 

تحقیقات گذشته

قالب سؤال (چهارگزینه‌ای در مقابل بازپاسخ) و نوع سؤال (انتزاعی در مقابل حقیقی)

Bolt (2000)

2

23 درصد سؤال‌های DIF ریاضی و 13 درصد سؤال‌های DIF علوم در تفاوت در برنامه درسی و 50 درصد سؤال‌ها به دلیل دو منبع ذکر شده نبود. 27 درصد در ریاضی و 37درصد سؤال‌ها در علوم دارای DIF به دلیل انطباق

نمرات تیمز نسخه انگلیسی و فرانسوی در کشورهای کانادا، انگلیس، فرانسه و ایالات متحده در درس علوم و ریاضیات دانش‌آموزان 13 ساله

1- مرور قضاوتی با مترجمان چندزبانه برای همه سؤال‌ها، 2- روایی متقاطع DIF در گروه‌های چندگانه، 3- بررسی توزیع DIF سؤال‌ها به‌وسیله موضوع

تحقیقات گذشته

انطباق نسخه‌های چندزبانه آزمون تیمز، برنامه درسی

Ercikan(2002)

3

آزمودنی‌ها در ابعاد مزاحم ثانویه در اندازه‌های پیشرفت تحصیلی‌شان متفاوت‌اند.

نمره آزمون گمارش ریاضی (به دوره پیش محاسبات) برای دانشجویان سال اول بین زنان و مردان

 

مدل ترکیبی IRT

ابعاد ثانویه مزاحم،  در گروه جبر، گروه هندسه و اندازه‌گیری و گروه به‌کارگیری نمادین

Cohen, Bolt (2005)

4

کلاس‌های اضافه پس از مدرسه با کاهش در مقدار و تعداد سؤال‌های DIF مرتبط است

نمرات ریاضی تیمز بین ایالات متحده و تایوان

مدل‌سازی DIF ترتیبی (رگرسیون لوجستیک)

تحقیقات گذشته، اسناد و اطلاعات موجود

کلاس‌های اضافه برای درس پس از مدرسه

Amery, Ercikan (2006)

5

به‌جز ویژگی‌های فرهنگی سایر عوامل بر DIF تأثیر می‌گذارند

نمرات بخش کلامی مخزن سؤال‌ها استعداد عمومی در دانش‌آموزان اسپانیایی و باسک

 

تشکیل گروه دومی از متخصصان مستقل از گروه اول و بررسی هماهنگی بین نظرات دو گروه

گروهی از متخصصان

 

نقض در ترجمه، تفاوت دستوری بین زبان‌ها، تفاوت‌های معنایی و ویژگی‌های فرهنگی

Elosua, López-jaúregui,(2007)

6

تأثیر منبع DIF معنادار نیست.

نمرات آزمون شنیداری CAE کمبریج 2002 در سه گروه سنی کمتر از 17 سال، 18 تا 22 سال و بالای 23 سال

تحلیل آماری و تحلیل محتوا

بررسی تحقیقات گذشته و اینکه تا قبل از این مطالعه در موردبررسی سن به‌عنوان منبع DIF تحقیقی انجام نگرفته است

سن داوطلبان

 

Ardeshir, Antony (2007)

7

آزمودنی‌ها به‌طور افتراقی به گزینه انحرافی "بدون اشتباه" کشیده شدند و  هیچ‌کدام از سؤال‌ها MP از هر سه مرحله گذر نکردند.

نمرات آزمون UE و MP در میان زنان و مردان و سفید و سیاه‌پوستان و اسپانیایی‌ها و سفیدپوستان

 

استفاده از آزمون SIBTEST، برازش مدل لگاریتم خطی، محاسبه نسبت بخت‌ها

 

تحقیقات گذشته

کارکرد افتراقی گزینه‌های انحرافی

Banks (2009)

8

برای سایر منابع به‌جز قالب‌بندی و ارائه بصری، وضوح و هدایت زبانی، شواهد، پروتکل تفکر با صدای بلند شواهد تأییدی فراهم نمود.

نمرات علوم و ریاضی آزمون SAIP 2003 یک آزمون پیشرفت تحصیلی کانادایی بین دانش‌آموزان پایه 7 و 8 انگلیسی و فرانسوی‌زبان

پروتکل تفکر با صدای بلند

مرور متخصصان

کلمات کلیدی سؤال که ممکن است کمک یا مانع برای حل سؤال باشد، وضوح و مشخصه زبان، تفاوت‌های زبانی غیرمنتظره (اشتباه خواندن یک کلمه توسط دانش‌آموزان فرانسوی‌زبان)

Ercikan, Arim, Law, Domene, Gagnon & Lacroix (2010)

9

 

مقایسه نمرات آزمون شنیداری موسسه زبان انگلیسی میشگان در گروه مردان وزنان

 

تحلیل محتوای تعقیبی[3] سؤال

تحقیقات گذشته

محتوای سؤال‌ها ازجمله، عبارات منفی، اصطلاحات، استعاره‌ها و سؤال‌ها با طولی که ممکن است در حافظه آزمودنی‌ها با توانایی پایین باقی نماند.

Aryadoust, Goh & Kim(2011)

10

 

مقایسه نمرات آزمون تعیین سطح ریاضی در سطح دانشگاه در میان مردان وزنان

استفاده از مدل دو پارامتری آشیانه‌ای چند‌گروهی و سه مدل سلسله مراتبی آشیانه‌ای با محدودیت‌های متفاوت و

مطالعه‌ شبیه‌سازی برای سنجش عملکرد آماره نسبت درستنمایی برای شناسایی DDF تحت مدل دو پارامتری آشیانه‌ای

تحقیقات گذشته

کارکرد افتراقی گزینه‌های انحرافی

Suh, Bolt (2011)

11

توافق در سه روش آماری برای سه متغیر یافته شد: میانگین مقادیر قابل‌قبول، مقایسه بین هنگ‌کنگ و قطر و سن. معنی‌داری دیگر متغیرها، مقایسه دو کشور دیگر، جنسیت و آموزش مهارت‌های رمزگشایی و گروه‌های کوچک، به روش مورداستفاده برای بررسی منابع DIF طبقه مکنون وابسته است.

داده‌های آزمون خواندن پیلز 2006 دانش‌آموزان در دو کشور چینی زبان (تایپه و هنگ‌کنگ) و دو کشور عربی زبان (کویت و قطر)

مدل‌سازی طبقه مکنون با استفاده از سه روش آماری: تابع تشخیص توصیفی، رگرسیون لوجستیک چندجمله‌ای و تحلیل رگرسیون لوجستیک چندجمله ای چند سطحی

 

محقق به دنبال یافتن متغیرهایی است که ممکن از بیشتر از متغیرهای مانیفست با نمرات پیشرفت تحصیلی ارتباط داشته باشند

عوامل مرتبط با دانش‌آموز (کشور، سن و جنس) و معلم (آموزش مهارت‌های رمزگشایی، گروه ه بندی ها با توانایی مشابه، آموزش گروه‌های کوچک)

(Oliveri, Ercikan, Zumbo(2013)

12

نتیجه این مقاله منابع یافته شده برای DIF است.

نسخه انگلیسی و فرانسوی 40 سؤال که در تحقیق قبلی20 تا از آن‌ها دارای DIF و 20 تا فاقد DIF شناسایی شدند در درس علوم آزمون SAIP آزمون پیشرفت تحصیلی ملی در کانادا

 

 

تحلیل پروتکل تفکر با صدای بلند در مورد مرورگران حرفه‌ای با استفاده از روش‌های استاندارد تحلیل محتوا

 

تفاوت در طول نسبی دو نسخه‌ی زبانی، تفاوت در مسائل زبان‌شناختی، تفاوت در ساختار منطقی محتوا یا قالب سؤال‌ها، تفاوت در محتوای شناختی مفهومی، تفاوت در مسائل تنوع[4]

Roth, Oliveri, Sandilands, Lyons-Thomas& Ercikan (2013)

13

برخلاف بارهای شناختی سؤال‌ها، اثر ترجمه و انطباق تأیید نمی‌شود

نمرات آزمون خواندن پیرلز 2001 بین دانش‌آموزان انگلیسی و اسپانیایی‌زبان در دانش‌آموزان نه ساله در پایه چهارم

استفاده از آزمون Poly-SIBTEST تحلیل کارکرد افتراقی دسته

تحقیقات گذشته

ترجمه و انطباق نسخه‌های چندزبانه آزمون و بار شناختی سؤال

 

Sandilands, Oliveri, Zumbo, Ercikan (2013)

14

سؤال‌های با DIF فراگیر حاوی عناصر مفهومی متفاوت است که دارای معانی مختلفی هستند، سؤال‌ها با DIF غیرفراگیر، به دلیل تجارب مختلف مرتبط با زمینه یا فرهنگ، متفاوت هستند. مشکلات ناشی از انطباق در اصطلاحاتی است که در دو نسخه معادل نیست.

مقایسه نمرات آزمون پیزا 2006 بین دانش‌آموزان 15 و 16 ساله از ایالات متحده و اسپانیا

 

ادغام نتایج به‌دست‌آمده از تحلیل کمی DIF و مصاحبه شناختی

 

تفسیرهای شرکت‌کنندگان به‌وسیله‌ی تم‌ها و زیر تم‌ها که از روایات آن‌ها به‌دست‌آمده، مقایسه می‌شوند.

 

تفسیر سؤال‌ها به‌طور افتراقی توسط شرکت‌کنندگان در گروه‌های مختلف

Benítez, Padilla (2014)

15

روش نقطه شروع به‌طور متوالی آزاد خطای نوع اول و توان آزمون عالی فراهم می‌نماید و نتایج آن مشابه با روش نقطه شروع آزاد ایده آل است که از طرح لنگر فاقد DIF استفاده می‌کند و خیلی بهتر از روش نقطه شروع ثابت است که از همه سؤال‌ها به‌جای سؤال‌های موردمطالعه به‌عنوان لنگر استفاده می‌کند.

گروه‌های جنسیتی مردان وزنان و گروه‌های قومیِ اقلیت و اکثریت. گروه مردان با قومیت اکثریت به‌عنوان گروه مرجع در نظر گرفته می‌شود

 

مطالعه شبیه‌سازی به‌منظور بررسی اثربخشی سه روش پیاده‌سازی MIMIC، نقطه شروع ثابت، نقطه شروع آزاد و روش جدید نقطه شروع آزاد متوالی(MIMIC) برای شناسایی کارکرد افتراقی یکنواخت و غیریکنواخت سؤال برای چندگروه

 

تحقیقات کمی وجود دارد که به بررسی دقت MIMIC برای تشخیص DIF به دلیل ترکیب متغیرهای پیش‌زمینه و اثرات متقابل آن‌ها پرداخته باشد.

متغیرهای پیش‌زمینه مثل جنسیت و گروه‌های قومی و اثرات متقابل آن‌ها

 

Chun, Stark, Kim, Chernyshenko (2016)

16

DIF بر مبنای زبان مادری در چندین سؤال پیلز وجود دارد اما الگوی DIF در همه کشورها یکسان نیست.

نمرات 13 سؤال از آزمون پیلز 2011 برای 11 کشور اروپایی با کنترل منابع آموزشی در دسترس آزمودنی

استفاده از جزءبندی بازگشتی مبتنی برمدل (MBRP) برای بررسی DIF یکنواخت

تحقیقات گذشته

زبان مادری آزمودنی

Finch, Finch ,French (2016)

17

 

نمرات آزمون علوم پیزا 2006 در میان گروه‌های : 1- ایالات متحده و کانادا انگلیسی‌زبان، 2- سرزمین چین و چینی‌زبان‌های هنک کنگ، 3- ایالات متحده و چین

استفاده از یک شخص دو زبانه برای بررسی اثر ترجمه، استفاده از یک پانل با 10 نفر متخصص بررسی محتوا  و  15دانش‌آموز برای بررسی اثر پوشش برنامه درسی

تحقیقات گذشته

ترجمه آزمون، پوشش برنامه درسی متفاوت، تفاوت‌های فرهنگی

Huang, Wilson & Wang (2016)

18

به‌طور متوسط تفاوت در میزان چیرگی بر یک ویژگی بین دریافت کنند و عدم دریافت‌کنندگان مساعدت در حدود 33 تا 44 درصد است

نمرات سنجش ریاضی در NAEP 2007 برای دانش‌آموزان بدون مساعدت (گروه مرجع)، مساعدت با زمان اضافی، مساعدت با خواندن سؤال‌ها با صدای بلند و مساعدت در گروه‌های کوچک

تفاوت معنادار احتمال چیرگی در ویژگی‌ها در گروه‌های مورد مقایسه با آزمون مانوا انجام شد.

مدل‌های شناختی تشخیصی ماتریس Q که شامل ویژگی‌های زیر بنایی عملکرد در سؤال‌ها است، استخراج ویژگی‌های زیر بنایی از تحقیقات گذشته و ارزیابی  توسط دومتخصص،  محاسبه احتمال چیرگی در ویژگی‌ها با استفاده از مدل RUM

چیرگی در ویژگی‌ها و مهارت‌های زیربنایی برای عملکرد در سؤال‌ها

 

Svetina, Dai & Wang (2017)

19

 


یافته­های پژوهش

به دلیل اهمیت مقایسه­های گروهی نمرات در سنجش­های در مقیاس بزرگ و لزوم هم­ارزی سؤال‌ها برای مقایسه گروه­های مختلف شرکت­کننده در یک آزمون، در طی سال­ها با استفاده از روش­های گوناگون به شناسایی منابع وجود DIF پرداخته شده است. 19 مقاله موردبررسی در این مطالعه در امتداد سال­های 1999 تا 2017 انجام گرفته است. در بیشتر مقالات (12مقاله) به بررسی DIF در نسخه‌های زبانی مختلف یک آزمون پرداخته شده، گروه­های مورد مقایسه دیگر برای بررسی DIF، گروه­های قومی، جنسیتی، گروه­های سنی و گروه­های دریافت‌کننده مساعدت آزمون و گروه­های بدون دریافت مساعدت آزمون است و در یک مقاله از سؤال‌هایی که در پژوهش قبلی دارای DIF شناسایی‌شده­اند استفاده شده است.

    به‌طورکلی منابع یافته شده برای DIF در 7 دسته قرار دارند. دسته­بندی منابع و تعداد مقالاتی که این منابع را به‌عنوان علت DIF موردبررسی قرار داده­اند، در جدول 2 ارائه شده است. به دلیل اینکه معمولاً مقالات چندین عامل را به‌عنوان منبع DIF شناسایی نموده­اند، مجموع ستون تعداد مقالات از 19 بیشتر شده است.

 

جدول (2): دسته­بندی منابع DIF در مقالات مرتبط با منابع و علل DIF

منبع DIF

 

تعداد مقالات

ویژگی‌های سؤال

 

9

عوامل مرتبط با دانش‌آموز(سن داوطلب، جنس، کشور، قومیت، زبان مادری، چیرگی در مهارت‌های زیربنایی برای عملکرد در آزمون)

 

5

مسائل مربوط به انطباق و ترجمه نسخه‌های چندزبانه

 

4

ویژگی‌های فرهنگی

 

3

برنامه درسی

 

2

عوامل مرتبط با آموزش معلم

 

1

کلاس‌های اضافه پس از مدرسه

 

1

 

    منابع DIF مربوط به ویژگی­های سؤال عبارت است از بارشناختی مفهومی سؤال، تفاوت در ساختار منطقی محتوا و قالب سؤال‌ها (مثل سؤال‌های چندگزینه‌ای یا باز پاسخ)، نوع سؤال (انتزاعی یا حقیقی)، تفاوت در طول نسبی دو نسخه، تغییر در دشواری کلمات یا عبارات، کلمات کلیدی که کمک یا مانعی برای حل سؤال هستند، کارکرد افتراقی گزینه­های انحرافی سؤال، محتوای سؤال‌ها ازجمله، عبارات منفی، اصطلاحات، استعاره­ها و سؤال‌ها با طولی که ممکن است در حافظه آزمودنی‌ها با توانایی پایین باقی نماند، است. همچنین منابع DIF شناسایی‌شده در مسائل مربوط به ترجمه و انطباق آزمون شامل نقص در ترجمه، تفاوت دستوری بین زبان­ها، تفاوت­های معنایی و مسائل زبان‌شناختی است.

    در مورد روش­های شناسایی منابع DIF، تعداد 14 مقاله از طریق تحقیقات گذشته منبع DIF را شناسایی نموده­اند، که از آن جمله می­توان استفاده از نظر 5 مترجم و 3 کارشناس زبان (Allalouf, Hambleton, Sireci,1999)، از نظر گروهی از متخصصان (Elosua, López-jaúregui,2007, Ercikan and et al,2010)  ،از تحلیل محتوای پروتکل تفکر با صدای بلند در مورد مرورگران حرفه­ای با استفاده از روش­های استاندارد تحلیل محتوا (Roth and et al,2013) و از تفسیر شرکت­کنندگان در آزمون برای شناسایی منابع DIF (Benítez, Padilla,2014) استفاده شده است. همچنین از روش مدل­های ترکیبی[5] IRT برای شناسایی ابعاد ثانویه مزاحم استفاده شده است، چندبعدی بودن آزمون یکی از علت­های اصلی DIF است، یافته­های این تحقیق سه طبقه مکنون را نشان می­دهد که در توانایی اندازه­گیری در آزمون جبر و درک مطلب، متفاوت هستند (Cohen, Bolt, 2005).

    پس‌ازاینکه منابع DIF شناسایی شد، از راهبردهای آماری و یا غیر آماری برای بررسی تأثیر منابع شناسایی‌شده، بر DIF استفاده شده است. در 10 مقاله از راهبردهای آماری، در 5 مقاله راهبردهای غیر آماری، در یک مقاله، هم از تحلیل­های آماری و هم از تحلیل محتوا استفاده شده است و طرح پژوهش یک مقاله هم طرح ترکیبی، شامل ترکیب روش­های کیفی و کمی است. در دو مقاله هم راهبردی برای بررسی تأثیر منابع DIF معرفی نشده و هدف آن‌ها تنها ارائه منابع احتمالی برای DIF بوده است. در تمامی مقالاتی که از راهبردهای بررسی تأثیرگذاری DIF استفاده نموده­اند، به‌جز گروه­های سنی، ویژگی­های فرهنگی (Elosua and et al., 2007)، قالب­بندی و ارائه بصری، وضوح و هدایت زبانی (Ercikan and et al., 2010) در تأثیر منابع DIF به تأیید رسید.

راهبردهای آماری برای بررسی تأثیر منابع DIF

در این بخش راهبردهای به کارگرفته شده در مطالعات به ترتیب زمانی قرار داده شده­اند. برای بررسی تأثیر قالب سؤال (چهارگزینه‌ای در مقابل بازپاسخ) و نوع سؤال (انتزاعی در مقابل حقیقی) در DIF از طرح مطالعه DIF تصادفی و استفاده از SIBTEST برای آزمون اثرات علل DIF استفاده شده است. نتایج، اثر کوچک اما معنادار و ثابت در میان سؤال‌ها، از قالب سؤال و اثر بزرگ و باثبات کمتری در نوع سؤال را نشان داد و اثرات متقابل شامل اثرات سؤال و عوامل معنی­دار نبود (Bolt, 200). یکی از راه­هایی بررسی ویژگی­های سؤال مضنون به DIF از طریق مطالعه DIF تصادفی است. در ساده­ترین شکل، چنین مطالعه­ای شامل اجرای دو نسخه از سؤال‌های یکسان در دو نمونه تصادفی از آزمودنی­هاست، در یک نسخه عوامل مضنون به DIF حاضر هستند (یعنی نسخة آزمایشی) و در نسخه دیگر عوامل مضنون وجود ندارند (یعنی نسخه کنترل) (Schmitt, Holland, Dorans,1993). سهم عامل موردمطالعه در DIF با مقایسه مقدار DIF مشاهده شده در دو نسخه ارزیابی می­شود. مطالعه DIF تصادفی ممکن است بهترین کاربرد برای مطالعه عواملی باشد که ابعاد اصلی نیستند، یا اثرشان بعید است در بیش از یک سؤال در آزمون مشاهده شود، یا تأثیر نهایی آن‌ها در عملکرد سؤال نسبتاً کوچک است. نکته مهم در مطالعات DIF تصادفی، بررسی ثبات اثر یک عامل تصادفی در میان سؤال‌ها است. 

یکی از راهبرد مورداستفاده برای بررسی تأثیر کلاس­های اضافه پس از مدرسه در نمرات ریاضی تیمز بین ایالات متحده و تایوان، استفاده از مدل­سازی DIF ترتیبی (رگرسیون لوجستیک) است. نتایج این مطالعه نشان می­دهد که کلاس­های اضافه پس از مدرسه با کاهش در مقدار و تعداد سؤال‌های DIF مرتبط است. معمولاً در کشورهای آسیای شرقی آزمون ورودی متمرکز ملی برای ورود به دبیرستان یا دانشگاه وجود دارد، برای اطمینان از برد رقابتی در این آزمون­های ورودی، دانش‌آموزان برای تکمیل آموزش رسمی از آموزش خصوصی کمک می­گیرند، به همین دلیل کلاس­های اضافه می­تواند عاملی برای DIF بین کشورها باشد (Amery, Ercikan, 2006).

دیگر راهبرد مورداستفاده برای بررسی تأثیر گزینه­های انحرافی بر DIF در بانکز (2009) به این صورت است که ابتدا آزمون SIBTEST انجام می­شود تا تعیین نماید آیا هر گروه مقایسه شده در احتمال پاسخ صحیح به سؤال‌های آزمون متفاوت است. دوما روش برازش مدل لگاریتم خطی مورداستفاده قرار گرفت تا تعیین کند آیا سؤال‌هایی که DIF متوسط یا زیاد دارند ارتباط معناداری با نمره کل، عضویت گروهی و گزینه­های انحرافی نشان می­دهند. سوم نسبت­بخت­ها محاسبه می­شود برای تعیین اینکه آیا گروهی که سؤال‌های DIF بر علیه آن است دارای شانس بیشتری برای انتخاب گزینه پیچیده انحرافی نسبت به سایر گزینه­های انحرافی در مقایسه با دیگر گروه­ها با توانایی مشابه، است. سؤال‌هایی که از هر سه مرحله عبور کنند، به‌عنوان سؤال‌هایی که نتایج DIF آن مربوط به (کارکرد افتراقی گزینه انحرافی) DDF است شناسایی می­شوند. نتایج نشان می­دهد چهار سؤال دارای DIF متوسط بر علیه زنان در آزمون UE بود و یک سؤال DIF متوسط برعلیه سفیدپوستان داشت و این آزمودنی­ها به‌طور افتراقی به سمت گزینه انحرافی "بدون اشتباه" کشیده شدند. هیچ‌کدام از سؤال‌های آزمون MP از هر سه مرحله گذر نکردند (Banks, 2009).

    یک روش رایج وابسته به مدل برای تشخیص DIF در IRT، آزمون نسبت درستنمایی است که توابع درستنمایی برای ارزیابی تفاوت پارامترها در گروه­ها، مقایسه می­شوند (Thissen, Steinberg,Gerrard,1986; Thissen, Steinberg, Wainer,1988,1993). برای مطالعه گزینه‌های انحرافی به‌عنوان عاملی برای DIF در سؤال‌های چندگزینه­ای تحت مدل دو پارامتری آشیانه­ای چندگروهی، سه مدلِ سلسله مراتبی آشیانه­ای با محدودیت­های متفاوت در مطالعه دیگر نظر گرفته شد: 1- یک مدل فشرده که در آن پارامترهای سؤال برای یک سؤال در تمامی گروه­ها برابر در نظر گرفته شده، 2- یک مدل افزوده شده که در آن تنها پارامترهای گزینه انحرافی سؤال محدود شدند که در تمام گروه­ها مساوی باشند، 3- مدل افزوده دوم که در آن هیچ‌کدام از پارامترهای سؤال (پارامترهای گزینه انحرافی و گزینه درست) محدود نشدند که مساوی باشند. با محاسبه آماره  برای مقایسه مدل فشرده و افزوده اول (آزمون1) می­توان آزمود که آیا DIF وجود دارد. با محاسبه  برای مقایسه مدل­های افزوده اول و دوم (آزمون 2) می­تواند ارزیابی کرد که آیا DIF مشاهده شده از رد آزمون1 به‌دلیل حضور DDF اتفاق افتاده است. این پژوهش، مطالعه­ای شبیه‌سازی به‌منظور سنجش عملکرد آماره نسبت درستنمایی برای شناسایی DDF تحت مدل دو پارامتری آشیانه­ای است (Suh, Bolt, 2011).   

    راهبردی برای اثر انطباق نسخه­های زبانی و بارهای شناختی سؤال بر DIF، تحلیل کارکرد افتراقی دسته (DBF) با استفاده از SIBTEST است. سؤال‌هایی که تصور می­شود منابع بالقوه DIF هستند توسط متخصصان شناسایی می­شوند. سپس این سؤال‌ها به‌صورت دسته در می­آیند و تحلیل DBF در مورد آن‌ها انجام می­شود. در مطالعه­ای که از این راهبرد استفاده نمود DBF معناداری یافته نشد بنابراین فرضیه اثر ترجمه و انطباق به‌عنوان منبع DIF در این مجموعه داده مورد تأیید قرار نگرفت. این مورد می­تواند مثالی از سؤال‌های DIF باشد که به‌طور هماهنگ عمل می­کنند تا در سطح دسته­بندی شده لغو شوند، پدیده­ای که لغو DIF نامیده می­شود. اثر بارهای شناختی سؤال بر DIF در این مطالعه تأیید شد (Sandilands and et al., 2013).

    راهبرد مورداستفاده برای بررسی تأثیر ویژگی­های معلم و دانش‌آموز در DIF به این صورت است که تحلیل ابتدا با تعیین ابعاد ساختار داده­های آزمون و بررسی تعداد طبقه­های مکنون انجام می‌گیرد. سپس DIF در میان طبقه­های مکنون بررسی می­شود. در انتها منابع DIF طبقه­های مکنون با استفاده از دو روش بررسی می­شود. ابتدا به‌طور نظام­مند سؤال‌های DIF را بر مبنای جنبه‌های اصلی گروه­بندی نموده، دوما از مدل پیش‌بینی برای بررسی عوامل مرتبط با دانش­آموز (کشو، سن و جنس) و معلم (آموزش مهارت­های رمزگشایی، گروه­بندی­ها با توانایی مشابه، آموزش گروه­های کوچک) که می­تواند به‌طور بالقوه زمینه­ساز DIF باشد، استفاده می­شود. مدل­سازی طبقه مکنون با استفاده از سه روش آماری: تابع تشخیص توصیفی، رگرسیون لوجستیک چندجمله­ای و تحلیل رگرسیون لوجستیک چندجمله­ای چند سطحی انجام می­گیرد. توافق در سه روش آماری برای سه متغیر یافته شد: میانگین مقادیر قابل‌قبول، مقایسه بین هنگ­کنگ و قطر، و سن. معنی‌داری دیگر متغیرها، مقایسه دو کشور دیگر، جنسیت و آموزش مهارت­های رمزگشایی و گروه‌های کوچک، به روش مورداستفاده برای بررسی منابع DIF طبقه مکنون وابسته است (Oliveri and et al., 2013).

    در مطالعه­ای دیگر با استفاده از ادغام نتایج به‌دست‌آمده از تحلیل کمی DIF و مصاحبه شناختی، تفسیرهای شرکت­کنندگان به‌وسیله تم­ها و زیرتم­ها که از روایات آن‌ها به‌دست‌آمده، مقایسه شدند. نتایج این مطالعه نشان‌داد سؤال‌ها با DIF فراگیر منجر به فرایندهای پاسخ مختلف به عناصر موجود در متن سؤال می­شود، یعنی افراد هنگامی‌که به این سؤال‌ها پاسخ می­دهند، درباره مسائل مختلفی فکر می­کنند. بنابراین می­توان گفت سؤال‌ها با DIF فراگیر حاوی عناصر مفهومی متفاوت است که دارای معانی مختلفی هستند درحالی‌که سؤال‌های با DIF غیرفراگیر، به‌دلیل تجارب مختلف مرتبط با زمینه یا فرهنگ، متفاوت هستند. نتایج همچنین نشان‌دهنده وجود مشکلات احتمالی در انطباق، ناشی از استفاده از اصطلاحاتی است که در دو نسخه معادل نیستند (Benítez, Padilla, 2014).

    برای بررسی تأثیر زبان مادری آزمودنی بر DIF، از جزءبندی بازگشتی مبتنی برمدل[6] (MBRP) برای بررسی DIF یکنواخت استفاده شده است، نتایج نشان‌ داد که DIF بر مبنای زبان مادری در چندین سؤال پیرلز وجود دارد اما الگوی DIF در همه کشورها یکسان نیست (Finch and et al., 2016).   

    به‌منظور بررسی اثربخشی سه روش پیاده‌سازی MIMIC، نقطه شروعِ ثابت، نقطه شروع آزاد و روش جدید نقطه شروعِ آزاد متوالی(MIMIC) مطالعه شبیه­سازی برای شناسایی کارکرد افتراقی یکنواخت و غیریکنواخت سؤال برای چندگروه، انجام شده است. نتایج نشان می­دهد روش نقطه شروعِ به‌طور متوالی آزاد خطای نوع اول و توان آزمون عالی فراهم می­نماید و نتایج آن مشابه با روش نقطه شروع آزاد ایده­آل است که از طرح لنگر فاقد DIF استفاده می­کند و خیلی بهتر از روش نقطه شروع ثابت است که از همه سؤال‌ها به‌جای سؤال‌های موردمطالعه به‌عنوان لنگر استفاده می‌کند (Chun and et al., 2016).

    در بررسی تأثیر چیرگی در ویژگی­ها و مهارت­های زیربنایی برای عملکرد در سؤال‌ها، مدل­های شناختی تشخیصی ماتریس Q که شامل ویژگی­های زیربنایی عملکرد در سؤال‌ها است تشکیل‌شده است و تفاوت معنادار احتمال چیرگی در ویژگی­ها در گروه­های مورد مقایسه، با آزمون مانوا انجام شد و نتایج نشان داد که به‌طور متوسط تفاوت در میزان چیرگی بر یک ویژگی بین دریافت­کننده و عدم­دریافت‌کنندگان مساعدت در حدود 33 تا 44 درصد است (Svetina and et al., 2017).

راهبردهای غیر آماری برای بررسی تأثیر منابع DIF

راهبردی که برای شناسایی انطباق نسخه­های آزمون به‌عنوان منبع DIF به­کارگرفته شده است، مرور قضاوتی با مترجمان چندزبانه و روایی متقاطع DIF در گروه­های چندگانه است، دو شاهد برای حمایت از این فرض که انطباق منبعی برای DIF است به­کار گرفته شد، اول شناسایی تفاوت­ها در معانی، ساختار و قالب بین نسخه­های ترجمه شده سؤال‌ها در مرور قضاوتی و دوم روایی متقاطع DIF در دو مقایسه اضافه است (Ercikan, 2002). راهبرد دیگر برای سنجش منابع یافته شده برای DIF در انطباق نسخه­های چندزبانه آزمون، تشکیل کمیته دومی از متخصصان است، این کمیته شامل متخصصان زبانشناسی و معلمانی است که به‌طور مستقل از اولین کمیته (برای شناسایی منابع DIF) کار می­کنند. همچنین برای بررسی تأثیر پوشش برنامه درسی به‌عنوان منبعی برای DIF، توزیع DIF سؤال‌ها به‌وسیله موضوعات درسی بررسی شد. نتایج این پژوهش نشان داد، 23 درصد سؤال‌های DIF ریاضی و 13 درصد سؤال‌های DIF علوم در تفاوت در برنامه درسی دارند و 27 درصد در ریاضی و 37درصد سؤال‌های در علوم دارای DIF به دلیل انطباق نسخه­های آزمون است و 50 درصد سؤال‌ها به دلیل انطباق نسخه­های چندزبانه آزمون تیمز و برنامه درسی نبود (Elosua, López-jaúregui, 2007).

    راهبرد مورداستفاده برای تأثیر سن افراد در DIF، تحلیل محتوای سؤال‌هایی است که به‌وسیله متخصصان، دارا یا فاقد DIF شناسایی‌شده است. قضاوت متخصصان به‌طور واضح منابع را برای سؤال‌های دارای DIF مشخص نمی­کند. در این مطالعه، آزمون سوگیری علیه گروه­های سنی ندارد (Ardeshir, Antony, 2007).

    در مطالعه دیگر مشخصه­های از سؤال‌ها که به‌وسیله مرور متخصصان به‌عنوان منبع DIF بین دانش­آموزان از دو زبان، شناسایی‌شده است را به‌وسیله تأیید شواهد تجربی از پروتکل تفکر با صدای بلند بررسی نمودند. خواندن با صدای بلند برای درک اشتباه خواندن سؤال ضروری بود، هنگامی‌که دو نسخه زبانی دقیقاً معنای یکسانی داشتند اما دارای واژگان مستعد خطا هستند. منابع شناسایی ‌شده در این مطالعه کلمات کلیدی سؤال که ممکن است کمک یا مانع برای حل سؤال باشد، وضوح و هدایت زبان، قالب­بندی و ارائه بصری، تفاوت­های زبانی غیرمنتظره (اشتباه خواندن کلمه توسط دانش­آموزان فرانسوی‌زبان) است که به‌جز قالب­بندی و ارائه بصری، وضوح و هدایت زبانی، پروتکل تفکر با صدای بلند برای سایر منابع، شواهد تأییدی فراهم نمود (Ercikan and et al., 2010).

    در مطالعه دیگر برای بررسی تأثیر ویژگی‌های سؤال بر DIF از تحلیل محتوای تعقیبی سؤال‌ها کمک گرفته‌است، مثلاً توضیح احتمالی برای DIF غیریکنواحت مشاهده شده بر مبنای جنسیت این است که مردانی با توانایی پایین احتمالاً تمایل به ریسک داشتند و الگوی موفقیت­های آنان با خوش‌شانسی در سؤال‌های آزمون با گزینه­های غیر جذاب بوده‌است (Aryadoust and et al., 2011).

    به‌دلیل اینکه مقایسه بین دو گروه با زبان، فرهنگ و برنامه درسی یکسان، زبان و فرهنگ مشابه اما برنامه درسی متفاوت، زبان و فرهنگ و برنامه درسی متفاوت، امکان­پذیر شود، چهار گروه از دانش­آموزان از ایالت متحده، کانادا، چین و هنک­کنگ انتخاب شدند. راهبرد بررسی تأثیر منابع شناسایی‌شده شامل ترجمه آزمون، پوشش برنامه درسی متفاوت و تفاوت­های فرهنگی، استفاده از یک شخص دو زبانه برای بررسی اثر ترجمه (به‌دلیل محرمانه بودن اطلاعات تنها یک نفر انتخاب شده) است، استفاده از یک پانل شامل 10 نفر متخصص بررسی محتوا (معمولاً معلمانی که با محتوای برنامه درسی آشنایی دارند) و تعداد 15دانش‌آموزان برای بررسی اثر پوشش برنامه درسی، برای  بررسی اثر تفاوت فرهنگی بر DIF است. نتایج تحقیق نشان داد که جدی­ترین عامل DIF در بین سه عامل نام برده‌شده، پوشش افتراقی برنامه­های درسی است و آشنایی با محتوای آزمون به ‌طور افتراقی نیز در DIF سهم داشته‌است. جدی­ترین DIF بین دانش‌آموزان چین و ایالات متحده وجود دارد و بین دانش‌آموزان انگلیسی‌زبان کمترین‌DIF نشان داده‌شد (Huang and et al., 2016).

 

بحث و نتیجه­گیری

یافته­های مرور مقالات در مورد منابع DIF نشان داد، برای سازندگان آزمون­ها یکی از اهداف اصلی در تحقیق DIF، درک بهتر علل DIF در سؤال‌های آزمون است. محدودیت مطالعات DIF این است که آن‌ها صرفاً بر مبنای مشاهدات هستند و در نتیجه تنها اجازه استنباط­های مربوط به رابطه بین ویژگی­های سؤال و DIF را می­دهند (Schmitt and et al.,1993). به همین دلیل بیشتر مطالعات انجام شده به بررسی ویژگی­های سؤال به‌عنوان منبعی برای DIF پرداخته­اند. سازندگان آزمون لازم است در هنگام ساخت آزمون توجه کامل به ویژگی­های سؤال نمایند خصوصاً اینکه تقریباً در تمامی مقالات موردبررسی، معناداری این عوامل تأیید شده است. راهکارهای مختلفی برای جلوگیری از تأثیر ویژگی­های سؤال به‌عنوان منابع DIF در مقالات اشاره شده است. به‌عنوان‌مثال بررسی کارکرد افتراقی گزینه انحرافی (DDF) ضروری است زیرا با ترکیب DIF و DDF تحلیل کامل­تری از کارکرد سؤال ارائه می­شود. ویژگی دیگر سؤال، بارهای شناختی است که منابع اساسی از DIF را نشان می­دهد. با توجه به این منبع DIF، سازندگان آزمون بهتر است آزمون­هایی طراحی کنند که شامل سؤال‌هایی با نسبت متعادل بارهای شناختی بالاتر نسبت به بارهای شناختی پایین­تر باشند. محتوای سؤال‌ها همچنین می­تواند علت احتمالی DIF باشد. برخی از عناصر در سؤال‌های داری DIF ممکن است برای آزمودنی­های با توانایی پایین دشوارتر باشد، ازجمله، عبارات منفی، اصطلاحات، استعاره­ها و سؤال‌ها با طولی که ممکن است در حافظه آزمودنی­ها با توانایی پایین باقی نماند. تفاوت­های زبانی ممکن است به‌وسیله آزمودنی­ها با توانایی بالا بهتر مدیریت شود، آزمودنی­هایی که ممکن است با استفاده از اشارات زمینه­ای یا زبانی، به راهبردهای استنباطی متوسل شوند. عامل حدس زدن و طول سؤال، سازه­های مزاحم هستند و روایی استدلال آزمون را کاهش می­دهند. طراحان آزمون باید احتمال حدس را با افزایش گزینه‌های سؤال به چهار یا حتی پنج گزینه محدود نمایند.

    در مطالعات مربوط به انطباق نسخه‌های ترجمه شده و برنامه درسی، محققان اعلام می­کنند تنها در نظر گرفتن انطباق نسخه­های زبانی به‌عنوان منبع DIF کافی نیست، بلکه عوامل دیگری هم که می­تواند به‌طور بالقوه DIF را توضیح‌ دهد، بهتر است در نظر گرفت. از این جمله می­توان به تفاوت‌های روش­های آموزشی، تفاوت­های فرهنگی و محدودیت در تعاریف موضوعات اشاره نمود (ارسی کان، 2002). یکی از محدودیت­های مطالعات انطباق آزمون این است که تنها شامل دو زبان است. تکرار این مطالعات با استفاده از زبان­های دیگر و انجام تحلیل­های همزمان DIF چندگانه بین چندین زبان، راه‌حل پیشنهادی برای تحقیقات آینده است. تحقیقات بیشتر در مورد علل DIF در سؤال‌های ترجمه شده می­تواند بر اساس ایده­های زیر طراحی شود: 1- تمرکز بر سؤال‌هایی که نشان‌دهنده DIF نیستند 2- قرار دادن پرسشنامه­ای برای متقاضیان در هر دو گروه که از آن‌ها می‌خواهد درباره پاسخ­شان به‌ سؤالی خاص توضیح‌دهند. تحلیل توضیحات افرادی که به سؤال دارای DIF پاسخ نادرست دادند ممکن است به درک بهتر دلیل DIF بینجامد (Amery,Ercikan, 2006).

اگر علیه دانش­آموزانی سوگیری به دلیل فقدان موضوع سؤال در برنامه درسی­شان ایجاد شود، احتمال دارد سوگیری به‌وسیله طراحی مناسب سؤال از بین برود. از محققان و آموزگاران خواسته می­شود در طراحی سؤال به چند مورد مهم فکر کنند: دانش مشترک و فرآیندهای مورد انتظار از دانش­آموز بدون در نظر گرفتن کشور مبدأ، چیست؟ چه علومی دانش­آموزان باید بداند تا بتوانند به‌عنوان نیروی کار جهانی در آینده کار کنند؟ چه مواد آموزشی باید در برنامه­های درسی جدید قرار داده شود تا به توسعه توانایی علمی و مهارت دانش­آموز که موردنیاز جامعه مدرن است، کمک کند؟ تفاوت فرهنگی یکی دیگر از منابع بالقوه DIF است. تنها جنبه­ای که مطالعات حاضر در این زمینه یافته­اند، آشنایی متفاوت با محتوای آزمون بوده است.

    منابع متعددی برای DIF وجود دارد و بسته به نوع و هدف گروه­های موردسنجش و مقایسه، معنا و منابع DIF ممکن است متفاوت باشد. در نظر داشته باشید که یک متغیر برای منبع DIF در محتوای خاص و برای یک هدف خاص ممکن است منبع مناسبی برای DIF در سایر موارد نباشد و ویژگی­های فرهنگی یک منبع ذاتی DIF نیست، همان‌طور که تأثیر ویژگی­های فرهنگی به‌عنوان منبعی برای DIF تأیید نشد (Elosua, López-jaúregui, 2007). تحقیقات آینده می­تواند بر متغیرهایی که به‌طور مستقیم مربوط به زمینه­های آزمون است، مثل تفاوت در دانش تئوری دانش‌آموزان، مهارت­های آزمون دادن، استفاده از ماشین‌حساب یا نگرش نسبت به ریاضیات، متمرکز شود. در سنجش­های چندزبانه، هم­ارزی سؤال‌ها برای مقایسه گروه­ها بیشتر توسط نسخه­های چندزبانه آزمون تحت چالش قرار می‌گیرد. همچنین لازم است در نظر داشته باشید که تأثیر این عوامل بر DIF بسته به اینکه آیا آزمون یک آزمون روان‌شناختی، پیشرفت تحصیلی یا آزمون کسب مجوز است، متفاوت است.

    در مورد روش­های شناسایی منابع DIF، بیشتر مقالات با استفاده از تحقیقات گذشته به شناسایی منابع پرداخته­اند و همچنین برخی مقالات از نظر متخصصان استفاده نموده­اند، هرچند استفاده از نظر متخصصان برای شناسایی منابع DIF بسیار مؤثر است و تعداد زیادی از مطالعات مورد بررسی از این شیوه استفاده نموده­اند ولی پروتکل تفکر با صدای بلند منابعی از DIF را نشان می­دهد که به‌وسیله مرور متخصصان مشخص نشده است. از طرفی سؤال‌هایی که توسط متخصصان دارای DIF شناسایی نشده در پروتکل تفکر با صدای بلند قرار نمی­گیرد، بنابراین امکان بررسی تفاوت­های گسترده بین گروه­ها وجود ندارد. بااین‌حال در آزمون­ها با تعداد زیادی از سؤال‌ها، ورود همه سؤال‌ها در پروتکل تفکر با صدای بلند برای بررسی مقایسه­پذیری سازه عملی نیست. محدودیت پروتکل تفکر با صدای بلند، در نمونه محدود دانش­آموزان مورداستفاده در مطالعه است. با تعداد نمونه خیلی کوچکی که به‌طورمعمول در این پروتکل استفاده می­شود، نمی­توان انتظار داشت که، نماینده جمعیت مربوطه باشد (Ercikan and et al., 2010).   

    استفاده از روش طبقه­های مکنون برای شناسایی منابع DIF مفید است، ازآنجایی‌که چندبعدی بودن آزمون­ها علت اصلی DIF است، درک چندبعدی بودن آزمون و اثرات این ابعاد بر DIF، توانایی تفسیر دقیق­تر نمرات آزمون، کنترل بیشتر بر ابعاد مزاحم مرتبط و کاهش تأثیر آن‌ها را فراهم می­نماید (Cohen, Bolt, 2005). یکی از محدودیت­های مطالعه DIF، فقدان اظهارات صریح در مورد ابعاد اولیه و ثانویه مربوط به سؤال‌های آزمون از سازندگان آزمون است، که اگر ابعاد آزمون مشخص بود، می­توانست در فرضیه­سازی DIF در سؤال‌های چندبعدی کمک کند و سپس امکان آزمون فرضیه­ها به‌طور کامل به‌وسیله رویکرد تحلیل DIF مبتنی بر چندبعد، علاوه بر روش شناسایی DIF با SIBTEST استات[7]، وجود داشت (Roussos, Stout, 2004).

     به‌طورکلی مرور مقالات نشان می­دهد که مطالعات انجام شده یا اینکه تنها بر شناسایی منابع DIF تمرکز داشته­اند و راهبردی برای بررسی تأثیر منابع DIF شناسایی‌شده به کار نگرفته­اند و یا تمرکز اصلی مطالعه در راهبردی برای بررسی تأثیر منابع DIF شناسایی‌شده در مطالعات گذشته یا منابعی که توسط متخصصان یافته شده، بوده است، این مسئله از نقاط ضعف مطالعات است، انجام مطالعه­ای که هم بر شناسایی منابع DIF و هم بر انتخاب راهبرد مناسب برای بررسی تأثیر منابع شناسایی‌شده تمرکز داشته باشد، مطالعه­ای کامل در زمینه منابع DIF محیا خواهد نمود.

     در راهبردهای کمی برای بررسی تأثیر منابع DIF مثل مدل­سازی رگرسیونی، لازم است توجه کنیم که توفیق استفاده از این روش­ها در انتخاب دقیق متغیرها، هم از لحاظ نظری و هم از نظر آماری است. همچنین مدل­سازی MIMIC می­تواند تغییرات را در پاسخ سؤال‌هایی که با سازه زیربنایی ارتباط ندارد، مشخص نماید، اما اطلاعاتی درباره اینکه چرا این تغییرات ممکن است وجود داشته باشد ارائه نمی‌دهد. اگرچه مدل­سازی MIMIC قادر به سنجش تفاوت­ها در مورد دشواری سؤال (DIF یکنواخت) است اما نمی­سنجد که آیا پارامتر تشخیص سؤال‌ها در گروه­ها یکسان است (DIF غیریکنواخت). در مورد راهبردهای غیر آماری مورداستفاده باید در نظر داشت که در شناسایی منابع DIF با استفاده از مرور قضاوتی، تفسیرها و تلاش­های برای شناسایی منابع DIF می­تواند وابسته به اندیشه فرد باشد. این مسئله حادتر می­شود اگر مرورگران بدانند که کدام سؤال‌ها به‌طور افتراقی عمل می­کنند. منابع چندگانه در بررسی منابع DIF و فرایندهای مرور قضاوتی باید در نظر گرفته شود، با تمرکز بر یک منبع انتظار نداشته باشید که منبع DIF را برای همه سؤال‌هایی که دارای DIF شناسایی‌شده­اند، توضیح دهد.

    همچنین مرور تخصصی سؤال‌ها باید به‌وسیله افرادی که در مورد یادگیری دانش­آموزان آگاه هستند و تخصص فرهنگی یا زبانی دارند انجام شود، این روش رایج­ترین روش برای شناسایی خواصی (مثل محتوا، قالب، زمینه و زبان) از سؤال‌های دارای DIF آزمون است. بااین‌حال حتی اگر مرور تخصصی بتواند مشخص کند که آیا برخی جنبه­های سؤال‌های آزمون به DIF ارتباط دارد، نمی‌تواند منابع DIF را شناسایی‌کند. به‌علاوه مرور تخصصی توضیح نمی‌دهد که چگونه مشخصات سطحی سؤال ممکن است منجر به کارکرد افتراقی بین گروه­های آزمودنی شود. برای پاسخ به سؤال‌های چگونه و چرا لازمست اثر متقابل زبان سؤال‌های آزمون و فرایند تفکر آزمودنی درک شود.

    در نهایت سنجش کارکرد افتراقی سؤال در روایی نمرات آزمون مسئله­ای کلیدی است. با توجه به افزایش وابستگی سیاست‌گذاران آموزشی بر ارزیابی­های بین‌المللی مانند آزمون‌های تیمز و پیرلز و آزمون­های ملی مثل آزمون‌های استخدامی و آموزش عالی، عدم‌توجه به منابع DIF می­تواند منجر به استنباط­هایی اشتباه در مقایسه نمرات آزمون­ها شود. سیاست‌گذاران باید هنگام تصمیم­گیری در مورد برنامه درسی، منابع یا آموزش بر مبنای هر مقایسه مستقیم با استفاده از سؤال‌های آزمون­ها، بسیار مراقب باشند. روایی مقایسه بین گروه­ها همیشه باید قبل از مقایسه نمرات، بررسی شود.

 

پیشنهادها

1- سازندگان آزمون لازم است در هنگام ساخت آزمون توجه کامل به ویژگی­های سؤال نمایند خصوصاً اینکه تقریباً در تمامی مقالات موردبررسی، معناداری این عوامل تأیید شده است و بهتر است آزمون­هایی طراحی کنند که شامل سؤال‌هایی با نسبت متعادل بارهای شناختی بالاتر نسبت به بارهای شناختی پایین­تر باشند.

2- یکی از محدودیت­های مطالعات انطباق آزمون این است که تنها شامل دو زبان است. تکرار این مطالعات با استفاده از زبان­های دیگر و انجام تحلیل­های همزمان DIF چندگانه بین چندین زبان، راه‌حل پیشنهادی برای تحقیقات آینده است.

3- تحقیقات آینده می­تواند بر متغیرهایی که به‌طور مستقیم مربوط به زمینه­های آزمون است، مثل تفاوت در دانش تئوری دانش­آموزان، مهارت­های آزمون دادن، استفاده از ماشین‌حساب یا نگرش نسبت به ریاضیات، متمرکز شود. در سنجش­های چندزبانه، هم­ارزی سؤال‌ها برای مقایسه گروه­ها بیشتر توسط نسخه­های چندزبانه آزمون تحت چالش قرار می­گیرد.

4- اظهارات صریح در مورد ابعاد اولیه و ثانویه مربوط به سؤال‌های آزمون توسط سازندگان آزمون می­تواند در فرضیه­سازی DIF در سؤال‌های چندبعدی کمک کند و امکان آزمون فرضیه­ها را به‌طور کامل فراهم نماید.

5- انجام مطالعه­ای که هم بر شناسایی منابع DIF و هم بر انتخاب راهبرد مناسب برای بررسی تأثیر منابع شناسایی‌شده تمرکز داشته باشد، مطالعه­ای جامع در زمینه منابع DIF محیا خواهد نمود.



[1]. construct-irrelevant

[2]. Linn-Harnisch

[3] Post hoc

[4] diversity

[5]. Mixture

[6]. model-based recursive partitioning

[7]. Stout

Albano, A. D., & Rodriguez, M. C. (2013). Examining differential math performance by gender and opportunity to learn. Educational and Psychological Measurement, 73(5), 836–856.
Allalouf, A., Hambleton, H. K., & Sireci, S. G. (1999). Identifying Causes of DIF in Translated Verbal Items. Journal of Educational Measurement. 36(2). 185-198.
Amery D. Wu. &  Ercikan K. (2006). Using Multiple-Variable Matching to Identify Cultural Sources of Differential Item Functioning, InternationalJournal of Testing, 6:3, 287-300, DOI: 10.1207/s15327574ijt0603_5.
Angoff, W. H. (1993). Perspective on differential item functioning methodology. In P. W. Holland., & H. Wainer. (Eds.). Differential item functioning (pp. 3–24). Hillsdale, NJ: Erlbaum.
Ardeshir, G., & Antony, J., K. (2007). Differential Item Functioning in Terms of Age in the Certificate in Advanced English Examination , Language Assessment Quarterly, 4(2), 190-222, DOI: 10.1080/15434300701375758
Aryadoust, V., Goh, C. C. M., & Kim, L. (2011). An Investigation of Differential Item Functioning in the MELAB Listening Test, Language Assessment Quarterly, 8(4), 361-385, DOI: 10.1080/15434303.2011.628632
Banks, K. (2009). Using DDF in a Post Hoc Analysis to Understand Sources of DIF, Educational Assessment, 14(2), 103-118, DOI: 10.1080/10627190903035229
Benítez, I., & Padilla, J. (2014). Analysis of Nonequivalent Assessments across Different Linguistic Groups Using a Mixed Methods Approach: Understanding the Causes of Differential Item Functioning by Cognitive Interviewing, Journal of Mixed Methods Research, 8(1), 52-68, DOI: 10.1177/1558689813488245.
Bolt, M. D. (2000). A SIBTEST Approach to Testing DIF Hypotheses Using Experimentally Designed Test Items, Journal of Educational Measurement, 37(4), 307-327.
Chun, S., Stark, S., Kim, E. S., & Chernyshenko, O. S. (2016). MIMIC Methods for Detecting DIF Among Multiple Groups: Exploring a New Sequential-Free Baseline Procedure, Applied Psychological Measurement, 40(7), 486-499.
Cohen, A., & Bolt, D. (2005). A Mixture Model Analysis of Differential Item Functioning. Journal of Educational Measurement. 42, 133 - 148. 10.1111/j.17453984.2005.00007.
 Diamond, R., & Persson, P. (2016). The long-term consequences of teacher discretion in grading of high-stakes tests. National Bureau of Economic Research, 7 (12), 220-227.
Elosua, P., & López-jaúregui, A. (2007). Potential Sources of Differential Item Functioning in the Adaptation of Tests, International Journal of Testing, 7(1), 39-52, DOI: 10.1080/15305050709336857
Ercikan, K. (2002). Disentangling Sources of Differential Item Functioning in Multilanguage Assessments, International Journal of Testing, 2:3-4, 199-215, DOI: 10.1080/15305058.2002.9669493 Ercikan, K. (2008). Limitations in sample to population generalizing. In K. Ercikan & M.W. Roth (Eds.), Generalizing in educational research (pp. 211–235). New York, NY: Routledge.
Ercikan, K., Arim, R., Law, D., Domene, J., Gagnon, F., & Lacroix, S. (2010). Application of Think Aloud Protocols for Examining and Confirming Sources of Differential Item Functioning Identified by Expert Reviews. Educational Measurement: Issues and Practice. 29. 10.1111/j.1745-3992.2010.00173.x.
Ercikan, K., Gierl, M. J., McCreith, T., Puhan, G. & Koh, K. (2004). Comparability of bilingual versions of assessments: Sources of incomparability of English and French versions of Canada’s national achievement tests. Applied Measurement in Education, 17(3), 301–321.
Finch, W. H., Finch, M. E. H., & French, B.F. (2016). Recursive Partitioning to Identify Potential Causes of Differential Item Functioning in Cross-National Data, International Journal of Testing, 16(1), 21-53, DOI: 10.1080/15305058.2015.1039644
Huang, X., Wilson, M., & Wang, L. (2016). Exploring plausible causes of differential item functioning in the PISA science assessment: language, curriculum or culture, Educational Psychology, 36(2), 378-390, DOI: 10.1080/01443410.2014.946890
Li, Y., Cohen, A. S., & Ibarra, R. A. (2004). Characteristics of mathematics items associated with gender DIF. International Journal of Testing, 4(2), 115–136.
Oliveri, M.E. & von Davier, M. (2014). Toward Increasing Fairness in Score Scale Calibrations Employed in International Large-Scale Assessments, International Journal of Testing, 14(1), 1-21, DOI: 10.1080/15305058.2013.825265
Oliveri, M.E., Ercikan, K., & Zumbo, B. (2013). Analysis of Sources of Latent Class Differential Item Functioning in International Assessments, International Journal of Testing, 13(3), 272-293, DOI: 10.1080/15305058.2012.738266
Pellegrino, J.W., Chudowsky, N., & Glaser, R. (2001). Knowing what students know: The science and
design of educational assessment. Washington, DC: National Academy Press.
 
 
Roth, W. M., Oliveri, M. E., Sandilands, D. D., Lyons-Thomas, J., & Ercikan, K. (2013). Investigating Linguistic Sources of Differential Item Functioning Using Expert ThinkAloud Protocols in Science Achievement Tests, International Journal of Science Education, 35(4), 546-576, DOI: 10.1080/09500693.2012.721572
Sandilands, D., Oliveri, M. E., Zumbo, B. D., & Ercikan, K. (2013). Investigating Sources of Differential Item Functioning in International Large-Scale Assessments Using a Confirmatory Approach, International Journal of Testing, 13(2), 152-174, DOI: 10.1080/15305058.2012.690140 Schmitt, A. P., Holland, P. W., & Dorans, N. J. (1993). Evaluating hypotheses about differential item functioning. In P. Holland & H. Wainer (Eds.), Differential Item Functioning (pp. 281-316). Hillsdale, N J: Lawrence Erlbauna.
Suh,Y.,  & Bolt, D. M. (2011). A Nested Logit Approach for Investigating Distractors as Causes of Differential Item Functioning, ournal of Educational Measurement, 48(2), 188-205.
Svetina, D., Dai, S., & Wang, X. (2017). Use of cognitive diagnostic model to study differential item functioning in accommodations, Behaviormetrika, 44, 313-349. https://doi.org/10.1007/s41237-017-0021-0.
Thissen, D., Steinberg, L., & Gerrard, M. (1986). Beyond group mean differences: The concept of item bias. Psychological Bulletin, 99, 118–128.
Thissen, D., Steinberg, L., & Wainer, H. (1988). Use of item response theory in the study of group differences in trace lines. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 147–169).
 Thissen, D., Steinberg, L., & Wainer, H. (1993). Detection of differential item functioning using the parameters of item response models. In P.W. Holland & H.Wainer (Eds.), Differential item functioning (pp. 67–113). Hillsdale NJ: Erlbaum.