The article compares two methods used to detect differential item functioning (DIF) of dichotomously scored items: a nonparametric solution based on the Mantel–Haenszel procedure (MH) and a parametric IRT approach with a likelihood ratio test. A Monte Carlo experiment was performed in order to evaluate performance of both statistics in various conditions of DIF uniformity. Results confirmed the theoretical prediction that the MH test has greater statistical power in detecting uniform DIF than the likelihood ratio test and less power than the LR test in cases of non-uniform DIF. Apart of examining statistical power of the test, specific measures of DIF effect size were compared: MH D–DIF and three measures of P–DIF expressed on the item easiness scale.
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Objectives. Presence of differential item functioning (DIF) in psychological measurement tools can indicate the presence of bias between groups. The present study is focused on analysing DIF between males and females in the Slovak version of NEO Five Factor Inventory (NEO-FFI). Sample and settings. The sample consists of 1016 respondents (40,6% males) from Slovakia, with mean age of 25.97 years (SD=13.42). Statistical analysis. For DIF analysis Mantel’s test in DIFAS 5.0 software, ordinal logistic regression and Poly-SIBTEST were used. Results. The final results show 18 items with medium and large uniform DIF, 6 of them identified by all the methods used. One item showing purely non-uniform DIF was identified. Deletion of identified DIF items caused notable change in scale score differences between males and females in Openness to experience scale. Possible factors causing DIF are discussed. Presence of the identified DIF items does not suggest that NEO-FFI is severely biased against males or females. Limitation. Limitation of the present study lies mainly in the general sample. Future studies should verify these findings on age specific samples.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Objectives. Differential item functioning (DIF) can be assessed through multiple methods based on classical test theory or item response theory. The study is focused on comparing items identified as functioning differentially in males and females by Mantel-Haenszel chi-square procedure, logistic regression and SIBTEST method. Sample and settings. The sample consists of 507 Slovak respondents, 258 men (50,9%) and 249 women (49,1%), aged from 18 to 65 years (M=42,44; SD=12,75). Statistical analysis. The correlations between effect sizes of individual methods were computed as well as matching percentages in identified DIF items, matching percentages in items categorized as showing moderate and large DIF, and relative matching percentages in categorization of DIF items before and after purification. Results. The results show strong correlations between individual methods as well as rather good matching percentages in identified DIF items (57,15–100%), which shows medium to high consistency of these methods. Weaker matching percentages were identified in categorization of items by DIF severity. The categorization for logistic regression seems to be especially problematic, since the matching percentage between logistic regression and other methods in items labelled as moderate and large DIF were only 14,29–50%. The matching percentages between Mantel-Haenszel procedure and SIBTEST were 57,15–83,33%. The relative matching percentages are similar. Items showing moderate or large DIF identified by all three methods are present in all three subscales. Limitation. The limitation of this study is particularly the size and diversity of the sample, which is sufficient for conducted analysis, but it would be appropriate to carry out further research on other samples to confirm the findings.
SK
Ciele. Odlišné fungovanie položiek (DIF) možno skúmať prostredníctvom viacerých metód založených na klasickej teórii testov ako aj teórii odpovede na položku. Štúdia je zameraná na porovnanie identifikovaných odlišne fungujúcich položiek skupín mužov a žien, resp. konzistenciu výsledkov Mantel-Haenszelovej procedúry, logistickej regresie a metódy SIBTEST. Výskumný súbor. Výskumný súbor tvorí 507 respondentov zo Slovenska, 258 mužov (50,9 %) a 249 žien (49,1 %), vo veku od 18 do 65 rokov (M = 42,44; SD = 12,75 %). Štatistická analýza. Skúmané boli vzťahy medzi mierami efektu jednotlivých metód, zhoda 574 / Metodické studie v identifikovaných položkách, zhoda v kategorizácii položiek ako stredne závažne a závažne odlišne fungujúcich a relatívna zhoda v tomto zaradení pred a po purifikácii. Výsledky. Boli zistené veľmi silné vzťahy medzi jednotlivými metódami, ako aj pomerne vysoká zhoda v identifikovaných odlišne fungujúcich položkách (57,15–100 %) pri podmienke p < 0,05, čo hovorí o pomerne vysokej konzistencii uvedených metód. Nižšia zhoda bola zistená v kategorizácii identifikovaných položiek podľa závažnosti DIF. Problematická sa zdá byť najmä kategorizácia logistickej regresie, pretože zhoda s ostatnými metódami v označení položiek ako stredne závažne až závažne odlišne fungujúcich bola len 14,29–50 %. Zhoda v tomto kritériu medzi Mantel-Haenszelovou procedúrou a SIBTESTom bola 57,15–83,33 %. Skúmanie relatívnej zhody prinieslo podobné zistenia. Štúdia tiež ukázala, že položky, ktoré boli v zhode všetkých použitých metód zaradené do kategórie stredne závažného a závažného DIF, sa nachádzajú vo všetkých troch subškálach. Obmedzenia štúdie. Limitáciou tejto štúdie je najmä veľkosť a rozmanitosť výskumného súboru, ktorý je pre uskutočnené analýzy dostačujúci, no bolo by vhodné uskutočniť ďalšie výskumy na iných súboroch pre potvrdenie týchto zistení.
Analizowano zróżnicowane funkcjonowanie zadań (DIF) ze względu na wersję arkusza testowego. Zadania wielokrotnego wyboru różniły się między arkuszami kolejnością odpowiedzi. Analizowano zadania z wersji A i B arkusza egzaminu gimnazjalnego z historii i wiedzy o społeczeństwie z 2013 r. Dane pochodziły od uczniów z województw lubelskiego, małopolskiego i podkarpackiego (n = 81 545). W celu detekcji DIF wykorzystano test Mantela–Haenshela, regresję logistyczną oraz standaryzację. Przedstawiono graficzne metody prezentacji DIF. Wyniki analiz wskazują na istotne różnice w funkcjonowaniu zadań między wersjami A i B testu w sytuacji, gdy w jednej wiązce zadań prawidłowa odpowiedź jest oznaczona zawsze tym samym symbolem, np. A, A, A. Taki wzór odpowiedzi nazwano antywzorcem, ponieważ może być uznawany przez uczniów za mało prawdopodobny i w konsekwencji prowadzić do udzielania błędnych odpowiedzi. Sformułowano rekomendacje ważne dla twórców testów.
EN
Differential item functioning (DIF) between different forms of test booklets was analysed. Both test forms shared the same items and only the sequence of options for the multiple choice items differed. Analysis was performed on 2013 data from two forms, A and B of “The history and civic studies” test administered in lower secondary schools in the Lubelskie, Malopolskie and Podkarpackie Voivodeships (n = 81 545). To detect DIF, the Mantel–Haenshel test, logistic regression and standardisation were used. Methods for DIF visualisation were demonstrated. Results indicated meaningful differences in item functioning between test forms, especially with a repeat letter pattern of answer keys on items bundled in testlet when correctly answered, e.g. A, A, A. Such a pattern is named an ‘anti-pattern’, because test takers may consider such a response pattern unlikely and in consequence answer incorrectly. Findings from this study should provide important guidelines for test development.
Dotychczasowe badania sugerują, że w okresie wczesnoszkolnym przy tym samym poziomie umiejętności z zakresu języka ojczystego nauczyciele wyżej oceniają osiągnięcia szkolne dziewczynek niż chłopców. Celem artykułu jest weryfikacja tej hipotezy. Wykorzystano (a) oceny osiągnięć uczniów wystawione przez nauczycieli poza procesem nauczania (dla celów badawczych) i (b) wyniki standaryzowanych testów osiągnięć z języka polskiego. Analizy uwzględniające potencjalną stronniczość pozycji testowych ze względu na płeć ucznia przeprowadzono metodą modelowania wielu wskaźników i wielu przyczyn (MIMIC). Wykorzystano dane pochodzące z ogólnopolskiego badania 4144 uczniów trzeciej klasy szkoły podstawowej. Zgodnie z przewidywaniami, nauczyciele wyżej oceniali osiągnięcia dziewczynek niż chłopców, ale ta różnica zanikła, gdy do modelu analizy włączono wyniki standaryzowanych testów. Okazuje się więc, że nauczyciele potrafią bezstronnie ocenić osiągnięcia szkolne z języka polskiego dziewczynek i chłopców.
EN
Research suggests that primary school teachers grade the reading and writing skills of girls higher than of boys, even when they have the same level of ability. In this article, we try to verify this hypothesis. We analysed (a) teachers’ grades (prepared particularly for the purpose of this research), and (b) achievement test results, which controlled for the differential item functioning due to gender. We used multiple indicators, the multiple causes (MIMIC) model on a representative sample of 4144 Polish third-grade students. Teachers graded girls’ ability levels higher. However, the difference disappeared when we controlled for the test-based ability level. Therefore, we conclude that teachers can grade literacy levels without gender bias.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.