mmmlu

vparity

MMMLU (Multilingual MMLU) parity validation subset with 10 tasks per language across 15 languages (150 tasks total). Evaluates language models' subject knowledge and reasoning across multiple languages using multiple-choice questions covering 57 academic subjects.

uvx harbor run -d mmmlu@parity

Tasks (150)

mmmlu-ko-kr-00100
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00100
13975a9
mmmlu-ko-kr-00101
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00101
13975a9
mmmlu-ko-kr-00102
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00102
13975a9
mmmlu-ko-kr-00103
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00103
13975a9
mmmlu-ko-kr-00104
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00104
13975a9
mmmlu-ko-kr-00105
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00105
13975a9
mmmlu-ko-kr-00106
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00106
13975a9
mmmlu-ko-kr-00107
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00107
13975a9
mmmlu-ko-kr-00108
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00108
13975a9
mmmlu-ko-kr-00109
uvx harbor run -d mmmlu@parity -t mmmlu-ko-kr-00109
13975a9
mmmlu-pt-br-00110
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00110
13975a9
mmmlu-pt-br-00111
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00111
13975a9
mmmlu-pt-br-00112
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00112
13975a9
mmmlu-pt-br-00113
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00113
13975a9
mmmlu-pt-br-00114
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00114
13975a9
mmmlu-pt-br-00115
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00115
13975a9
mmmlu-pt-br-00116
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00116
13975a9
mmmlu-pt-br-00117
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00117
13975a9
mmmlu-pt-br-00118
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00118
13975a9
mmmlu-pt-br-00119
uvx harbor run -d mmmlu@parity -t mmmlu-pt-br-00119
13975a9
mmmlu-sw-ke-00130
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00130
13975a9
mmmlu-sw-ke-00131
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00131
13975a9
mmmlu-sw-ke-00132
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00132
13975a9
mmmlu-sw-ke-00133
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00133
13975a9
mmmlu-sw-ke-00134
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00134
13975a9
mmmlu-sw-ke-00135
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00135
13975a9
mmmlu-sw-ke-00136
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00136
13975a9
mmmlu-sw-ke-00137
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00137
13975a9
mmmlu-sw-ke-00138
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00138
13975a9
mmmlu-sw-ke-00139
uvx harbor run -d mmmlu@parity -t mmmlu-sw-ke-00139
13975a9
mmmlu-yo-ng-00140
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00140
13975a9
mmmlu-yo-ng-00141
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00141
13975a9
mmmlu-yo-ng-00142
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00142
13975a9
mmmlu-yo-ng-00143
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00143
13975a9
mmmlu-yo-ng-00144
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00144
13975a9
mmmlu-yo-ng-00145
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00145
13975a9
mmmlu-yo-ng-00146
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00146
13975a9
mmmlu-yo-ng-00147
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00147
13975a9
mmmlu-yo-ng-00148
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00148
13975a9
mmmlu-yo-ng-00149
uvx harbor run -d mmmlu@parity -t mmmlu-yo-ng-00149
13975a9
mmmlu-zh-cn-00120
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00120
13975a9
mmmlu-zh-cn-00121
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00121
13975a9
mmmlu-zh-cn-00122
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00122
13975a9
mmmlu-zh-cn-00123
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00123
13975a9
mmmlu-zh-cn-00124
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00124
13975a9
mmmlu-zh-cn-00125
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00125
13975a9
mmmlu-zh-cn-00126
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00126
13975a9
mmmlu-zh-cn-00127
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00127
13975a9
mmmlu-zh-cn-00128
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00128
13975a9
mmmlu-zh-cn-00129
uvx harbor run -d mmmlu@parity -t mmmlu-zh-cn-00129
13975a9