mmmlu
vparityMMMLU (Multilingual MMLU) parity validation subset with 10 tasks per language across 15 languages (150 tasks total). Evaluates language models' subject knowledge and reasoning across multiple languages using multiple-choice questions covering 57 academic subjects.
uvx harbor run -d mmmlu@parityTasks (150)
mmmlu-ar-xy-00000
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000013975a9
mmmlu-ar-xy-00001
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000113975a9
mmmlu-ar-xy-00002
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000213975a9
mmmlu-ar-xy-00003
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000313975a9
mmmlu-ar-xy-00004
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000413975a9
mmmlu-ar-xy-00005
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000513975a9
mmmlu-ar-xy-00006
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000613975a9
mmmlu-ar-xy-00007
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000713975a9
mmmlu-ar-xy-00008
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000813975a9
mmmlu-ar-xy-00009
uvx harbor run -d mmmlu@parity -t mmmlu-ar-xy-0000913975a9
mmmlu-bn-bd-00010
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001013975a9
mmmlu-bn-bd-00011
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001113975a9
mmmlu-bn-bd-00012
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001213975a9
mmmlu-bn-bd-00013
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001313975a9
mmmlu-bn-bd-00014
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001413975a9
mmmlu-bn-bd-00015
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001513975a9
mmmlu-bn-bd-00016
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001613975a9
mmmlu-bn-bd-00017
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001713975a9
mmmlu-bn-bd-00018
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001813975a9
mmmlu-bn-bd-00019
uvx harbor run -d mmmlu@parity -t mmmlu-bn-bd-0001913975a9
mmmlu-de-de-00020
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002013975a9
mmmlu-de-de-00021
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002113975a9
mmmlu-de-de-00022
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002213975a9
mmmlu-de-de-00023
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002313975a9
mmmlu-de-de-00024
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002413975a9
mmmlu-de-de-00025
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002513975a9
mmmlu-de-de-00026
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002613975a9
mmmlu-de-de-00027
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002713975a9
mmmlu-de-de-00028
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002813975a9
mmmlu-de-de-00029
uvx harbor run -d mmmlu@parity -t mmmlu-de-de-0002913975a9
mmmlu-en-us-00030
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003013975a9
mmmlu-en-us-00031
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003113975a9
mmmlu-en-us-00032
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003213975a9
mmmlu-en-us-00033
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003313975a9
mmmlu-en-us-00034
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003413975a9
mmmlu-en-us-00035
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003513975a9
mmmlu-en-us-00036
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003613975a9
mmmlu-en-us-00037
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003713975a9
mmmlu-en-us-00038
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003813975a9
mmmlu-en-us-00039
uvx harbor run -d mmmlu@parity -t mmmlu-en-us-0003913975a9
mmmlu-es-la-00040
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004013975a9
mmmlu-es-la-00041
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004113975a9
mmmlu-es-la-00042
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004213975a9
mmmlu-es-la-00043
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004313975a9
mmmlu-es-la-00044
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004413975a9
mmmlu-es-la-00045
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004513975a9
mmmlu-es-la-00046
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004613975a9
mmmlu-es-la-00047
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004713975a9
mmmlu-es-la-00048
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004813975a9
mmmlu-es-la-00049
uvx harbor run -d mmmlu@parity -t mmmlu-es-la-0004913975a9
mmmlu-fr-fr-00050
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005013975a9
mmmlu-fr-fr-00051
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005113975a9
mmmlu-fr-fr-00052
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005213975a9
mmmlu-fr-fr-00053
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005313975a9
mmmlu-fr-fr-00054
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005413975a9
mmmlu-fr-fr-00055
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005513975a9
mmmlu-fr-fr-00056
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005613975a9
mmmlu-fr-fr-00057
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005713975a9
mmmlu-fr-fr-00058
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005813975a9
mmmlu-fr-fr-00059
uvx harbor run -d mmmlu@parity -t mmmlu-fr-fr-0005913975a9
mmmlu-hi-in-00060
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006013975a9
mmmlu-hi-in-00061
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006113975a9
mmmlu-hi-in-00062
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006213975a9
mmmlu-hi-in-00063
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006313975a9
mmmlu-hi-in-00064
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006413975a9
mmmlu-hi-in-00065
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006513975a9
mmmlu-hi-in-00066
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006613975a9
mmmlu-hi-in-00067
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006713975a9
mmmlu-hi-in-00068
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006813975a9
mmmlu-hi-in-00069
uvx harbor run -d mmmlu@parity -t mmmlu-hi-in-0006913975a9
mmmlu-id-id-00070
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007013975a9
mmmlu-id-id-00071
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007113975a9
mmmlu-id-id-00072
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007213975a9
mmmlu-id-id-00073
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007313975a9
mmmlu-id-id-00074
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007413975a9
mmmlu-id-id-00075
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007513975a9
mmmlu-id-id-00076
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007613975a9
mmmlu-id-id-00077
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007713975a9
mmmlu-id-id-00078
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007813975a9
mmmlu-id-id-00079
uvx harbor run -d mmmlu@parity -t mmmlu-id-id-0007913975a9
mmmlu-it-it-00080
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008013975a9
mmmlu-it-it-00081
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008113975a9
mmmlu-it-it-00082
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008213975a9
mmmlu-it-it-00083
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008313975a9
mmmlu-it-it-00084
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008413975a9
mmmlu-it-it-00085
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008513975a9
mmmlu-it-it-00086
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008613975a9
mmmlu-it-it-00087
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008713975a9
mmmlu-it-it-00088
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008813975a9
mmmlu-it-it-00089
uvx harbor run -d mmmlu@parity -t mmmlu-it-it-0008913975a9
mmmlu-ja-jp-00090
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009013975a9
mmmlu-ja-jp-00091
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009113975a9
mmmlu-ja-jp-00092
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009213975a9
mmmlu-ja-jp-00093
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009313975a9
mmmlu-ja-jp-00094
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009413975a9
mmmlu-ja-jp-00095
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009513975a9
mmmlu-ja-jp-00096
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009613975a9
mmmlu-ja-jp-00097
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009713975a9
mmmlu-ja-jp-00098
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009813975a9
mmmlu-ja-jp-00099
uvx harbor run -d mmmlu@parity -t mmmlu-ja-jp-0009913975a9