satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

0
uvx harbor run -d satbench@1.0 -t 0
a7e262a
1
uvx harbor run -d satbench@1.0 -t 1
a7e262a
10
uvx harbor run -d satbench@1.0 -t 10
a7e262a
100
uvx harbor run -d satbench@1.0 -t 100
a7e262a
1000
uvx harbor run -d satbench@1.0 -t 1000
a7e262a
1001
uvx harbor run -d satbench@1.0 -t 1001
a7e262a
1002
uvx harbor run -d satbench@1.0 -t 1002
a7e262a
1003
uvx harbor run -d satbench@1.0 -t 1003
a7e262a
1004
uvx harbor run -d satbench@1.0 -t 1004
a7e262a
1005
uvx harbor run -d satbench@1.0 -t 1005
a7e262a
1006
uvx harbor run -d satbench@1.0 -t 1006
a7e262a
1007
uvx harbor run -d satbench@1.0 -t 1007
a7e262a
1008
uvx harbor run -d satbench@1.0 -t 1008
a7e262a
1009
uvx harbor run -d satbench@1.0 -t 1009
a7e262a
101
uvx harbor run -d satbench@1.0 -t 101
a7e262a
1010
uvx harbor run -d satbench@1.0 -t 1010
a7e262a
1011
uvx harbor run -d satbench@1.0 -t 1011
a7e262a
1012
uvx harbor run -d satbench@1.0 -t 1012
a7e262a
1013
uvx harbor run -d satbench@1.0 -t 1013
a7e262a
1014
uvx harbor run -d satbench@1.0 -t 1014
a7e262a
1015
uvx harbor run -d satbench@1.0 -t 1015
a7e262a
1016
uvx harbor run -d satbench@1.0 -t 1016
a7e262a
1017
uvx harbor run -d satbench@1.0 -t 1017
a7e262a
1018
uvx harbor run -d satbench@1.0 -t 1018
a7e262a
1019
uvx harbor run -d satbench@1.0 -t 1019
a7e262a
102
uvx harbor run -d satbench@1.0 -t 102
a7e262a
1020
uvx harbor run -d satbench@1.0 -t 1020
a7e262a
1021
uvx harbor run -d satbench@1.0 -t 1021
a7e262a
1022
uvx harbor run -d satbench@1.0 -t 1022
a7e262a
1023
uvx harbor run -d satbench@1.0 -t 1023
a7e262a
1024
uvx harbor run -d satbench@1.0 -t 1024
a7e262a
1025
uvx harbor run -d satbench@1.0 -t 1025
a7e262a
1026
uvx harbor run -d satbench@1.0 -t 1026
a7e262a
1027
uvx harbor run -d satbench@1.0 -t 1027
a7e262a
1028
uvx harbor run -d satbench@1.0 -t 1028
a7e262a
1029
uvx harbor run -d satbench@1.0 -t 1029
a7e262a
103
uvx harbor run -d satbench@1.0 -t 103
a7e262a
1030
uvx harbor run -d satbench@1.0 -t 1030
a7e262a
1031
uvx harbor run -d satbench@1.0 -t 1031
a7e262a
1032
uvx harbor run -d satbench@1.0 -t 1032
a7e262a
1033
uvx harbor run -d satbench@1.0 -t 1033
a7e262a
1034
uvx harbor run -d satbench@1.0 -t 1034
a7e262a
1035
uvx harbor run -d satbench@1.0 -t 1035
a7e262a
1036
uvx harbor run -d satbench@1.0 -t 1036
a7e262a
1037
uvx harbor run -d satbench@1.0 -t 1037
a7e262a
1038
uvx harbor run -d satbench@1.0 -t 1038
a7e262a
1039
uvx harbor run -d satbench@1.0 -t 1039
a7e262a
104
uvx harbor run -d satbench@1.0 -t 104
a7e262a
1040
uvx harbor run -d satbench@1.0 -t 1040
a7e262a
1041
uvx harbor run -d satbench@1.0 -t 1041
a7e262a
1042
uvx harbor run -d satbench@1.0 -t 1042
a7e262a
1043
uvx harbor run -d satbench@1.0 -t 1043
a7e262a
1044
uvx harbor run -d satbench@1.0 -t 1044
a7e262a
1045
uvx harbor run -d satbench@1.0 -t 1045
a7e262a
1046
uvx harbor run -d satbench@1.0 -t 1046
a7e262a
1047
uvx harbor run -d satbench@1.0 -t 1047
a7e262a
1048
uvx harbor run -d satbench@1.0 -t 1048
a7e262a
1049
uvx harbor run -d satbench@1.0 -t 1049
a7e262a
105
uvx harbor run -d satbench@1.0 -t 105
a7e262a
1050
uvx harbor run -d satbench@1.0 -t 1050
a7e262a
1051
uvx harbor run -d satbench@1.0 -t 1051
a7e262a
1052
uvx harbor run -d satbench@1.0 -t 1052
a7e262a
1053
uvx harbor run -d satbench@1.0 -t 1053
a7e262a
1054
uvx harbor run -d satbench@1.0 -t 1054
a7e262a
1055
uvx harbor run -d satbench@1.0 -t 1055
a7e262a
1056
uvx harbor run -d satbench@1.0 -t 1056
a7e262a
1057
uvx harbor run -d satbench@1.0 -t 1057
a7e262a
1058
uvx harbor run -d satbench@1.0 -t 1058
a7e262a
1059
uvx harbor run -d satbench@1.0 -t 1059
a7e262a
106
uvx harbor run -d satbench@1.0 -t 106
a7e262a
1060
uvx harbor run -d satbench@1.0 -t 1060
a7e262a
1061
uvx harbor run -d satbench@1.0 -t 1061
a7e262a
1062
uvx harbor run -d satbench@1.0 -t 1062
a7e262a
1063
uvx harbor run -d satbench@1.0 -t 1063
a7e262a
1064
uvx harbor run -d satbench@1.0 -t 1064
a7e262a
1065
uvx harbor run -d satbench@1.0 -t 1065
a7e262a
1066
uvx harbor run -d satbench@1.0 -t 1066
a7e262a
1067
uvx harbor run -d satbench@1.0 -t 1067
a7e262a
1068
uvx harbor run -d satbench@1.0 -t 1068
a7e262a
1069
uvx harbor run -d satbench@1.0 -t 1069
a7e262a
107
uvx harbor run -d satbench@1.0 -t 107
a7e262a
1070
uvx harbor run -d satbench@1.0 -t 1070
a7e262a
1071
uvx harbor run -d satbench@1.0 -t 1071
a7e262a
1072
uvx harbor run -d satbench@1.0 -t 1072
a7e262a
1073
uvx harbor run -d satbench@1.0 -t 1073
a7e262a
1074
uvx harbor run -d satbench@1.0 -t 1074
a7e262a
1075
uvx harbor run -d satbench@1.0 -t 1075
a7e262a
1076
uvx harbor run -d satbench@1.0 -t 1076
a7e262a
1077
uvx harbor run -d satbench@1.0 -t 1077
a7e262a
1078
uvx harbor run -d satbench@1.0 -t 1078
a7e262a
1079
uvx harbor run -d satbench@1.0 -t 1079
a7e262a
108
uvx harbor run -d satbench@1.0 -t 108
a7e262a
1080
uvx harbor run -d satbench@1.0 -t 1080
a7e262a
1081
uvx harbor run -d satbench@1.0 -t 1081
a7e262a
1082
uvx harbor run -d satbench@1.0 -t 1082
a7e262a
1083
uvx harbor run -d satbench@1.0 -t 1083
a7e262a
1084
uvx harbor run -d satbench@1.0 -t 1084
a7e262a
1085
uvx harbor run -d satbench@1.0 -t 1085
a7e262a
1086
uvx harbor run -d satbench@1.0 -t 1086
a7e262a
1087
uvx harbor run -d satbench@1.0 -t 1087
a7e262a