satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1088
uvx harbor run -d satbench@1.0 -t 1088
a7e262a
1089
uvx harbor run -d satbench@1.0 -t 1089
a7e262a
109
uvx harbor run -d satbench@1.0 -t 109
a7e262a
1090
uvx harbor run -d satbench@1.0 -t 1090
a7e262a
1091
uvx harbor run -d satbench@1.0 -t 1091
a7e262a
1092
uvx harbor run -d satbench@1.0 -t 1092
a7e262a
1093
uvx harbor run -d satbench@1.0 -t 1093
a7e262a
1094
uvx harbor run -d satbench@1.0 -t 1094
a7e262a
1095
uvx harbor run -d satbench@1.0 -t 1095
a7e262a
1096
uvx harbor run -d satbench@1.0 -t 1096
a7e262a
1097
uvx harbor run -d satbench@1.0 -t 1097
a7e262a
1098
uvx harbor run -d satbench@1.0 -t 1098
a7e262a
1099
uvx harbor run -d satbench@1.0 -t 1099
a7e262a
11
uvx harbor run -d satbench@1.0 -t 11
a7e262a
110
uvx harbor run -d satbench@1.0 -t 110
a7e262a
1100
uvx harbor run -d satbench@1.0 -t 1100
a7e262a
1101
uvx harbor run -d satbench@1.0 -t 1101
a7e262a
1102
uvx harbor run -d satbench@1.0 -t 1102
a7e262a
1103
uvx harbor run -d satbench@1.0 -t 1103
a7e262a
1104
uvx harbor run -d satbench@1.0 -t 1104
a7e262a
1105
uvx harbor run -d satbench@1.0 -t 1105
a7e262a
1106
uvx harbor run -d satbench@1.0 -t 1106
a7e262a
1107
uvx harbor run -d satbench@1.0 -t 1107
a7e262a
1108
uvx harbor run -d satbench@1.0 -t 1108
a7e262a
1109
uvx harbor run -d satbench@1.0 -t 1109
a7e262a
111
uvx harbor run -d satbench@1.0 -t 111
a7e262a
1110
uvx harbor run -d satbench@1.0 -t 1110
a7e262a
1111
uvx harbor run -d satbench@1.0 -t 1111
a7e262a
1112
uvx harbor run -d satbench@1.0 -t 1112
a7e262a
1113
uvx harbor run -d satbench@1.0 -t 1113
a7e262a
1114
uvx harbor run -d satbench@1.0 -t 1114
a7e262a
1115
uvx harbor run -d satbench@1.0 -t 1115
a7e262a
1116
uvx harbor run -d satbench@1.0 -t 1116
a7e262a
1117
uvx harbor run -d satbench@1.0 -t 1117
a7e262a
1118
uvx harbor run -d satbench@1.0 -t 1118
a7e262a
1119
uvx harbor run -d satbench@1.0 -t 1119
a7e262a
112
uvx harbor run -d satbench@1.0 -t 112
a7e262a
1120
uvx harbor run -d satbench@1.0 -t 1120
a7e262a
1121
uvx harbor run -d satbench@1.0 -t 1121
a7e262a
1122
uvx harbor run -d satbench@1.0 -t 1122
a7e262a
1123
uvx harbor run -d satbench@1.0 -t 1123
a7e262a
1124
uvx harbor run -d satbench@1.0 -t 1124
a7e262a
1125
uvx harbor run -d satbench@1.0 -t 1125
a7e262a
1126
uvx harbor run -d satbench@1.0 -t 1126
a7e262a
1127
uvx harbor run -d satbench@1.0 -t 1127
a7e262a
1128
uvx harbor run -d satbench@1.0 -t 1128
a7e262a
1129
uvx harbor run -d satbench@1.0 -t 1129
a7e262a
113
uvx harbor run -d satbench@1.0 -t 113
a7e262a
1130
uvx harbor run -d satbench@1.0 -t 1130
a7e262a
1131
uvx harbor run -d satbench@1.0 -t 1131
a7e262a
1132
uvx harbor run -d satbench@1.0 -t 1132
a7e262a
1133
uvx harbor run -d satbench@1.0 -t 1133
a7e262a
1134
uvx harbor run -d satbench@1.0 -t 1134
a7e262a
1135
uvx harbor run -d satbench@1.0 -t 1135
a7e262a
1136
uvx harbor run -d satbench@1.0 -t 1136
a7e262a
1137
uvx harbor run -d satbench@1.0 -t 1137
a7e262a
1138
uvx harbor run -d satbench@1.0 -t 1138
a7e262a
1139
uvx harbor run -d satbench@1.0 -t 1139
a7e262a
114
uvx harbor run -d satbench@1.0 -t 114
a7e262a
1140
uvx harbor run -d satbench@1.0 -t 1140
a7e262a
1141
uvx harbor run -d satbench@1.0 -t 1141
a7e262a
1142
uvx harbor run -d satbench@1.0 -t 1142
a7e262a
1143
uvx harbor run -d satbench@1.0 -t 1143
a7e262a
1144
uvx harbor run -d satbench@1.0 -t 1144
a7e262a
1145
uvx harbor run -d satbench@1.0 -t 1145
a7e262a
1146
uvx harbor run -d satbench@1.0 -t 1146
a7e262a
1147
uvx harbor run -d satbench@1.0 -t 1147
a7e262a
1148
uvx harbor run -d satbench@1.0 -t 1148
a7e262a
1149
uvx harbor run -d satbench@1.0 -t 1149
a7e262a
115
uvx harbor run -d satbench@1.0 -t 115
a7e262a
1150
uvx harbor run -d satbench@1.0 -t 1150
a7e262a
1151
uvx harbor run -d satbench@1.0 -t 1151
a7e262a
1152
uvx harbor run -d satbench@1.0 -t 1152
a7e262a
1153
uvx harbor run -d satbench@1.0 -t 1153
a7e262a
1154
uvx harbor run -d satbench@1.0 -t 1154
a7e262a
1155
uvx harbor run -d satbench@1.0 -t 1155
a7e262a
1156
uvx harbor run -d satbench@1.0 -t 1156
a7e262a
1157
uvx harbor run -d satbench@1.0 -t 1157
a7e262a
1158
uvx harbor run -d satbench@1.0 -t 1158
a7e262a
1159
uvx harbor run -d satbench@1.0 -t 1159
a7e262a
116
uvx harbor run -d satbench@1.0 -t 116
a7e262a
1160
uvx harbor run -d satbench@1.0 -t 1160
a7e262a
1161
uvx harbor run -d satbench@1.0 -t 1161
a7e262a
1162
uvx harbor run -d satbench@1.0 -t 1162
a7e262a
1163
uvx harbor run -d satbench@1.0 -t 1163
a7e262a
1164
uvx harbor run -d satbench@1.0 -t 1164
a7e262a
1165
uvx harbor run -d satbench@1.0 -t 1165
a7e262a
1166
uvx harbor run -d satbench@1.0 -t 1166
a7e262a
1167
uvx harbor run -d satbench@1.0 -t 1167
a7e262a
1168
uvx harbor run -d satbench@1.0 -t 1168
a7e262a
1169
uvx harbor run -d satbench@1.0 -t 1169
a7e262a
117
uvx harbor run -d satbench@1.0 -t 117
a7e262a
1170
uvx harbor run -d satbench@1.0 -t 1170
a7e262a
1171
uvx harbor run -d satbench@1.0 -t 1171
a7e262a
1172
uvx harbor run -d satbench@1.0 -t 1172
a7e262a
1173
uvx harbor run -d satbench@1.0 -t 1173
a7e262a
1174
uvx harbor run -d satbench@1.0 -t 1174
a7e262a
1175
uvx harbor run -d satbench@1.0 -t 1175
a7e262a
1176
uvx harbor run -d satbench@1.0 -t 1176
a7e262a
1177
uvx harbor run -d satbench@1.0 -t 1177
a7e262a