satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1178
uvx harbor run -d satbench@1.0 -t 1178a7e262a
1179
uvx harbor run -d satbench@1.0 -t 1179a7e262a
118
uvx harbor run -d satbench@1.0 -t 118a7e262a
1180
uvx harbor run -d satbench@1.0 -t 1180a7e262a
1181
uvx harbor run -d satbench@1.0 -t 1181a7e262a
1182
uvx harbor run -d satbench@1.0 -t 1182a7e262a
1183
uvx harbor run -d satbench@1.0 -t 1183a7e262a
1184
uvx harbor run -d satbench@1.0 -t 1184a7e262a
1185
uvx harbor run -d satbench@1.0 -t 1185a7e262a
1186
uvx harbor run -d satbench@1.0 -t 1186a7e262a
1187
uvx harbor run -d satbench@1.0 -t 1187a7e262a
1188
uvx harbor run -d satbench@1.0 -t 1188a7e262a
1189
uvx harbor run -d satbench@1.0 -t 1189a7e262a
119
uvx harbor run -d satbench@1.0 -t 119a7e262a
1190
uvx harbor run -d satbench@1.0 -t 1190a7e262a
1191
uvx harbor run -d satbench@1.0 -t 1191a7e262a
1192
uvx harbor run -d satbench@1.0 -t 1192a7e262a
1193
uvx harbor run -d satbench@1.0 -t 1193a7e262a
1194
uvx harbor run -d satbench@1.0 -t 1194a7e262a
1195
uvx harbor run -d satbench@1.0 -t 1195a7e262a
1196
uvx harbor run -d satbench@1.0 -t 1196a7e262a
1197
uvx harbor run -d satbench@1.0 -t 1197a7e262a
1198
uvx harbor run -d satbench@1.0 -t 1198a7e262a
1199
uvx harbor run -d satbench@1.0 -t 1199a7e262a
12
uvx harbor run -d satbench@1.0 -t 12a7e262a
120
uvx harbor run -d satbench@1.0 -t 120a7e262a
1200
uvx harbor run -d satbench@1.0 -t 1200a7e262a
1201
uvx harbor run -d satbench@1.0 -t 1201a7e262a
1202
uvx harbor run -d satbench@1.0 -t 1202a7e262a
1203
uvx harbor run -d satbench@1.0 -t 1203a7e262a
1204
uvx harbor run -d satbench@1.0 -t 1204a7e262a
1205
uvx harbor run -d satbench@1.0 -t 1205a7e262a
1206
uvx harbor run -d satbench@1.0 -t 1206a7e262a
1207
uvx harbor run -d satbench@1.0 -t 1207a7e262a
1208
uvx harbor run -d satbench@1.0 -t 1208a7e262a
1209
uvx harbor run -d satbench@1.0 -t 1209a7e262a
121
uvx harbor run -d satbench@1.0 -t 121a7e262a
1210
uvx harbor run -d satbench@1.0 -t 1210a7e262a
1211
uvx harbor run -d satbench@1.0 -t 1211a7e262a
1212
uvx harbor run -d satbench@1.0 -t 1212a7e262a
1213
uvx harbor run -d satbench@1.0 -t 1213a7e262a
1214
uvx harbor run -d satbench@1.0 -t 1214a7e262a
1215
uvx harbor run -d satbench@1.0 -t 1215a7e262a
1216
uvx harbor run -d satbench@1.0 -t 1216a7e262a
1217
uvx harbor run -d satbench@1.0 -t 1217a7e262a
1218
uvx harbor run -d satbench@1.0 -t 1218a7e262a
1219
uvx harbor run -d satbench@1.0 -t 1219a7e262a
122
uvx harbor run -d satbench@1.0 -t 122a7e262a
1220
uvx harbor run -d satbench@1.0 -t 1220a7e262a
1221
uvx harbor run -d satbench@1.0 -t 1221a7e262a
1222
uvx harbor run -d satbench@1.0 -t 1222a7e262a
1223
uvx harbor run -d satbench@1.0 -t 1223a7e262a
1224
uvx harbor run -d satbench@1.0 -t 1224a7e262a
1225
uvx harbor run -d satbench@1.0 -t 1225a7e262a
1226
uvx harbor run -d satbench@1.0 -t 1226a7e262a
1227
uvx harbor run -d satbench@1.0 -t 1227a7e262a
1228
uvx harbor run -d satbench@1.0 -t 1228a7e262a
1229
uvx harbor run -d satbench@1.0 -t 1229a7e262a
123
uvx harbor run -d satbench@1.0 -t 123a7e262a
1230
uvx harbor run -d satbench@1.0 -t 1230a7e262a
1231
uvx harbor run -d satbench@1.0 -t 1231a7e262a
1232
uvx harbor run -d satbench@1.0 -t 1232a7e262a
1233
uvx harbor run -d satbench@1.0 -t 1233a7e262a
1234
uvx harbor run -d satbench@1.0 -t 1234a7e262a
1235
uvx harbor run -d satbench@1.0 -t 1235a7e262a
1236
uvx harbor run -d satbench@1.0 -t 1236a7e262a
1237
uvx harbor run -d satbench@1.0 -t 1237a7e262a
1238
uvx harbor run -d satbench@1.0 -t 1238a7e262a
1239
uvx harbor run -d satbench@1.0 -t 1239a7e262a
124
uvx harbor run -d satbench@1.0 -t 124a7e262a
1240
uvx harbor run -d satbench@1.0 -t 1240a7e262a
1241
uvx harbor run -d satbench@1.0 -t 1241a7e262a
1242
uvx harbor run -d satbench@1.0 -t 1242a7e262a
1243
uvx harbor run -d satbench@1.0 -t 1243a7e262a
1244
uvx harbor run -d satbench@1.0 -t 1244a7e262a
1245
uvx harbor run -d satbench@1.0 -t 1245a7e262a
1246
uvx harbor run -d satbench@1.0 -t 1246a7e262a
1247
uvx harbor run -d satbench@1.0 -t 1247a7e262a
1248
uvx harbor run -d satbench@1.0 -t 1248a7e262a
1249
uvx harbor run -d satbench@1.0 -t 1249a7e262a
125
uvx harbor run -d satbench@1.0 -t 125a7e262a
1250
uvx harbor run -d satbench@1.0 -t 1250a7e262a
1251
uvx harbor run -d satbench@1.0 -t 1251a7e262a
1252
uvx harbor run -d satbench@1.0 -t 1252a7e262a
1253
uvx harbor run -d satbench@1.0 -t 1253a7e262a
1254
uvx harbor run -d satbench@1.0 -t 1254a7e262a
1255
uvx harbor run -d satbench@1.0 -t 1255a7e262a
1256
uvx harbor run -d satbench@1.0 -t 1256a7e262a
1257
uvx harbor run -d satbench@1.0 -t 1257a7e262a
1258
uvx harbor run -d satbench@1.0 -t 1258a7e262a
1259
uvx harbor run -d satbench@1.0 -t 1259a7e262a
126
uvx harbor run -d satbench@1.0 -t 126a7e262a
1260
uvx harbor run -d satbench@1.0 -t 1260a7e262a
1261
uvx harbor run -d satbench@1.0 -t 1261a7e262a
1262
uvx harbor run -d satbench@1.0 -t 1262a7e262a
1263
uvx harbor run -d satbench@1.0 -t 1263a7e262a
1264
uvx harbor run -d satbench@1.0 -t 1264a7e262a
1265
uvx harbor run -d satbench@1.0 -t 1265a7e262a
1266
uvx harbor run -d satbench@1.0 -t 1266a7e262a
1267
uvx harbor run -d satbench@1.0 -t 1267a7e262a