satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1268
uvx harbor run -d satbench@1.0 -t 1268a7e262a
1269
uvx harbor run -d satbench@1.0 -t 1269a7e262a
127
uvx harbor run -d satbench@1.0 -t 127a7e262a
1270
uvx harbor run -d satbench@1.0 -t 1270a7e262a
1271
uvx harbor run -d satbench@1.0 -t 1271a7e262a
1272
uvx harbor run -d satbench@1.0 -t 1272a7e262a
1273
uvx harbor run -d satbench@1.0 -t 1273a7e262a
1274
uvx harbor run -d satbench@1.0 -t 1274a7e262a
1275
uvx harbor run -d satbench@1.0 -t 1275a7e262a
1276
uvx harbor run -d satbench@1.0 -t 1276a7e262a
1277
uvx harbor run -d satbench@1.0 -t 1277a7e262a
1278
uvx harbor run -d satbench@1.0 -t 1278a7e262a
1279
uvx harbor run -d satbench@1.0 -t 1279a7e262a
128
uvx harbor run -d satbench@1.0 -t 128a7e262a
1280
uvx harbor run -d satbench@1.0 -t 1280a7e262a
1281
uvx harbor run -d satbench@1.0 -t 1281a7e262a
1282
uvx harbor run -d satbench@1.0 -t 1282a7e262a
1283
uvx harbor run -d satbench@1.0 -t 1283a7e262a
1284
uvx harbor run -d satbench@1.0 -t 1284a7e262a
1285
uvx harbor run -d satbench@1.0 -t 1285a7e262a
1286
uvx harbor run -d satbench@1.0 -t 1286a7e262a
1287
uvx harbor run -d satbench@1.0 -t 1287a7e262a
1288
uvx harbor run -d satbench@1.0 -t 1288a7e262a
1289
uvx harbor run -d satbench@1.0 -t 1289a7e262a
129
uvx harbor run -d satbench@1.0 -t 129a7e262a
1290
uvx harbor run -d satbench@1.0 -t 1290a7e262a
1291
uvx harbor run -d satbench@1.0 -t 1291a7e262a
1292
uvx harbor run -d satbench@1.0 -t 1292a7e262a
1293
uvx harbor run -d satbench@1.0 -t 1293a7e262a
1294
uvx harbor run -d satbench@1.0 -t 1294a7e262a
1295
uvx harbor run -d satbench@1.0 -t 1295a7e262a
1296
uvx harbor run -d satbench@1.0 -t 1296a7e262a
1297
uvx harbor run -d satbench@1.0 -t 1297a7e262a
1298
uvx harbor run -d satbench@1.0 -t 1298a7e262a
1299
uvx harbor run -d satbench@1.0 -t 1299a7e262a
13
uvx harbor run -d satbench@1.0 -t 13a7e262a
130
uvx harbor run -d satbench@1.0 -t 130a7e262a
1300
uvx harbor run -d satbench@1.0 -t 1300a7e262a
1301
uvx harbor run -d satbench@1.0 -t 1301a7e262a
1302
uvx harbor run -d satbench@1.0 -t 1302a7e262a
1303
uvx harbor run -d satbench@1.0 -t 1303a7e262a
1304
uvx harbor run -d satbench@1.0 -t 1304a7e262a
1305
uvx harbor run -d satbench@1.0 -t 1305a7e262a
1306
uvx harbor run -d satbench@1.0 -t 1306a7e262a
1307
uvx harbor run -d satbench@1.0 -t 1307a7e262a
1308
uvx harbor run -d satbench@1.0 -t 1308a7e262a
1309
uvx harbor run -d satbench@1.0 -t 1309a7e262a
131
uvx harbor run -d satbench@1.0 -t 131a7e262a
1310
uvx harbor run -d satbench@1.0 -t 1310a7e262a
1311
uvx harbor run -d satbench@1.0 -t 1311a7e262a
1312
uvx harbor run -d satbench@1.0 -t 1312a7e262a
1313
uvx harbor run -d satbench@1.0 -t 1313a7e262a
1314
uvx harbor run -d satbench@1.0 -t 1314a7e262a
1315
uvx harbor run -d satbench@1.0 -t 1315a7e262a
1316
uvx harbor run -d satbench@1.0 -t 1316a7e262a
1317
uvx harbor run -d satbench@1.0 -t 1317a7e262a
1318
uvx harbor run -d satbench@1.0 -t 1318a7e262a
1319
uvx harbor run -d satbench@1.0 -t 1319a7e262a
132
uvx harbor run -d satbench@1.0 -t 132a7e262a
1320
uvx harbor run -d satbench@1.0 -t 1320a7e262a
1321
uvx harbor run -d satbench@1.0 -t 1321a7e262a
1322
uvx harbor run -d satbench@1.0 -t 1322a7e262a
1323
uvx harbor run -d satbench@1.0 -t 1323a7e262a
1324
uvx harbor run -d satbench@1.0 -t 1324a7e262a
1325
uvx harbor run -d satbench@1.0 -t 1325a7e262a
1326
uvx harbor run -d satbench@1.0 -t 1326a7e262a
1327
uvx harbor run -d satbench@1.0 -t 1327a7e262a
1328
uvx harbor run -d satbench@1.0 -t 1328a7e262a
1329
uvx harbor run -d satbench@1.0 -t 1329a7e262a
133
uvx harbor run -d satbench@1.0 -t 133a7e262a
1330
uvx harbor run -d satbench@1.0 -t 1330a7e262a
1331
uvx harbor run -d satbench@1.0 -t 1331a7e262a
1332
uvx harbor run -d satbench@1.0 -t 1332a7e262a
1333
uvx harbor run -d satbench@1.0 -t 1333a7e262a
1334
uvx harbor run -d satbench@1.0 -t 1334a7e262a
1335
uvx harbor run -d satbench@1.0 -t 1335a7e262a
1336
uvx harbor run -d satbench@1.0 -t 1336a7e262a
1337
uvx harbor run -d satbench@1.0 -t 1337a7e262a
1338
uvx harbor run -d satbench@1.0 -t 1338a7e262a
1339
uvx harbor run -d satbench@1.0 -t 1339a7e262a
134
uvx harbor run -d satbench@1.0 -t 134a7e262a
1340
uvx harbor run -d satbench@1.0 -t 1340a7e262a
1341
uvx harbor run -d satbench@1.0 -t 1341a7e262a
1342
uvx harbor run -d satbench@1.0 -t 1342a7e262a
1343
uvx harbor run -d satbench@1.0 -t 1343a7e262a
1344
uvx harbor run -d satbench@1.0 -t 1344a7e262a
1345
uvx harbor run -d satbench@1.0 -t 1345a7e262a
1346
uvx harbor run -d satbench@1.0 -t 1346a7e262a
1347
uvx harbor run -d satbench@1.0 -t 1347a7e262a
1348
uvx harbor run -d satbench@1.0 -t 1348a7e262a
1349
uvx harbor run -d satbench@1.0 -t 1349a7e262a
135
uvx harbor run -d satbench@1.0 -t 135a7e262a
1350
uvx harbor run -d satbench@1.0 -t 1350a7e262a
1351
uvx harbor run -d satbench@1.0 -t 1351a7e262a
1352
uvx harbor run -d satbench@1.0 -t 1352a7e262a
1353
uvx harbor run -d satbench@1.0 -t 1353a7e262a
1354
uvx harbor run -d satbench@1.0 -t 1354a7e262a
1355
uvx harbor run -d satbench@1.0 -t 1355a7e262a
1356
uvx harbor run -d satbench@1.0 -t 1356a7e262a
1357
uvx harbor run -d satbench@1.0 -t 1357a7e262a