satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1358
uvx harbor run -d satbench@1.0 -t 1358a7e262a
1359
uvx harbor run -d satbench@1.0 -t 1359a7e262a
136
uvx harbor run -d satbench@1.0 -t 136a7e262a
1360
uvx harbor run -d satbench@1.0 -t 1360a7e262a
1361
uvx harbor run -d satbench@1.0 -t 1361a7e262a
1362
uvx harbor run -d satbench@1.0 -t 1362a7e262a
1363
uvx harbor run -d satbench@1.0 -t 1363a7e262a
1364
uvx harbor run -d satbench@1.0 -t 1364a7e262a
1365
uvx harbor run -d satbench@1.0 -t 1365a7e262a
1366
uvx harbor run -d satbench@1.0 -t 1366a7e262a
1367
uvx harbor run -d satbench@1.0 -t 1367a7e262a
1368
uvx harbor run -d satbench@1.0 -t 1368a7e262a
1369
uvx harbor run -d satbench@1.0 -t 1369a7e262a
137
uvx harbor run -d satbench@1.0 -t 137a7e262a
1370
uvx harbor run -d satbench@1.0 -t 1370a7e262a
1371
uvx harbor run -d satbench@1.0 -t 1371a7e262a
1372
uvx harbor run -d satbench@1.0 -t 1372a7e262a
1373
uvx harbor run -d satbench@1.0 -t 1373a7e262a
1374
uvx harbor run -d satbench@1.0 -t 1374a7e262a
1375
uvx harbor run -d satbench@1.0 -t 1375a7e262a
1376
uvx harbor run -d satbench@1.0 -t 1376a7e262a
1377
uvx harbor run -d satbench@1.0 -t 1377a7e262a
1378
uvx harbor run -d satbench@1.0 -t 1378a7e262a
1379
uvx harbor run -d satbench@1.0 -t 1379a7e262a
138
uvx harbor run -d satbench@1.0 -t 138a7e262a
1380
uvx harbor run -d satbench@1.0 -t 1380a7e262a
1381
uvx harbor run -d satbench@1.0 -t 1381a7e262a
1382
uvx harbor run -d satbench@1.0 -t 1382a7e262a
1383
uvx harbor run -d satbench@1.0 -t 1383a7e262a
1384
uvx harbor run -d satbench@1.0 -t 1384a7e262a
1385
uvx harbor run -d satbench@1.0 -t 1385a7e262a
1386
uvx harbor run -d satbench@1.0 -t 1386a7e262a
1387
uvx harbor run -d satbench@1.0 -t 1387a7e262a
1388
uvx harbor run -d satbench@1.0 -t 1388a7e262a
1389
uvx harbor run -d satbench@1.0 -t 1389a7e262a
139
uvx harbor run -d satbench@1.0 -t 139a7e262a
1390
uvx harbor run -d satbench@1.0 -t 1390a7e262a
1391
uvx harbor run -d satbench@1.0 -t 1391a7e262a
1392
uvx harbor run -d satbench@1.0 -t 1392a7e262a
1393
uvx harbor run -d satbench@1.0 -t 1393a7e262a
1394
uvx harbor run -d satbench@1.0 -t 1394a7e262a
1395
uvx harbor run -d satbench@1.0 -t 1395a7e262a
1396
uvx harbor run -d satbench@1.0 -t 1396a7e262a
1397
uvx harbor run -d satbench@1.0 -t 1397a7e262a
1398
uvx harbor run -d satbench@1.0 -t 1398a7e262a
1399
uvx harbor run -d satbench@1.0 -t 1399a7e262a
14
uvx harbor run -d satbench@1.0 -t 14a7e262a
140
uvx harbor run -d satbench@1.0 -t 140a7e262a
1400
uvx harbor run -d satbench@1.0 -t 1400a7e262a
1401
uvx harbor run -d satbench@1.0 -t 1401a7e262a
1402
uvx harbor run -d satbench@1.0 -t 1402a7e262a
1403
uvx harbor run -d satbench@1.0 -t 1403a7e262a
1404
uvx harbor run -d satbench@1.0 -t 1404a7e262a
1405
uvx harbor run -d satbench@1.0 -t 1405a7e262a
1406
uvx harbor run -d satbench@1.0 -t 1406a7e262a
1407
uvx harbor run -d satbench@1.0 -t 1407a7e262a
1408
uvx harbor run -d satbench@1.0 -t 1408a7e262a
1409
uvx harbor run -d satbench@1.0 -t 1409a7e262a
141
uvx harbor run -d satbench@1.0 -t 141a7e262a
1410
uvx harbor run -d satbench@1.0 -t 1410a7e262a
1411
uvx harbor run -d satbench@1.0 -t 1411a7e262a
1412
uvx harbor run -d satbench@1.0 -t 1412a7e262a
1413
uvx harbor run -d satbench@1.0 -t 1413a7e262a
1414
uvx harbor run -d satbench@1.0 -t 1414a7e262a
1415
uvx harbor run -d satbench@1.0 -t 1415a7e262a
1416
uvx harbor run -d satbench@1.0 -t 1416a7e262a
1417
uvx harbor run -d satbench@1.0 -t 1417a7e262a
1418
uvx harbor run -d satbench@1.0 -t 1418a7e262a
1419
uvx harbor run -d satbench@1.0 -t 1419a7e262a
142
uvx harbor run -d satbench@1.0 -t 142a7e262a
1420
uvx harbor run -d satbench@1.0 -t 1420a7e262a
1421
uvx harbor run -d satbench@1.0 -t 1421a7e262a
1422
uvx harbor run -d satbench@1.0 -t 1422a7e262a
1423
uvx harbor run -d satbench@1.0 -t 1423a7e262a
1424
uvx harbor run -d satbench@1.0 -t 1424a7e262a
1425
uvx harbor run -d satbench@1.0 -t 1425a7e262a
1426
uvx harbor run -d satbench@1.0 -t 1426a7e262a
1427
uvx harbor run -d satbench@1.0 -t 1427a7e262a
1428
uvx harbor run -d satbench@1.0 -t 1428a7e262a
1429
uvx harbor run -d satbench@1.0 -t 1429a7e262a
143
uvx harbor run -d satbench@1.0 -t 143a7e262a
1430
uvx harbor run -d satbench@1.0 -t 1430a7e262a
1431
uvx harbor run -d satbench@1.0 -t 1431a7e262a
1432
uvx harbor run -d satbench@1.0 -t 1432a7e262a
1433
uvx harbor run -d satbench@1.0 -t 1433a7e262a
1434
uvx harbor run -d satbench@1.0 -t 1434a7e262a
1435
uvx harbor run -d satbench@1.0 -t 1435a7e262a
1436
uvx harbor run -d satbench@1.0 -t 1436a7e262a
1437
uvx harbor run -d satbench@1.0 -t 1437a7e262a
1438
uvx harbor run -d satbench@1.0 -t 1438a7e262a
1439
uvx harbor run -d satbench@1.0 -t 1439a7e262a
144
uvx harbor run -d satbench@1.0 -t 144a7e262a
1440
uvx harbor run -d satbench@1.0 -t 1440a7e262a
1441
uvx harbor run -d satbench@1.0 -t 1441a7e262a
1442
uvx harbor run -d satbench@1.0 -t 1442a7e262a
1443
uvx harbor run -d satbench@1.0 -t 1443a7e262a
1444
uvx harbor run -d satbench@1.0 -t 1444a7e262a
1445
uvx harbor run -d satbench@1.0 -t 1445a7e262a
1446
uvx harbor run -d satbench@1.0 -t 1446a7e262a
1447
uvx harbor run -d satbench@1.0 -t 1447a7e262a