satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1448
uvx harbor run -d satbench@1.0 -t 1448a7e262a
1449
uvx harbor run -d satbench@1.0 -t 1449a7e262a
145
uvx harbor run -d satbench@1.0 -t 145a7e262a
1450
uvx harbor run -d satbench@1.0 -t 1450a7e262a
1451
uvx harbor run -d satbench@1.0 -t 1451a7e262a
1452
uvx harbor run -d satbench@1.0 -t 1452a7e262a
1453
uvx harbor run -d satbench@1.0 -t 1453a7e262a
1454
uvx harbor run -d satbench@1.0 -t 1454a7e262a
1455
uvx harbor run -d satbench@1.0 -t 1455a7e262a
1456
uvx harbor run -d satbench@1.0 -t 1456a7e262a
1457
uvx harbor run -d satbench@1.0 -t 1457a7e262a
1458
uvx harbor run -d satbench@1.0 -t 1458a7e262a
1459
uvx harbor run -d satbench@1.0 -t 1459a7e262a
146
uvx harbor run -d satbench@1.0 -t 146a7e262a
1460
uvx harbor run -d satbench@1.0 -t 1460a7e262a
1461
uvx harbor run -d satbench@1.0 -t 1461a7e262a
1462
uvx harbor run -d satbench@1.0 -t 1462a7e262a
1463
uvx harbor run -d satbench@1.0 -t 1463a7e262a
1464
uvx harbor run -d satbench@1.0 -t 1464a7e262a
1465
uvx harbor run -d satbench@1.0 -t 1465a7e262a
1466
uvx harbor run -d satbench@1.0 -t 1466a7e262a
1467
uvx harbor run -d satbench@1.0 -t 1467a7e262a
1468
uvx harbor run -d satbench@1.0 -t 1468a7e262a
1469
uvx harbor run -d satbench@1.0 -t 1469a7e262a
147
uvx harbor run -d satbench@1.0 -t 147a7e262a
1470
uvx harbor run -d satbench@1.0 -t 1470a7e262a
1471
uvx harbor run -d satbench@1.0 -t 1471a7e262a
1472
uvx harbor run -d satbench@1.0 -t 1472a7e262a
1473
uvx harbor run -d satbench@1.0 -t 1473a7e262a
1474
uvx harbor run -d satbench@1.0 -t 1474a7e262a
1475
uvx harbor run -d satbench@1.0 -t 1475a7e262a
1476
uvx harbor run -d satbench@1.0 -t 1476a7e262a
1477
uvx harbor run -d satbench@1.0 -t 1477a7e262a
1478
uvx harbor run -d satbench@1.0 -t 1478a7e262a
1479
uvx harbor run -d satbench@1.0 -t 1479a7e262a
148
uvx harbor run -d satbench@1.0 -t 148a7e262a
1480
uvx harbor run -d satbench@1.0 -t 1480a7e262a
1481
uvx harbor run -d satbench@1.0 -t 1481a7e262a
1482
uvx harbor run -d satbench@1.0 -t 1482a7e262a
1483
uvx harbor run -d satbench@1.0 -t 1483a7e262a
1484
uvx harbor run -d satbench@1.0 -t 1484a7e262a
1485
uvx harbor run -d satbench@1.0 -t 1485a7e262a
1486
uvx harbor run -d satbench@1.0 -t 1486a7e262a
1487
uvx harbor run -d satbench@1.0 -t 1487a7e262a
1488
uvx harbor run -d satbench@1.0 -t 1488a7e262a
1489
uvx harbor run -d satbench@1.0 -t 1489a7e262a
149
uvx harbor run -d satbench@1.0 -t 149a7e262a
1490
uvx harbor run -d satbench@1.0 -t 1490a7e262a
1491
uvx harbor run -d satbench@1.0 -t 1491a7e262a
1492
uvx harbor run -d satbench@1.0 -t 1492a7e262a
1493
uvx harbor run -d satbench@1.0 -t 1493a7e262a
1494
uvx harbor run -d satbench@1.0 -t 1494a7e262a
1495
uvx harbor run -d satbench@1.0 -t 1495a7e262a
1496
uvx harbor run -d satbench@1.0 -t 1496a7e262a
1497
uvx harbor run -d satbench@1.0 -t 1497a7e262a
1498
uvx harbor run -d satbench@1.0 -t 1498a7e262a
1499
uvx harbor run -d satbench@1.0 -t 1499a7e262a
15
uvx harbor run -d satbench@1.0 -t 15a7e262a
150
uvx harbor run -d satbench@1.0 -t 150a7e262a
1500
uvx harbor run -d satbench@1.0 -t 1500a7e262a
1501
uvx harbor run -d satbench@1.0 -t 1501a7e262a
1502
uvx harbor run -d satbench@1.0 -t 1502a7e262a
1503
uvx harbor run -d satbench@1.0 -t 1503a7e262a
1504
uvx harbor run -d satbench@1.0 -t 1504a7e262a
1505
uvx harbor run -d satbench@1.0 -t 1505a7e262a
1506
uvx harbor run -d satbench@1.0 -t 1506a7e262a
1507
uvx harbor run -d satbench@1.0 -t 1507a7e262a
1508
uvx harbor run -d satbench@1.0 -t 1508a7e262a
1509
uvx harbor run -d satbench@1.0 -t 1509a7e262a
151
uvx harbor run -d satbench@1.0 -t 151a7e262a
1510
uvx harbor run -d satbench@1.0 -t 1510a7e262a
1511
uvx harbor run -d satbench@1.0 -t 1511a7e262a
1512
uvx harbor run -d satbench@1.0 -t 1512a7e262a
1513
uvx harbor run -d satbench@1.0 -t 1513a7e262a
1514
uvx harbor run -d satbench@1.0 -t 1514a7e262a
1515
uvx harbor run -d satbench@1.0 -t 1515a7e262a
1516
uvx harbor run -d satbench@1.0 -t 1516a7e262a
1517
uvx harbor run -d satbench@1.0 -t 1517a7e262a
1518
uvx harbor run -d satbench@1.0 -t 1518a7e262a
1519
uvx harbor run -d satbench@1.0 -t 1519a7e262a
152
uvx harbor run -d satbench@1.0 -t 152a7e262a
1520
uvx harbor run -d satbench@1.0 -t 1520a7e262a
1521
uvx harbor run -d satbench@1.0 -t 1521a7e262a
1522
uvx harbor run -d satbench@1.0 -t 1522a7e262a
1523
uvx harbor run -d satbench@1.0 -t 1523a7e262a
1524
uvx harbor run -d satbench@1.0 -t 1524a7e262a
1525
uvx harbor run -d satbench@1.0 -t 1525a7e262a
1526
uvx harbor run -d satbench@1.0 -t 1526a7e262a
1527
uvx harbor run -d satbench@1.0 -t 1527a7e262a
1528
uvx harbor run -d satbench@1.0 -t 1528a7e262a
1529
uvx harbor run -d satbench@1.0 -t 1529a7e262a
153
uvx harbor run -d satbench@1.0 -t 153a7e262a
1530
uvx harbor run -d satbench@1.0 -t 1530a7e262a
1531
uvx harbor run -d satbench@1.0 -t 1531a7e262a
1532
uvx harbor run -d satbench@1.0 -t 1532a7e262a
1533
uvx harbor run -d satbench@1.0 -t 1533a7e262a
1534
uvx harbor run -d satbench@1.0 -t 1534a7e262a
1535
uvx harbor run -d satbench@1.0 -t 1535a7e262a
1536
uvx harbor run -d satbench@1.0 -t 1536a7e262a
1537
uvx harbor run -d satbench@1.0 -t 1537a7e262a