satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1448
uvx harbor run -d satbench@1.0 -t 1448
a7e262a
1449
uvx harbor run -d satbench@1.0 -t 1449
a7e262a
145
uvx harbor run -d satbench@1.0 -t 145
a7e262a
1450
uvx harbor run -d satbench@1.0 -t 1450
a7e262a
1451
uvx harbor run -d satbench@1.0 -t 1451
a7e262a
1452
uvx harbor run -d satbench@1.0 -t 1452
a7e262a
1453
uvx harbor run -d satbench@1.0 -t 1453
a7e262a
1454
uvx harbor run -d satbench@1.0 -t 1454
a7e262a
1455
uvx harbor run -d satbench@1.0 -t 1455
a7e262a
1456
uvx harbor run -d satbench@1.0 -t 1456
a7e262a
1457
uvx harbor run -d satbench@1.0 -t 1457
a7e262a
1458
uvx harbor run -d satbench@1.0 -t 1458
a7e262a
1459
uvx harbor run -d satbench@1.0 -t 1459
a7e262a
146
uvx harbor run -d satbench@1.0 -t 146
a7e262a
1460
uvx harbor run -d satbench@1.0 -t 1460
a7e262a
1461
uvx harbor run -d satbench@1.0 -t 1461
a7e262a
1462
uvx harbor run -d satbench@1.0 -t 1462
a7e262a
1463
uvx harbor run -d satbench@1.0 -t 1463
a7e262a
1464
uvx harbor run -d satbench@1.0 -t 1464
a7e262a
1465
uvx harbor run -d satbench@1.0 -t 1465
a7e262a
1466
uvx harbor run -d satbench@1.0 -t 1466
a7e262a
1467
uvx harbor run -d satbench@1.0 -t 1467
a7e262a
1468
uvx harbor run -d satbench@1.0 -t 1468
a7e262a
1469
uvx harbor run -d satbench@1.0 -t 1469
a7e262a
147
uvx harbor run -d satbench@1.0 -t 147
a7e262a
1470
uvx harbor run -d satbench@1.0 -t 1470
a7e262a
1471
uvx harbor run -d satbench@1.0 -t 1471
a7e262a
1472
uvx harbor run -d satbench@1.0 -t 1472
a7e262a
1473
uvx harbor run -d satbench@1.0 -t 1473
a7e262a
1474
uvx harbor run -d satbench@1.0 -t 1474
a7e262a
1475
uvx harbor run -d satbench@1.0 -t 1475
a7e262a
1476
uvx harbor run -d satbench@1.0 -t 1476
a7e262a
1477
uvx harbor run -d satbench@1.0 -t 1477
a7e262a
1478
uvx harbor run -d satbench@1.0 -t 1478
a7e262a
1479
uvx harbor run -d satbench@1.0 -t 1479
a7e262a
148
uvx harbor run -d satbench@1.0 -t 148
a7e262a
1480
uvx harbor run -d satbench@1.0 -t 1480
a7e262a
1481
uvx harbor run -d satbench@1.0 -t 1481
a7e262a
1482
uvx harbor run -d satbench@1.0 -t 1482
a7e262a
1483
uvx harbor run -d satbench@1.0 -t 1483
a7e262a
1484
uvx harbor run -d satbench@1.0 -t 1484
a7e262a
1485
uvx harbor run -d satbench@1.0 -t 1485
a7e262a
1486
uvx harbor run -d satbench@1.0 -t 1486
a7e262a
1487
uvx harbor run -d satbench@1.0 -t 1487
a7e262a
1488
uvx harbor run -d satbench@1.0 -t 1488
a7e262a
1489
uvx harbor run -d satbench@1.0 -t 1489
a7e262a
149
uvx harbor run -d satbench@1.0 -t 149
a7e262a
1490
uvx harbor run -d satbench@1.0 -t 1490
a7e262a
1491
uvx harbor run -d satbench@1.0 -t 1491
a7e262a
1492
uvx harbor run -d satbench@1.0 -t 1492
a7e262a
1493
uvx harbor run -d satbench@1.0 -t 1493
a7e262a
1494
uvx harbor run -d satbench@1.0 -t 1494
a7e262a
1495
uvx harbor run -d satbench@1.0 -t 1495
a7e262a
1496
uvx harbor run -d satbench@1.0 -t 1496
a7e262a
1497
uvx harbor run -d satbench@1.0 -t 1497
a7e262a
1498
uvx harbor run -d satbench@1.0 -t 1498
a7e262a
1499
uvx harbor run -d satbench@1.0 -t 1499
a7e262a
15
uvx harbor run -d satbench@1.0 -t 15
a7e262a
150
uvx harbor run -d satbench@1.0 -t 150
a7e262a
1500
uvx harbor run -d satbench@1.0 -t 1500
a7e262a
1501
uvx harbor run -d satbench@1.0 -t 1501
a7e262a
1502
uvx harbor run -d satbench@1.0 -t 1502
a7e262a
1503
uvx harbor run -d satbench@1.0 -t 1503
a7e262a
1504
uvx harbor run -d satbench@1.0 -t 1504
a7e262a
1505
uvx harbor run -d satbench@1.0 -t 1505
a7e262a
1506
uvx harbor run -d satbench@1.0 -t 1506
a7e262a
1507
uvx harbor run -d satbench@1.0 -t 1507
a7e262a
1508
uvx harbor run -d satbench@1.0 -t 1508
a7e262a
1509
uvx harbor run -d satbench@1.0 -t 1509
a7e262a
151
uvx harbor run -d satbench@1.0 -t 151
a7e262a
1510
uvx harbor run -d satbench@1.0 -t 1510
a7e262a
1511
uvx harbor run -d satbench@1.0 -t 1511
a7e262a
1512
uvx harbor run -d satbench@1.0 -t 1512
a7e262a
1513
uvx harbor run -d satbench@1.0 -t 1513
a7e262a
1514
uvx harbor run -d satbench@1.0 -t 1514
a7e262a
1515
uvx harbor run -d satbench@1.0 -t 1515
a7e262a
1516
uvx harbor run -d satbench@1.0 -t 1516
a7e262a
1517
uvx harbor run -d satbench@1.0 -t 1517
a7e262a
1518
uvx harbor run -d satbench@1.0 -t 1518
a7e262a
1519
uvx harbor run -d satbench@1.0 -t 1519
a7e262a
152
uvx harbor run -d satbench@1.0 -t 152
a7e262a
1520
uvx harbor run -d satbench@1.0 -t 1520
a7e262a
1521
uvx harbor run -d satbench@1.0 -t 1521
a7e262a
1522
uvx harbor run -d satbench@1.0 -t 1522
a7e262a
1523
uvx harbor run -d satbench@1.0 -t 1523
a7e262a
1524
uvx harbor run -d satbench@1.0 -t 1524
a7e262a
1525
uvx harbor run -d satbench@1.0 -t 1525
a7e262a
1526
uvx harbor run -d satbench@1.0 -t 1526
a7e262a
1527
uvx harbor run -d satbench@1.0 -t 1527
a7e262a
1528
uvx harbor run -d satbench@1.0 -t 1528
a7e262a
1529
uvx harbor run -d satbench@1.0 -t 1529
a7e262a
153
uvx harbor run -d satbench@1.0 -t 153
a7e262a
1530
uvx harbor run -d satbench@1.0 -t 1530
a7e262a
1531
uvx harbor run -d satbench@1.0 -t 1531
a7e262a
1532
uvx harbor run -d satbench@1.0 -t 1532
a7e262a
1533
uvx harbor run -d satbench@1.0 -t 1533
a7e262a
1534
uvx harbor run -d satbench@1.0 -t 1534
a7e262a
1535
uvx harbor run -d satbench@1.0 -t 1535
a7e262a
1536
uvx harbor run -d satbench@1.0 -t 1536
a7e262a
1537
uvx harbor run -d satbench@1.0 -t 1537
a7e262a