satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1538
uvx harbor run -d satbench@1.0 -t 1538a7e262a
1539
uvx harbor run -d satbench@1.0 -t 1539a7e262a
154
uvx harbor run -d satbench@1.0 -t 154a7e262a
1540
uvx harbor run -d satbench@1.0 -t 1540a7e262a
1541
uvx harbor run -d satbench@1.0 -t 1541a7e262a
1542
uvx harbor run -d satbench@1.0 -t 1542a7e262a
1543
uvx harbor run -d satbench@1.0 -t 1543a7e262a
1544
uvx harbor run -d satbench@1.0 -t 1544a7e262a
1545
uvx harbor run -d satbench@1.0 -t 1545a7e262a
1546
uvx harbor run -d satbench@1.0 -t 1546a7e262a
1547
uvx harbor run -d satbench@1.0 -t 1547a7e262a
1548
uvx harbor run -d satbench@1.0 -t 1548a7e262a
1549
uvx harbor run -d satbench@1.0 -t 1549a7e262a
155
uvx harbor run -d satbench@1.0 -t 155a7e262a
1550
uvx harbor run -d satbench@1.0 -t 1550a7e262a
1551
uvx harbor run -d satbench@1.0 -t 1551a7e262a
1552
uvx harbor run -d satbench@1.0 -t 1552a7e262a
1553
uvx harbor run -d satbench@1.0 -t 1553a7e262a
1554
uvx harbor run -d satbench@1.0 -t 1554a7e262a
1555
uvx harbor run -d satbench@1.0 -t 1555a7e262a
1556
uvx harbor run -d satbench@1.0 -t 1556a7e262a
1557
uvx harbor run -d satbench@1.0 -t 1557a7e262a
1558
uvx harbor run -d satbench@1.0 -t 1558a7e262a
1559
uvx harbor run -d satbench@1.0 -t 1559a7e262a
156
uvx harbor run -d satbench@1.0 -t 156a7e262a
1560
uvx harbor run -d satbench@1.0 -t 1560a7e262a
1561
uvx harbor run -d satbench@1.0 -t 1561a7e262a
1562
uvx harbor run -d satbench@1.0 -t 1562a7e262a
1563
uvx harbor run -d satbench@1.0 -t 1563a7e262a
1564
uvx harbor run -d satbench@1.0 -t 1564a7e262a
1565
uvx harbor run -d satbench@1.0 -t 1565a7e262a
1566
uvx harbor run -d satbench@1.0 -t 1566a7e262a
1567
uvx harbor run -d satbench@1.0 -t 1567a7e262a
1568
uvx harbor run -d satbench@1.0 -t 1568a7e262a
1569
uvx harbor run -d satbench@1.0 -t 1569a7e262a
157
uvx harbor run -d satbench@1.0 -t 157a7e262a
1570
uvx harbor run -d satbench@1.0 -t 1570a7e262a
1571
uvx harbor run -d satbench@1.0 -t 1571a7e262a
1572
uvx harbor run -d satbench@1.0 -t 1572a7e262a
1573
uvx harbor run -d satbench@1.0 -t 1573a7e262a
1574
uvx harbor run -d satbench@1.0 -t 1574a7e262a
1575
uvx harbor run -d satbench@1.0 -t 1575a7e262a
1576
uvx harbor run -d satbench@1.0 -t 1576a7e262a
1577
uvx harbor run -d satbench@1.0 -t 1577a7e262a
1578
uvx harbor run -d satbench@1.0 -t 1578a7e262a
1579
uvx harbor run -d satbench@1.0 -t 1579a7e262a
158
uvx harbor run -d satbench@1.0 -t 158a7e262a
1580
uvx harbor run -d satbench@1.0 -t 1580a7e262a
1581
uvx harbor run -d satbench@1.0 -t 1581a7e262a
1582
uvx harbor run -d satbench@1.0 -t 1582a7e262a
1583
uvx harbor run -d satbench@1.0 -t 1583a7e262a
1584
uvx harbor run -d satbench@1.0 -t 1584a7e262a
1585
uvx harbor run -d satbench@1.0 -t 1585a7e262a
1586
uvx harbor run -d satbench@1.0 -t 1586a7e262a
1587
uvx harbor run -d satbench@1.0 -t 1587a7e262a
1588
uvx harbor run -d satbench@1.0 -t 1588a7e262a
1589
uvx harbor run -d satbench@1.0 -t 1589a7e262a
159
uvx harbor run -d satbench@1.0 -t 159a7e262a
1590
uvx harbor run -d satbench@1.0 -t 1590a7e262a
1591
uvx harbor run -d satbench@1.0 -t 1591a7e262a
1592
uvx harbor run -d satbench@1.0 -t 1592a7e262a
1593
uvx harbor run -d satbench@1.0 -t 1593a7e262a
1594
uvx harbor run -d satbench@1.0 -t 1594a7e262a
1595
uvx harbor run -d satbench@1.0 -t 1595a7e262a
1596
uvx harbor run -d satbench@1.0 -t 1596a7e262a
1597
uvx harbor run -d satbench@1.0 -t 1597a7e262a
1598
uvx harbor run -d satbench@1.0 -t 1598a7e262a
1599
uvx harbor run -d satbench@1.0 -t 1599a7e262a
16
uvx harbor run -d satbench@1.0 -t 16a7e262a
160
uvx harbor run -d satbench@1.0 -t 160a7e262a
1600
uvx harbor run -d satbench@1.0 -t 1600a7e262a
1601
uvx harbor run -d satbench@1.0 -t 1601a7e262a
1602
uvx harbor run -d satbench@1.0 -t 1602a7e262a
1603
uvx harbor run -d satbench@1.0 -t 1603a7e262a
1604
uvx harbor run -d satbench@1.0 -t 1604a7e262a
1605
uvx harbor run -d satbench@1.0 -t 1605a7e262a
1606
uvx harbor run -d satbench@1.0 -t 1606a7e262a
1607
uvx harbor run -d satbench@1.0 -t 1607a7e262a
1608
uvx harbor run -d satbench@1.0 -t 1608a7e262a
1609
uvx harbor run -d satbench@1.0 -t 1609a7e262a
161
uvx harbor run -d satbench@1.0 -t 161a7e262a
1610
uvx harbor run -d satbench@1.0 -t 1610a7e262a
1611
uvx harbor run -d satbench@1.0 -t 1611a7e262a
1612
uvx harbor run -d satbench@1.0 -t 1612a7e262a
1613
uvx harbor run -d satbench@1.0 -t 1613a7e262a
1614
uvx harbor run -d satbench@1.0 -t 1614a7e262a
1615
uvx harbor run -d satbench@1.0 -t 1615a7e262a
1616
uvx harbor run -d satbench@1.0 -t 1616a7e262a
1617
uvx harbor run -d satbench@1.0 -t 1617a7e262a
1618
uvx harbor run -d satbench@1.0 -t 1618a7e262a
1619
uvx harbor run -d satbench@1.0 -t 1619a7e262a
162
uvx harbor run -d satbench@1.0 -t 162a7e262a
1620
uvx harbor run -d satbench@1.0 -t 1620a7e262a
1621
uvx harbor run -d satbench@1.0 -t 1621a7e262a
1622
uvx harbor run -d satbench@1.0 -t 1622a7e262a
1623
uvx harbor run -d satbench@1.0 -t 1623a7e262a
1624
uvx harbor run -d satbench@1.0 -t 1624a7e262a
1625
uvx harbor run -d satbench@1.0 -t 1625a7e262a
1626
uvx harbor run -d satbench@1.0 -t 1626a7e262a
1627
uvx harbor run -d satbench@1.0 -t 1627a7e262a