satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1628
uvx harbor run -d satbench@1.0 -t 1628a7e262a
1629
uvx harbor run -d satbench@1.0 -t 1629a7e262a
163
uvx harbor run -d satbench@1.0 -t 163a7e262a
1630
uvx harbor run -d satbench@1.0 -t 1630a7e262a
1631
uvx harbor run -d satbench@1.0 -t 1631a7e262a
1632
uvx harbor run -d satbench@1.0 -t 1632a7e262a
1633
uvx harbor run -d satbench@1.0 -t 1633a7e262a
1634
uvx harbor run -d satbench@1.0 -t 1634a7e262a
1635
uvx harbor run -d satbench@1.0 -t 1635a7e262a
1636
uvx harbor run -d satbench@1.0 -t 1636a7e262a
1637
uvx harbor run -d satbench@1.0 -t 1637a7e262a
1638
uvx harbor run -d satbench@1.0 -t 1638a7e262a
1639
uvx harbor run -d satbench@1.0 -t 1639a7e262a
164
uvx harbor run -d satbench@1.0 -t 164a7e262a
1640
uvx harbor run -d satbench@1.0 -t 1640a7e262a
1641
uvx harbor run -d satbench@1.0 -t 1641a7e262a
1642
uvx harbor run -d satbench@1.0 -t 1642a7e262a
1643
uvx harbor run -d satbench@1.0 -t 1643a7e262a
1644
uvx harbor run -d satbench@1.0 -t 1644a7e262a
1645
uvx harbor run -d satbench@1.0 -t 1645a7e262a
1646
uvx harbor run -d satbench@1.0 -t 1646a7e262a
1647
uvx harbor run -d satbench@1.0 -t 1647a7e262a
1648
uvx harbor run -d satbench@1.0 -t 1648a7e262a
1649
uvx harbor run -d satbench@1.0 -t 1649a7e262a
165
uvx harbor run -d satbench@1.0 -t 165a7e262a
1650
uvx harbor run -d satbench@1.0 -t 1650a7e262a
1651
uvx harbor run -d satbench@1.0 -t 1651a7e262a
1652
uvx harbor run -d satbench@1.0 -t 1652a7e262a
1653
uvx harbor run -d satbench@1.0 -t 1653a7e262a
1654
uvx harbor run -d satbench@1.0 -t 1654a7e262a
1655
uvx harbor run -d satbench@1.0 -t 1655a7e262a
1656
uvx harbor run -d satbench@1.0 -t 1656a7e262a
1657
uvx harbor run -d satbench@1.0 -t 1657a7e262a
1658
uvx harbor run -d satbench@1.0 -t 1658a7e262a
1659
uvx harbor run -d satbench@1.0 -t 1659a7e262a
166
uvx harbor run -d satbench@1.0 -t 166a7e262a
1660
uvx harbor run -d satbench@1.0 -t 1660a7e262a
1661
uvx harbor run -d satbench@1.0 -t 1661a7e262a
1662
uvx harbor run -d satbench@1.0 -t 1662a7e262a
1663
uvx harbor run -d satbench@1.0 -t 1663a7e262a
1664
uvx harbor run -d satbench@1.0 -t 1664a7e262a
1665
uvx harbor run -d satbench@1.0 -t 1665a7e262a
1666
uvx harbor run -d satbench@1.0 -t 1666a7e262a
1667
uvx harbor run -d satbench@1.0 -t 1667a7e262a
1668
uvx harbor run -d satbench@1.0 -t 1668a7e262a
1669
uvx harbor run -d satbench@1.0 -t 1669a7e262a
167
uvx harbor run -d satbench@1.0 -t 167a7e262a
1670
uvx harbor run -d satbench@1.0 -t 1670a7e262a
1671
uvx harbor run -d satbench@1.0 -t 1671a7e262a
1672
uvx harbor run -d satbench@1.0 -t 1672a7e262a
1673
uvx harbor run -d satbench@1.0 -t 1673a7e262a
1674
uvx harbor run -d satbench@1.0 -t 1674a7e262a
1675
uvx harbor run -d satbench@1.0 -t 1675a7e262a
1676
uvx harbor run -d satbench@1.0 -t 1676a7e262a
1677
uvx harbor run -d satbench@1.0 -t 1677a7e262a
1678
uvx harbor run -d satbench@1.0 -t 1678a7e262a
1679
uvx harbor run -d satbench@1.0 -t 1679a7e262a
168
uvx harbor run -d satbench@1.0 -t 168a7e262a
1680
uvx harbor run -d satbench@1.0 -t 1680a7e262a
1681
uvx harbor run -d satbench@1.0 -t 1681a7e262a
1682
uvx harbor run -d satbench@1.0 -t 1682a7e262a
1683
uvx harbor run -d satbench@1.0 -t 1683a7e262a
1684
uvx harbor run -d satbench@1.0 -t 1684a7e262a
1685
uvx harbor run -d satbench@1.0 -t 1685a7e262a
1686
uvx harbor run -d satbench@1.0 -t 1686a7e262a
1687
uvx harbor run -d satbench@1.0 -t 1687a7e262a
1688
uvx harbor run -d satbench@1.0 -t 1688a7e262a
1689
uvx harbor run -d satbench@1.0 -t 1689a7e262a
169
uvx harbor run -d satbench@1.0 -t 169a7e262a
1690
uvx harbor run -d satbench@1.0 -t 1690a7e262a
1691
uvx harbor run -d satbench@1.0 -t 1691a7e262a
1692
uvx harbor run -d satbench@1.0 -t 1692a7e262a
1693
uvx harbor run -d satbench@1.0 -t 1693a7e262a
1694
uvx harbor run -d satbench@1.0 -t 1694a7e262a
1695
uvx harbor run -d satbench@1.0 -t 1695a7e262a
1696
uvx harbor run -d satbench@1.0 -t 1696a7e262a
1697
uvx harbor run -d satbench@1.0 -t 1697a7e262a
1698
uvx harbor run -d satbench@1.0 -t 1698a7e262a
1699
uvx harbor run -d satbench@1.0 -t 1699a7e262a
17
uvx harbor run -d satbench@1.0 -t 17a7e262a
170
uvx harbor run -d satbench@1.0 -t 170a7e262a
1700
uvx harbor run -d satbench@1.0 -t 1700a7e262a
1701
uvx harbor run -d satbench@1.0 -t 1701a7e262a
1702
uvx harbor run -d satbench@1.0 -t 1702a7e262a
1703
uvx harbor run -d satbench@1.0 -t 1703a7e262a
1704
uvx harbor run -d satbench@1.0 -t 1704a7e262a
1705
uvx harbor run -d satbench@1.0 -t 1705a7e262a
1706
uvx harbor run -d satbench@1.0 -t 1706a7e262a
1707
uvx harbor run -d satbench@1.0 -t 1707a7e262a
1708
uvx harbor run -d satbench@1.0 -t 1708a7e262a
1709
uvx harbor run -d satbench@1.0 -t 1709a7e262a
171
uvx harbor run -d satbench@1.0 -t 171a7e262a
1710
uvx harbor run -d satbench@1.0 -t 1710a7e262a
1711
uvx harbor run -d satbench@1.0 -t 1711a7e262a
1712
uvx harbor run -d satbench@1.0 -t 1712a7e262a
1713
uvx harbor run -d satbench@1.0 -t 1713a7e262a
1714
uvx harbor run -d satbench@1.0 -t 1714a7e262a
1715
uvx harbor run -d satbench@1.0 -t 1715a7e262a
1716
uvx harbor run -d satbench@1.0 -t 1716a7e262a
1717
uvx harbor run -d satbench@1.0 -t 1717a7e262a