satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1628
uvx harbor run -d satbench@1.0 -t 1628
a7e262a
1629
uvx harbor run -d satbench@1.0 -t 1629
a7e262a
163
uvx harbor run -d satbench@1.0 -t 163
a7e262a
1630
uvx harbor run -d satbench@1.0 -t 1630
a7e262a
1631
uvx harbor run -d satbench@1.0 -t 1631
a7e262a
1632
uvx harbor run -d satbench@1.0 -t 1632
a7e262a
1633
uvx harbor run -d satbench@1.0 -t 1633
a7e262a
1634
uvx harbor run -d satbench@1.0 -t 1634
a7e262a
1635
uvx harbor run -d satbench@1.0 -t 1635
a7e262a
1636
uvx harbor run -d satbench@1.0 -t 1636
a7e262a
1637
uvx harbor run -d satbench@1.0 -t 1637
a7e262a
1638
uvx harbor run -d satbench@1.0 -t 1638
a7e262a
1639
uvx harbor run -d satbench@1.0 -t 1639
a7e262a
164
uvx harbor run -d satbench@1.0 -t 164
a7e262a
1640
uvx harbor run -d satbench@1.0 -t 1640
a7e262a
1641
uvx harbor run -d satbench@1.0 -t 1641
a7e262a
1642
uvx harbor run -d satbench@1.0 -t 1642
a7e262a
1643
uvx harbor run -d satbench@1.0 -t 1643
a7e262a
1644
uvx harbor run -d satbench@1.0 -t 1644
a7e262a
1645
uvx harbor run -d satbench@1.0 -t 1645
a7e262a
1646
uvx harbor run -d satbench@1.0 -t 1646
a7e262a
1647
uvx harbor run -d satbench@1.0 -t 1647
a7e262a
1648
uvx harbor run -d satbench@1.0 -t 1648
a7e262a
1649
uvx harbor run -d satbench@1.0 -t 1649
a7e262a
165
uvx harbor run -d satbench@1.0 -t 165
a7e262a
1650
uvx harbor run -d satbench@1.0 -t 1650
a7e262a
1651
uvx harbor run -d satbench@1.0 -t 1651
a7e262a
1652
uvx harbor run -d satbench@1.0 -t 1652
a7e262a
1653
uvx harbor run -d satbench@1.0 -t 1653
a7e262a
1654
uvx harbor run -d satbench@1.0 -t 1654
a7e262a
1655
uvx harbor run -d satbench@1.0 -t 1655
a7e262a
1656
uvx harbor run -d satbench@1.0 -t 1656
a7e262a
1657
uvx harbor run -d satbench@1.0 -t 1657
a7e262a
1658
uvx harbor run -d satbench@1.0 -t 1658
a7e262a
1659
uvx harbor run -d satbench@1.0 -t 1659
a7e262a
166
uvx harbor run -d satbench@1.0 -t 166
a7e262a
1660
uvx harbor run -d satbench@1.0 -t 1660
a7e262a
1661
uvx harbor run -d satbench@1.0 -t 1661
a7e262a
1662
uvx harbor run -d satbench@1.0 -t 1662
a7e262a
1663
uvx harbor run -d satbench@1.0 -t 1663
a7e262a
1664
uvx harbor run -d satbench@1.0 -t 1664
a7e262a
1665
uvx harbor run -d satbench@1.0 -t 1665
a7e262a
1666
uvx harbor run -d satbench@1.0 -t 1666
a7e262a
1667
uvx harbor run -d satbench@1.0 -t 1667
a7e262a
1668
uvx harbor run -d satbench@1.0 -t 1668
a7e262a
1669
uvx harbor run -d satbench@1.0 -t 1669
a7e262a
167
uvx harbor run -d satbench@1.0 -t 167
a7e262a
1670
uvx harbor run -d satbench@1.0 -t 1670
a7e262a
1671
uvx harbor run -d satbench@1.0 -t 1671
a7e262a
1672
uvx harbor run -d satbench@1.0 -t 1672
a7e262a
1673
uvx harbor run -d satbench@1.0 -t 1673
a7e262a
1674
uvx harbor run -d satbench@1.0 -t 1674
a7e262a
1675
uvx harbor run -d satbench@1.0 -t 1675
a7e262a
1676
uvx harbor run -d satbench@1.0 -t 1676
a7e262a
1677
uvx harbor run -d satbench@1.0 -t 1677
a7e262a
1678
uvx harbor run -d satbench@1.0 -t 1678
a7e262a
1679
uvx harbor run -d satbench@1.0 -t 1679
a7e262a
168
uvx harbor run -d satbench@1.0 -t 168
a7e262a
1680
uvx harbor run -d satbench@1.0 -t 1680
a7e262a
1681
uvx harbor run -d satbench@1.0 -t 1681
a7e262a
1682
uvx harbor run -d satbench@1.0 -t 1682
a7e262a
1683
uvx harbor run -d satbench@1.0 -t 1683
a7e262a
1684
uvx harbor run -d satbench@1.0 -t 1684
a7e262a
1685
uvx harbor run -d satbench@1.0 -t 1685
a7e262a
1686
uvx harbor run -d satbench@1.0 -t 1686
a7e262a
1687
uvx harbor run -d satbench@1.0 -t 1687
a7e262a
1688
uvx harbor run -d satbench@1.0 -t 1688
a7e262a
1689
uvx harbor run -d satbench@1.0 -t 1689
a7e262a
169
uvx harbor run -d satbench@1.0 -t 169
a7e262a
1690
uvx harbor run -d satbench@1.0 -t 1690
a7e262a
1691
uvx harbor run -d satbench@1.0 -t 1691
a7e262a
1692
uvx harbor run -d satbench@1.0 -t 1692
a7e262a
1693
uvx harbor run -d satbench@1.0 -t 1693
a7e262a
1694
uvx harbor run -d satbench@1.0 -t 1694
a7e262a
1695
uvx harbor run -d satbench@1.0 -t 1695
a7e262a
1696
uvx harbor run -d satbench@1.0 -t 1696
a7e262a
1697
uvx harbor run -d satbench@1.0 -t 1697
a7e262a
1698
uvx harbor run -d satbench@1.0 -t 1698
a7e262a
1699
uvx harbor run -d satbench@1.0 -t 1699
a7e262a
17
uvx harbor run -d satbench@1.0 -t 17
a7e262a
170
uvx harbor run -d satbench@1.0 -t 170
a7e262a
1700
uvx harbor run -d satbench@1.0 -t 1700
a7e262a
1701
uvx harbor run -d satbench@1.0 -t 1701
a7e262a
1702
uvx harbor run -d satbench@1.0 -t 1702
a7e262a
1703
uvx harbor run -d satbench@1.0 -t 1703
a7e262a
1704
uvx harbor run -d satbench@1.0 -t 1704
a7e262a
1705
uvx harbor run -d satbench@1.0 -t 1705
a7e262a
1706
uvx harbor run -d satbench@1.0 -t 1706
a7e262a
1707
uvx harbor run -d satbench@1.0 -t 1707
a7e262a
1708
uvx harbor run -d satbench@1.0 -t 1708
a7e262a
1709
uvx harbor run -d satbench@1.0 -t 1709
a7e262a
171
uvx harbor run -d satbench@1.0 -t 171
a7e262a
1710
uvx harbor run -d satbench@1.0 -t 1710
a7e262a
1711
uvx harbor run -d satbench@1.0 -t 1711
a7e262a
1712
uvx harbor run -d satbench@1.0 -t 1712
a7e262a
1713
uvx harbor run -d satbench@1.0 -t 1713
a7e262a
1714
uvx harbor run -d satbench@1.0 -t 1714
a7e262a
1715
uvx harbor run -d satbench@1.0 -t 1715
a7e262a
1716
uvx harbor run -d satbench@1.0 -t 1716
a7e262a
1717
uvx harbor run -d satbench@1.0 -t 1717
a7e262a