satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1718
uvx harbor run -d satbench@1.0 -t 1718
a7e262a
1719
uvx harbor run -d satbench@1.0 -t 1719
a7e262a
172
uvx harbor run -d satbench@1.0 -t 172
a7e262a
1720
uvx harbor run -d satbench@1.0 -t 1720
a7e262a
1721
uvx harbor run -d satbench@1.0 -t 1721
a7e262a
1722
uvx harbor run -d satbench@1.0 -t 1722
a7e262a
1723
uvx harbor run -d satbench@1.0 -t 1723
a7e262a
1724
uvx harbor run -d satbench@1.0 -t 1724
a7e262a
1725
uvx harbor run -d satbench@1.0 -t 1725
a7e262a
1726
uvx harbor run -d satbench@1.0 -t 1726
a7e262a
1727
uvx harbor run -d satbench@1.0 -t 1727
a7e262a
1728
uvx harbor run -d satbench@1.0 -t 1728
a7e262a
1729
uvx harbor run -d satbench@1.0 -t 1729
a7e262a
173
uvx harbor run -d satbench@1.0 -t 173
a7e262a
1730
uvx harbor run -d satbench@1.0 -t 1730
a7e262a
1731
uvx harbor run -d satbench@1.0 -t 1731
a7e262a
1732
uvx harbor run -d satbench@1.0 -t 1732
a7e262a
1733
uvx harbor run -d satbench@1.0 -t 1733
a7e262a
1734
uvx harbor run -d satbench@1.0 -t 1734
a7e262a
1735
uvx harbor run -d satbench@1.0 -t 1735
a7e262a
1736
uvx harbor run -d satbench@1.0 -t 1736
a7e262a
1737
uvx harbor run -d satbench@1.0 -t 1737
a7e262a
1738
uvx harbor run -d satbench@1.0 -t 1738
a7e262a
1739
uvx harbor run -d satbench@1.0 -t 1739
a7e262a
174
uvx harbor run -d satbench@1.0 -t 174
a7e262a
1740
uvx harbor run -d satbench@1.0 -t 1740
a7e262a
1741
uvx harbor run -d satbench@1.0 -t 1741
a7e262a
1742
uvx harbor run -d satbench@1.0 -t 1742
a7e262a
1743
uvx harbor run -d satbench@1.0 -t 1743
a7e262a
1744
uvx harbor run -d satbench@1.0 -t 1744
a7e262a
1745
uvx harbor run -d satbench@1.0 -t 1745
a7e262a
1746
uvx harbor run -d satbench@1.0 -t 1746
a7e262a
1747
uvx harbor run -d satbench@1.0 -t 1747
a7e262a
1748
uvx harbor run -d satbench@1.0 -t 1748
a7e262a
1749
uvx harbor run -d satbench@1.0 -t 1749
a7e262a
175
uvx harbor run -d satbench@1.0 -t 175
a7e262a
1750
uvx harbor run -d satbench@1.0 -t 1750
a7e262a
1751
uvx harbor run -d satbench@1.0 -t 1751
a7e262a
1752
uvx harbor run -d satbench@1.0 -t 1752
a7e262a
1753
uvx harbor run -d satbench@1.0 -t 1753
a7e262a
1754
uvx harbor run -d satbench@1.0 -t 1754
a7e262a
1755
uvx harbor run -d satbench@1.0 -t 1755
a7e262a
1756
uvx harbor run -d satbench@1.0 -t 1756
a7e262a
1757
uvx harbor run -d satbench@1.0 -t 1757
a7e262a
1758
uvx harbor run -d satbench@1.0 -t 1758
a7e262a
1759
uvx harbor run -d satbench@1.0 -t 1759
a7e262a
176
uvx harbor run -d satbench@1.0 -t 176
a7e262a
1760
uvx harbor run -d satbench@1.0 -t 1760
a7e262a
1761
uvx harbor run -d satbench@1.0 -t 1761
a7e262a
1762
uvx harbor run -d satbench@1.0 -t 1762
a7e262a
1763
uvx harbor run -d satbench@1.0 -t 1763
a7e262a
1764
uvx harbor run -d satbench@1.0 -t 1764
a7e262a
1765
uvx harbor run -d satbench@1.0 -t 1765
a7e262a
1766
uvx harbor run -d satbench@1.0 -t 1766
a7e262a
1767
uvx harbor run -d satbench@1.0 -t 1767
a7e262a
1768
uvx harbor run -d satbench@1.0 -t 1768
a7e262a
1769
uvx harbor run -d satbench@1.0 -t 1769
a7e262a
177
uvx harbor run -d satbench@1.0 -t 177
a7e262a
1770
uvx harbor run -d satbench@1.0 -t 1770
a7e262a
1771
uvx harbor run -d satbench@1.0 -t 1771
a7e262a
1772
uvx harbor run -d satbench@1.0 -t 1772
a7e262a
1773
uvx harbor run -d satbench@1.0 -t 1773
a7e262a
1774
uvx harbor run -d satbench@1.0 -t 1774
a7e262a
1775
uvx harbor run -d satbench@1.0 -t 1775
a7e262a
1776
uvx harbor run -d satbench@1.0 -t 1776
a7e262a
1777
uvx harbor run -d satbench@1.0 -t 1777
a7e262a
1778
uvx harbor run -d satbench@1.0 -t 1778
a7e262a
1779
uvx harbor run -d satbench@1.0 -t 1779
a7e262a
178
uvx harbor run -d satbench@1.0 -t 178
a7e262a
1780
uvx harbor run -d satbench@1.0 -t 1780
a7e262a
1781
uvx harbor run -d satbench@1.0 -t 1781
a7e262a
1782
uvx harbor run -d satbench@1.0 -t 1782
a7e262a
1783
uvx harbor run -d satbench@1.0 -t 1783
a7e262a
1784
uvx harbor run -d satbench@1.0 -t 1784
a7e262a
1785
uvx harbor run -d satbench@1.0 -t 1785
a7e262a
1786
uvx harbor run -d satbench@1.0 -t 1786
a7e262a
1787
uvx harbor run -d satbench@1.0 -t 1787
a7e262a
1788
uvx harbor run -d satbench@1.0 -t 1788
a7e262a
1789
uvx harbor run -d satbench@1.0 -t 1789
a7e262a
179
uvx harbor run -d satbench@1.0 -t 179
a7e262a
1790
uvx harbor run -d satbench@1.0 -t 1790
a7e262a
1791
uvx harbor run -d satbench@1.0 -t 1791
a7e262a
1792
uvx harbor run -d satbench@1.0 -t 1792
a7e262a
1793
uvx harbor run -d satbench@1.0 -t 1793
a7e262a
1794
uvx harbor run -d satbench@1.0 -t 1794
a7e262a
1795
uvx harbor run -d satbench@1.0 -t 1795
a7e262a
1796
uvx harbor run -d satbench@1.0 -t 1796
a7e262a
1797
uvx harbor run -d satbench@1.0 -t 1797
a7e262a
1798
uvx harbor run -d satbench@1.0 -t 1798
a7e262a
1799
uvx harbor run -d satbench@1.0 -t 1799
a7e262a
18
uvx harbor run -d satbench@1.0 -t 18
a7e262a
180
uvx harbor run -d satbench@1.0 -t 180
a7e262a
1800
uvx harbor run -d satbench@1.0 -t 1800
a7e262a
1801
uvx harbor run -d satbench@1.0 -t 1801
a7e262a
1802
uvx harbor run -d satbench@1.0 -t 1802
a7e262a
1803
uvx harbor run -d satbench@1.0 -t 1803
a7e262a
1804
uvx harbor run -d satbench@1.0 -t 1804
a7e262a
1805
uvx harbor run -d satbench@1.0 -t 1805
a7e262a
1806
uvx harbor run -d satbench@1.0 -t 1806
a7e262a
1807
uvx harbor run -d satbench@1.0 -t 1807
a7e262a