satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1718
uvx harbor run -d satbench@1.0 -t 1718a7e262a
1719
uvx harbor run -d satbench@1.0 -t 1719a7e262a
172
uvx harbor run -d satbench@1.0 -t 172a7e262a
1720
uvx harbor run -d satbench@1.0 -t 1720a7e262a
1721
uvx harbor run -d satbench@1.0 -t 1721a7e262a
1722
uvx harbor run -d satbench@1.0 -t 1722a7e262a
1723
uvx harbor run -d satbench@1.0 -t 1723a7e262a
1724
uvx harbor run -d satbench@1.0 -t 1724a7e262a
1725
uvx harbor run -d satbench@1.0 -t 1725a7e262a
1726
uvx harbor run -d satbench@1.0 -t 1726a7e262a
1727
uvx harbor run -d satbench@1.0 -t 1727a7e262a
1728
uvx harbor run -d satbench@1.0 -t 1728a7e262a
1729
uvx harbor run -d satbench@1.0 -t 1729a7e262a
173
uvx harbor run -d satbench@1.0 -t 173a7e262a
1730
uvx harbor run -d satbench@1.0 -t 1730a7e262a
1731
uvx harbor run -d satbench@1.0 -t 1731a7e262a
1732
uvx harbor run -d satbench@1.0 -t 1732a7e262a
1733
uvx harbor run -d satbench@1.0 -t 1733a7e262a
1734
uvx harbor run -d satbench@1.0 -t 1734a7e262a
1735
uvx harbor run -d satbench@1.0 -t 1735a7e262a
1736
uvx harbor run -d satbench@1.0 -t 1736a7e262a
1737
uvx harbor run -d satbench@1.0 -t 1737a7e262a
1738
uvx harbor run -d satbench@1.0 -t 1738a7e262a
1739
uvx harbor run -d satbench@1.0 -t 1739a7e262a
174
uvx harbor run -d satbench@1.0 -t 174a7e262a
1740
uvx harbor run -d satbench@1.0 -t 1740a7e262a
1741
uvx harbor run -d satbench@1.0 -t 1741a7e262a
1742
uvx harbor run -d satbench@1.0 -t 1742a7e262a
1743
uvx harbor run -d satbench@1.0 -t 1743a7e262a
1744
uvx harbor run -d satbench@1.0 -t 1744a7e262a
1745
uvx harbor run -d satbench@1.0 -t 1745a7e262a
1746
uvx harbor run -d satbench@1.0 -t 1746a7e262a
1747
uvx harbor run -d satbench@1.0 -t 1747a7e262a
1748
uvx harbor run -d satbench@1.0 -t 1748a7e262a
1749
uvx harbor run -d satbench@1.0 -t 1749a7e262a
175
uvx harbor run -d satbench@1.0 -t 175a7e262a
1750
uvx harbor run -d satbench@1.0 -t 1750a7e262a
1751
uvx harbor run -d satbench@1.0 -t 1751a7e262a
1752
uvx harbor run -d satbench@1.0 -t 1752a7e262a
1753
uvx harbor run -d satbench@1.0 -t 1753a7e262a
1754
uvx harbor run -d satbench@1.0 -t 1754a7e262a
1755
uvx harbor run -d satbench@1.0 -t 1755a7e262a
1756
uvx harbor run -d satbench@1.0 -t 1756a7e262a
1757
uvx harbor run -d satbench@1.0 -t 1757a7e262a
1758
uvx harbor run -d satbench@1.0 -t 1758a7e262a
1759
uvx harbor run -d satbench@1.0 -t 1759a7e262a
176
uvx harbor run -d satbench@1.0 -t 176a7e262a
1760
uvx harbor run -d satbench@1.0 -t 1760a7e262a
1761
uvx harbor run -d satbench@1.0 -t 1761a7e262a
1762
uvx harbor run -d satbench@1.0 -t 1762a7e262a
1763
uvx harbor run -d satbench@1.0 -t 1763a7e262a
1764
uvx harbor run -d satbench@1.0 -t 1764a7e262a
1765
uvx harbor run -d satbench@1.0 -t 1765a7e262a
1766
uvx harbor run -d satbench@1.0 -t 1766a7e262a
1767
uvx harbor run -d satbench@1.0 -t 1767a7e262a
1768
uvx harbor run -d satbench@1.0 -t 1768a7e262a
1769
uvx harbor run -d satbench@1.0 -t 1769a7e262a
177
uvx harbor run -d satbench@1.0 -t 177a7e262a
1770
uvx harbor run -d satbench@1.0 -t 1770a7e262a
1771
uvx harbor run -d satbench@1.0 -t 1771a7e262a
1772
uvx harbor run -d satbench@1.0 -t 1772a7e262a
1773
uvx harbor run -d satbench@1.0 -t 1773a7e262a
1774
uvx harbor run -d satbench@1.0 -t 1774a7e262a
1775
uvx harbor run -d satbench@1.0 -t 1775a7e262a
1776
uvx harbor run -d satbench@1.0 -t 1776a7e262a
1777
uvx harbor run -d satbench@1.0 -t 1777a7e262a
1778
uvx harbor run -d satbench@1.0 -t 1778a7e262a
1779
uvx harbor run -d satbench@1.0 -t 1779a7e262a
178
uvx harbor run -d satbench@1.0 -t 178a7e262a
1780
uvx harbor run -d satbench@1.0 -t 1780a7e262a
1781
uvx harbor run -d satbench@1.0 -t 1781a7e262a
1782
uvx harbor run -d satbench@1.0 -t 1782a7e262a
1783
uvx harbor run -d satbench@1.0 -t 1783a7e262a
1784
uvx harbor run -d satbench@1.0 -t 1784a7e262a
1785
uvx harbor run -d satbench@1.0 -t 1785a7e262a
1786
uvx harbor run -d satbench@1.0 -t 1786a7e262a
1787
uvx harbor run -d satbench@1.0 -t 1787a7e262a
1788
uvx harbor run -d satbench@1.0 -t 1788a7e262a
1789
uvx harbor run -d satbench@1.0 -t 1789a7e262a
179
uvx harbor run -d satbench@1.0 -t 179a7e262a
1790
uvx harbor run -d satbench@1.0 -t 1790a7e262a
1791
uvx harbor run -d satbench@1.0 -t 1791a7e262a
1792
uvx harbor run -d satbench@1.0 -t 1792a7e262a
1793
uvx harbor run -d satbench@1.0 -t 1793a7e262a
1794
uvx harbor run -d satbench@1.0 -t 1794a7e262a
1795
uvx harbor run -d satbench@1.0 -t 1795a7e262a
1796
uvx harbor run -d satbench@1.0 -t 1796a7e262a
1797
uvx harbor run -d satbench@1.0 -t 1797a7e262a
1798
uvx harbor run -d satbench@1.0 -t 1798a7e262a
1799
uvx harbor run -d satbench@1.0 -t 1799a7e262a
18
uvx harbor run -d satbench@1.0 -t 18a7e262a
180
uvx harbor run -d satbench@1.0 -t 180a7e262a
1800
uvx harbor run -d satbench@1.0 -t 1800a7e262a
1801
uvx harbor run -d satbench@1.0 -t 1801a7e262a
1802
uvx harbor run -d satbench@1.0 -t 1802a7e262a
1803
uvx harbor run -d satbench@1.0 -t 1803a7e262a
1804
uvx harbor run -d satbench@1.0 -t 1804a7e262a
1805
uvx harbor run -d satbench@1.0 -t 1805a7e262a
1806
uvx harbor run -d satbench@1.0 -t 1806a7e262a
1807
uvx harbor run -d satbench@1.0 -t 1807a7e262a