satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1808
uvx harbor run -d satbench@1.0 -t 1808a7e262a
1809
uvx harbor run -d satbench@1.0 -t 1809a7e262a
181
uvx harbor run -d satbench@1.0 -t 181a7e262a
1810
uvx harbor run -d satbench@1.0 -t 1810a7e262a
1811
uvx harbor run -d satbench@1.0 -t 1811a7e262a
1812
uvx harbor run -d satbench@1.0 -t 1812a7e262a
1813
uvx harbor run -d satbench@1.0 -t 1813a7e262a
1814
uvx harbor run -d satbench@1.0 -t 1814a7e262a
1815
uvx harbor run -d satbench@1.0 -t 1815a7e262a
1816
uvx harbor run -d satbench@1.0 -t 1816a7e262a
1817
uvx harbor run -d satbench@1.0 -t 1817a7e262a
1818
uvx harbor run -d satbench@1.0 -t 1818a7e262a
1819
uvx harbor run -d satbench@1.0 -t 1819a7e262a
182
uvx harbor run -d satbench@1.0 -t 182a7e262a
1820
uvx harbor run -d satbench@1.0 -t 1820a7e262a
1821
uvx harbor run -d satbench@1.0 -t 1821a7e262a
1822
uvx harbor run -d satbench@1.0 -t 1822a7e262a
1823
uvx harbor run -d satbench@1.0 -t 1823a7e262a
1824
uvx harbor run -d satbench@1.0 -t 1824a7e262a
1825
uvx harbor run -d satbench@1.0 -t 1825a7e262a
1826
uvx harbor run -d satbench@1.0 -t 1826a7e262a
1827
uvx harbor run -d satbench@1.0 -t 1827a7e262a
1828
uvx harbor run -d satbench@1.0 -t 1828a7e262a
1829
uvx harbor run -d satbench@1.0 -t 1829a7e262a
183
uvx harbor run -d satbench@1.0 -t 183a7e262a
1830
uvx harbor run -d satbench@1.0 -t 1830a7e262a
1831
uvx harbor run -d satbench@1.0 -t 1831a7e262a
1832
uvx harbor run -d satbench@1.0 -t 1832a7e262a
1833
uvx harbor run -d satbench@1.0 -t 1833a7e262a
1834
uvx harbor run -d satbench@1.0 -t 1834a7e262a
1835
uvx harbor run -d satbench@1.0 -t 1835a7e262a
1836
uvx harbor run -d satbench@1.0 -t 1836a7e262a
1837
uvx harbor run -d satbench@1.0 -t 1837a7e262a
1838
uvx harbor run -d satbench@1.0 -t 1838a7e262a
1839
uvx harbor run -d satbench@1.0 -t 1839a7e262a
184
uvx harbor run -d satbench@1.0 -t 184a7e262a
1840
uvx harbor run -d satbench@1.0 -t 1840a7e262a
1841
uvx harbor run -d satbench@1.0 -t 1841a7e262a
1842
uvx harbor run -d satbench@1.0 -t 1842a7e262a
1843
uvx harbor run -d satbench@1.0 -t 1843a7e262a
1844
uvx harbor run -d satbench@1.0 -t 1844a7e262a
1845
uvx harbor run -d satbench@1.0 -t 1845a7e262a
1846
uvx harbor run -d satbench@1.0 -t 1846a7e262a
1847
uvx harbor run -d satbench@1.0 -t 1847a7e262a
1848
uvx harbor run -d satbench@1.0 -t 1848a7e262a
1849
uvx harbor run -d satbench@1.0 -t 1849a7e262a
185
uvx harbor run -d satbench@1.0 -t 185a7e262a
1850
uvx harbor run -d satbench@1.0 -t 1850a7e262a
1851
uvx harbor run -d satbench@1.0 -t 1851a7e262a
1852
uvx harbor run -d satbench@1.0 -t 1852a7e262a
1853
uvx harbor run -d satbench@1.0 -t 1853a7e262a
1854
uvx harbor run -d satbench@1.0 -t 1854a7e262a
1855
uvx harbor run -d satbench@1.0 -t 1855a7e262a
1856
uvx harbor run -d satbench@1.0 -t 1856a7e262a
1857
uvx harbor run -d satbench@1.0 -t 1857a7e262a
1858
uvx harbor run -d satbench@1.0 -t 1858a7e262a
1859
uvx harbor run -d satbench@1.0 -t 1859a7e262a
186
uvx harbor run -d satbench@1.0 -t 186a7e262a
1860
uvx harbor run -d satbench@1.0 -t 1860a7e262a
1861
uvx harbor run -d satbench@1.0 -t 1861a7e262a
1862
uvx harbor run -d satbench@1.0 -t 1862a7e262a
1863
uvx harbor run -d satbench@1.0 -t 1863a7e262a
1864
uvx harbor run -d satbench@1.0 -t 1864a7e262a
1865
uvx harbor run -d satbench@1.0 -t 1865a7e262a
1866
uvx harbor run -d satbench@1.0 -t 1866a7e262a
1867
uvx harbor run -d satbench@1.0 -t 1867a7e262a
1868
uvx harbor run -d satbench@1.0 -t 1868a7e262a
1869
uvx harbor run -d satbench@1.0 -t 1869a7e262a
187
uvx harbor run -d satbench@1.0 -t 187a7e262a
1870
uvx harbor run -d satbench@1.0 -t 1870a7e262a
1871
uvx harbor run -d satbench@1.0 -t 1871a7e262a
1872
uvx harbor run -d satbench@1.0 -t 1872a7e262a
1873
uvx harbor run -d satbench@1.0 -t 1873a7e262a
1874
uvx harbor run -d satbench@1.0 -t 1874a7e262a
1875
uvx harbor run -d satbench@1.0 -t 1875a7e262a
1876
uvx harbor run -d satbench@1.0 -t 1876a7e262a
1877
uvx harbor run -d satbench@1.0 -t 1877a7e262a
1878
uvx harbor run -d satbench@1.0 -t 1878a7e262a
1879
uvx harbor run -d satbench@1.0 -t 1879a7e262a
188
uvx harbor run -d satbench@1.0 -t 188a7e262a
1880
uvx harbor run -d satbench@1.0 -t 1880a7e262a
1881
uvx harbor run -d satbench@1.0 -t 1881a7e262a
1882
uvx harbor run -d satbench@1.0 -t 1882a7e262a
1883
uvx harbor run -d satbench@1.0 -t 1883a7e262a
1884
uvx harbor run -d satbench@1.0 -t 1884a7e262a
1885
uvx harbor run -d satbench@1.0 -t 1885a7e262a
1886
uvx harbor run -d satbench@1.0 -t 1886a7e262a
1887
uvx harbor run -d satbench@1.0 -t 1887a7e262a
1888
uvx harbor run -d satbench@1.0 -t 1888a7e262a
1889
uvx harbor run -d satbench@1.0 -t 1889a7e262a
189
uvx harbor run -d satbench@1.0 -t 189a7e262a
1890
uvx harbor run -d satbench@1.0 -t 1890a7e262a
1891
uvx harbor run -d satbench@1.0 -t 1891a7e262a
1892
uvx harbor run -d satbench@1.0 -t 1892a7e262a
1893
uvx harbor run -d satbench@1.0 -t 1893a7e262a
1894
uvx harbor run -d satbench@1.0 -t 1894a7e262a
1895
uvx harbor run -d satbench@1.0 -t 1895a7e262a
1896
uvx harbor run -d satbench@1.0 -t 1896a7e262a
1897
uvx harbor run -d satbench@1.0 -t 1897a7e262a
1898
uvx harbor run -d satbench@1.0 -t 1898a7e262a