satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1808
uvx harbor run -d satbench@1.0 -t 1808
a7e262a
1809
uvx harbor run -d satbench@1.0 -t 1809
a7e262a
181
uvx harbor run -d satbench@1.0 -t 181
a7e262a
1810
uvx harbor run -d satbench@1.0 -t 1810
a7e262a
1811
uvx harbor run -d satbench@1.0 -t 1811
a7e262a
1812
uvx harbor run -d satbench@1.0 -t 1812
a7e262a
1813
uvx harbor run -d satbench@1.0 -t 1813
a7e262a
1814
uvx harbor run -d satbench@1.0 -t 1814
a7e262a
1815
uvx harbor run -d satbench@1.0 -t 1815
a7e262a
1816
uvx harbor run -d satbench@1.0 -t 1816
a7e262a
1817
uvx harbor run -d satbench@1.0 -t 1817
a7e262a
1818
uvx harbor run -d satbench@1.0 -t 1818
a7e262a
1819
uvx harbor run -d satbench@1.0 -t 1819
a7e262a
182
uvx harbor run -d satbench@1.0 -t 182
a7e262a
1820
uvx harbor run -d satbench@1.0 -t 1820
a7e262a
1821
uvx harbor run -d satbench@1.0 -t 1821
a7e262a
1822
uvx harbor run -d satbench@1.0 -t 1822
a7e262a
1823
uvx harbor run -d satbench@1.0 -t 1823
a7e262a
1824
uvx harbor run -d satbench@1.0 -t 1824
a7e262a
1825
uvx harbor run -d satbench@1.0 -t 1825
a7e262a
1826
uvx harbor run -d satbench@1.0 -t 1826
a7e262a
1827
uvx harbor run -d satbench@1.0 -t 1827
a7e262a
1828
uvx harbor run -d satbench@1.0 -t 1828
a7e262a
1829
uvx harbor run -d satbench@1.0 -t 1829
a7e262a
183
uvx harbor run -d satbench@1.0 -t 183
a7e262a
1830
uvx harbor run -d satbench@1.0 -t 1830
a7e262a
1831
uvx harbor run -d satbench@1.0 -t 1831
a7e262a
1832
uvx harbor run -d satbench@1.0 -t 1832
a7e262a
1833
uvx harbor run -d satbench@1.0 -t 1833
a7e262a
1834
uvx harbor run -d satbench@1.0 -t 1834
a7e262a
1835
uvx harbor run -d satbench@1.0 -t 1835
a7e262a
1836
uvx harbor run -d satbench@1.0 -t 1836
a7e262a
1837
uvx harbor run -d satbench@1.0 -t 1837
a7e262a
1838
uvx harbor run -d satbench@1.0 -t 1838
a7e262a
1839
uvx harbor run -d satbench@1.0 -t 1839
a7e262a
184
uvx harbor run -d satbench@1.0 -t 184
a7e262a
1840
uvx harbor run -d satbench@1.0 -t 1840
a7e262a
1841
uvx harbor run -d satbench@1.0 -t 1841
a7e262a
1842
uvx harbor run -d satbench@1.0 -t 1842
a7e262a
1843
uvx harbor run -d satbench@1.0 -t 1843
a7e262a
1844
uvx harbor run -d satbench@1.0 -t 1844
a7e262a
1845
uvx harbor run -d satbench@1.0 -t 1845
a7e262a
1846
uvx harbor run -d satbench@1.0 -t 1846
a7e262a
1847
uvx harbor run -d satbench@1.0 -t 1847
a7e262a
1848
uvx harbor run -d satbench@1.0 -t 1848
a7e262a
1849
uvx harbor run -d satbench@1.0 -t 1849
a7e262a
185
uvx harbor run -d satbench@1.0 -t 185
a7e262a
1850
uvx harbor run -d satbench@1.0 -t 1850
a7e262a
1851
uvx harbor run -d satbench@1.0 -t 1851
a7e262a
1852
uvx harbor run -d satbench@1.0 -t 1852
a7e262a
1853
uvx harbor run -d satbench@1.0 -t 1853
a7e262a
1854
uvx harbor run -d satbench@1.0 -t 1854
a7e262a
1855
uvx harbor run -d satbench@1.0 -t 1855
a7e262a
1856
uvx harbor run -d satbench@1.0 -t 1856
a7e262a
1857
uvx harbor run -d satbench@1.0 -t 1857
a7e262a
1858
uvx harbor run -d satbench@1.0 -t 1858
a7e262a
1859
uvx harbor run -d satbench@1.0 -t 1859
a7e262a
186
uvx harbor run -d satbench@1.0 -t 186
a7e262a
1860
uvx harbor run -d satbench@1.0 -t 1860
a7e262a
1861
uvx harbor run -d satbench@1.0 -t 1861
a7e262a
1862
uvx harbor run -d satbench@1.0 -t 1862
a7e262a
1863
uvx harbor run -d satbench@1.0 -t 1863
a7e262a
1864
uvx harbor run -d satbench@1.0 -t 1864
a7e262a
1865
uvx harbor run -d satbench@1.0 -t 1865
a7e262a
1866
uvx harbor run -d satbench@1.0 -t 1866
a7e262a
1867
uvx harbor run -d satbench@1.0 -t 1867
a7e262a
1868
uvx harbor run -d satbench@1.0 -t 1868
a7e262a
1869
uvx harbor run -d satbench@1.0 -t 1869
a7e262a
187
uvx harbor run -d satbench@1.0 -t 187
a7e262a
1870
uvx harbor run -d satbench@1.0 -t 1870
a7e262a
1871
uvx harbor run -d satbench@1.0 -t 1871
a7e262a
1872
uvx harbor run -d satbench@1.0 -t 1872
a7e262a
1873
uvx harbor run -d satbench@1.0 -t 1873
a7e262a
1874
uvx harbor run -d satbench@1.0 -t 1874
a7e262a
1875
uvx harbor run -d satbench@1.0 -t 1875
a7e262a
1876
uvx harbor run -d satbench@1.0 -t 1876
a7e262a
1877
uvx harbor run -d satbench@1.0 -t 1877
a7e262a
1878
uvx harbor run -d satbench@1.0 -t 1878
a7e262a
1879
uvx harbor run -d satbench@1.0 -t 1879
a7e262a
188
uvx harbor run -d satbench@1.0 -t 188
a7e262a
1880
uvx harbor run -d satbench@1.0 -t 1880
a7e262a
1881
uvx harbor run -d satbench@1.0 -t 1881
a7e262a
1882
uvx harbor run -d satbench@1.0 -t 1882
a7e262a
1883
uvx harbor run -d satbench@1.0 -t 1883
a7e262a
1884
uvx harbor run -d satbench@1.0 -t 1884
a7e262a
1885
uvx harbor run -d satbench@1.0 -t 1885
a7e262a
1886
uvx harbor run -d satbench@1.0 -t 1886
a7e262a
1887
uvx harbor run -d satbench@1.0 -t 1887
a7e262a
1888
uvx harbor run -d satbench@1.0 -t 1888
a7e262a
1889
uvx harbor run -d satbench@1.0 -t 1889
a7e262a
189
uvx harbor run -d satbench@1.0 -t 189
a7e262a
1890
uvx harbor run -d satbench@1.0 -t 1890
a7e262a
1891
uvx harbor run -d satbench@1.0 -t 1891
a7e262a
1892
uvx harbor run -d satbench@1.0 -t 1892
a7e262a
1893
uvx harbor run -d satbench@1.0 -t 1893
a7e262a
1894
uvx harbor run -d satbench@1.0 -t 1894
a7e262a
1895
uvx harbor run -d satbench@1.0 -t 1895
a7e262a
1896
uvx harbor run -d satbench@1.0 -t 1896
a7e262a
1897
uvx harbor run -d satbench@1.0 -t 1897
a7e262a
1898
uvx harbor run -d satbench@1.0 -t 1898
a7e262a