satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1899
uvx harbor run -d satbench@1.0 -t 1899
a7e262a
19
uvx harbor run -d satbench@1.0 -t 19
a7e262a
190
uvx harbor run -d satbench@1.0 -t 190
a7e262a
1900
uvx harbor run -d satbench@1.0 -t 1900
a7e262a
1901
uvx harbor run -d satbench@1.0 -t 1901
a7e262a
1902
uvx harbor run -d satbench@1.0 -t 1902
a7e262a
1903
uvx harbor run -d satbench@1.0 -t 1903
a7e262a
1904
uvx harbor run -d satbench@1.0 -t 1904
a7e262a
1905
uvx harbor run -d satbench@1.0 -t 1905
a7e262a
1906
uvx harbor run -d satbench@1.0 -t 1906
a7e262a
1907
uvx harbor run -d satbench@1.0 -t 1907
a7e262a
1908
uvx harbor run -d satbench@1.0 -t 1908
a7e262a
1909
uvx harbor run -d satbench@1.0 -t 1909
a7e262a
191
uvx harbor run -d satbench@1.0 -t 191
a7e262a
1910
uvx harbor run -d satbench@1.0 -t 1910
a7e262a
1911
uvx harbor run -d satbench@1.0 -t 1911
a7e262a
1912
uvx harbor run -d satbench@1.0 -t 1912
a7e262a
1913
uvx harbor run -d satbench@1.0 -t 1913
a7e262a
1914
uvx harbor run -d satbench@1.0 -t 1914
a7e262a
1915
uvx harbor run -d satbench@1.0 -t 1915
a7e262a
1916
uvx harbor run -d satbench@1.0 -t 1916
a7e262a
1917
uvx harbor run -d satbench@1.0 -t 1917
a7e262a
1918
uvx harbor run -d satbench@1.0 -t 1918
a7e262a
1919
uvx harbor run -d satbench@1.0 -t 1919
a7e262a
192
uvx harbor run -d satbench@1.0 -t 192
a7e262a
1920
uvx harbor run -d satbench@1.0 -t 1920
a7e262a
1921
uvx harbor run -d satbench@1.0 -t 1921
a7e262a
1922
uvx harbor run -d satbench@1.0 -t 1922
a7e262a
1923
uvx harbor run -d satbench@1.0 -t 1923
a7e262a
1924
uvx harbor run -d satbench@1.0 -t 1924
a7e262a
1925
uvx harbor run -d satbench@1.0 -t 1925
a7e262a
1926
uvx harbor run -d satbench@1.0 -t 1926
a7e262a
1927
uvx harbor run -d satbench@1.0 -t 1927
a7e262a
1928
uvx harbor run -d satbench@1.0 -t 1928
a7e262a
1929
uvx harbor run -d satbench@1.0 -t 1929
a7e262a
193
uvx harbor run -d satbench@1.0 -t 193
a7e262a
1930
uvx harbor run -d satbench@1.0 -t 1930
a7e262a
1931
uvx harbor run -d satbench@1.0 -t 1931
a7e262a
1932
uvx harbor run -d satbench@1.0 -t 1932
a7e262a
1933
uvx harbor run -d satbench@1.0 -t 1933
a7e262a
1934
uvx harbor run -d satbench@1.0 -t 1934
a7e262a
1935
uvx harbor run -d satbench@1.0 -t 1935
a7e262a
1936
uvx harbor run -d satbench@1.0 -t 1936
a7e262a
1937
uvx harbor run -d satbench@1.0 -t 1937
a7e262a
1938
uvx harbor run -d satbench@1.0 -t 1938
a7e262a
1939
uvx harbor run -d satbench@1.0 -t 1939
a7e262a
194
uvx harbor run -d satbench@1.0 -t 194
a7e262a
1940
uvx harbor run -d satbench@1.0 -t 1940
a7e262a
1941
uvx harbor run -d satbench@1.0 -t 1941
a7e262a
1942
uvx harbor run -d satbench@1.0 -t 1942
a7e262a
1943
uvx harbor run -d satbench@1.0 -t 1943
a7e262a
1944
uvx harbor run -d satbench@1.0 -t 1944
a7e262a
1945
uvx harbor run -d satbench@1.0 -t 1945
a7e262a
1946
uvx harbor run -d satbench@1.0 -t 1946
a7e262a
1947
uvx harbor run -d satbench@1.0 -t 1947
a7e262a
1948
uvx harbor run -d satbench@1.0 -t 1948
a7e262a
1949
uvx harbor run -d satbench@1.0 -t 1949
a7e262a
195
uvx harbor run -d satbench@1.0 -t 195
a7e262a
1950
uvx harbor run -d satbench@1.0 -t 1950
a7e262a
1951
uvx harbor run -d satbench@1.0 -t 1951
a7e262a
1952
uvx harbor run -d satbench@1.0 -t 1952
a7e262a
1953
uvx harbor run -d satbench@1.0 -t 1953
a7e262a
1954
uvx harbor run -d satbench@1.0 -t 1954
a7e262a
1955
uvx harbor run -d satbench@1.0 -t 1955
a7e262a
1956
uvx harbor run -d satbench@1.0 -t 1956
a7e262a
1957
uvx harbor run -d satbench@1.0 -t 1957
a7e262a
1958
uvx harbor run -d satbench@1.0 -t 1958
a7e262a
1959
uvx harbor run -d satbench@1.0 -t 1959
a7e262a
196
uvx harbor run -d satbench@1.0 -t 196
a7e262a
1960
uvx harbor run -d satbench@1.0 -t 1960
a7e262a
1961
uvx harbor run -d satbench@1.0 -t 1961
a7e262a
1962
uvx harbor run -d satbench@1.0 -t 1962
a7e262a
1963
uvx harbor run -d satbench@1.0 -t 1963
a7e262a
1964
uvx harbor run -d satbench@1.0 -t 1964
a7e262a
1965
uvx harbor run -d satbench@1.0 -t 1965
a7e262a
1966
uvx harbor run -d satbench@1.0 -t 1966
a7e262a
1967
uvx harbor run -d satbench@1.0 -t 1967
a7e262a
1968
uvx harbor run -d satbench@1.0 -t 1968
a7e262a
1969
uvx harbor run -d satbench@1.0 -t 1969
a7e262a
197
uvx harbor run -d satbench@1.0 -t 197
a7e262a
1970
uvx harbor run -d satbench@1.0 -t 1970
a7e262a
1971
uvx harbor run -d satbench@1.0 -t 1971
a7e262a
1972
uvx harbor run -d satbench@1.0 -t 1972
a7e262a
1973
uvx harbor run -d satbench@1.0 -t 1973
a7e262a
1974
uvx harbor run -d satbench@1.0 -t 1974
a7e262a
1975
uvx harbor run -d satbench@1.0 -t 1975
a7e262a
1976
uvx harbor run -d satbench@1.0 -t 1976
a7e262a
1977
uvx harbor run -d satbench@1.0 -t 1977
a7e262a
1978
uvx harbor run -d satbench@1.0 -t 1978
a7e262a
1979
uvx harbor run -d satbench@1.0 -t 1979
a7e262a
198
uvx harbor run -d satbench@1.0 -t 198
a7e262a
1980
uvx harbor run -d satbench@1.0 -t 1980
a7e262a
1981
uvx harbor run -d satbench@1.0 -t 1981
a7e262a
1982
uvx harbor run -d satbench@1.0 -t 1982
a7e262a
1983
uvx harbor run -d satbench@1.0 -t 1983
a7e262a
1984
uvx harbor run -d satbench@1.0 -t 1984
a7e262a
1985
uvx harbor run -d satbench@1.0 -t 1985
a7e262a
1986
uvx harbor run -d satbench@1.0 -t 1986
a7e262a
1987
uvx harbor run -d satbench@1.0 -t 1987
a7e262a
1988
uvx harbor run -d satbench@1.0 -t 1988
a7e262a