satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1899
uvx harbor run -d satbench@1.0 -t 1899a7e262a
19
uvx harbor run -d satbench@1.0 -t 19a7e262a
190
uvx harbor run -d satbench@1.0 -t 190a7e262a
1900
uvx harbor run -d satbench@1.0 -t 1900a7e262a
1901
uvx harbor run -d satbench@1.0 -t 1901a7e262a
1902
uvx harbor run -d satbench@1.0 -t 1902a7e262a
1903
uvx harbor run -d satbench@1.0 -t 1903a7e262a
1904
uvx harbor run -d satbench@1.0 -t 1904a7e262a
1905
uvx harbor run -d satbench@1.0 -t 1905a7e262a
1906
uvx harbor run -d satbench@1.0 -t 1906a7e262a
1907
uvx harbor run -d satbench@1.0 -t 1907a7e262a
1908
uvx harbor run -d satbench@1.0 -t 1908a7e262a
1909
uvx harbor run -d satbench@1.0 -t 1909a7e262a
191
uvx harbor run -d satbench@1.0 -t 191a7e262a
1910
uvx harbor run -d satbench@1.0 -t 1910a7e262a
1911
uvx harbor run -d satbench@1.0 -t 1911a7e262a
1912
uvx harbor run -d satbench@1.0 -t 1912a7e262a
1913
uvx harbor run -d satbench@1.0 -t 1913a7e262a
1914
uvx harbor run -d satbench@1.0 -t 1914a7e262a
1915
uvx harbor run -d satbench@1.0 -t 1915a7e262a
1916
uvx harbor run -d satbench@1.0 -t 1916a7e262a
1917
uvx harbor run -d satbench@1.0 -t 1917a7e262a
1918
uvx harbor run -d satbench@1.0 -t 1918a7e262a
1919
uvx harbor run -d satbench@1.0 -t 1919a7e262a
192
uvx harbor run -d satbench@1.0 -t 192a7e262a
1920
uvx harbor run -d satbench@1.0 -t 1920a7e262a
1921
uvx harbor run -d satbench@1.0 -t 1921a7e262a
1922
uvx harbor run -d satbench@1.0 -t 1922a7e262a
1923
uvx harbor run -d satbench@1.0 -t 1923a7e262a
1924
uvx harbor run -d satbench@1.0 -t 1924a7e262a
1925
uvx harbor run -d satbench@1.0 -t 1925a7e262a
1926
uvx harbor run -d satbench@1.0 -t 1926a7e262a
1927
uvx harbor run -d satbench@1.0 -t 1927a7e262a
1928
uvx harbor run -d satbench@1.0 -t 1928a7e262a
1929
uvx harbor run -d satbench@1.0 -t 1929a7e262a
193
uvx harbor run -d satbench@1.0 -t 193a7e262a
1930
uvx harbor run -d satbench@1.0 -t 1930a7e262a
1931
uvx harbor run -d satbench@1.0 -t 1931a7e262a
1932
uvx harbor run -d satbench@1.0 -t 1932a7e262a
1933
uvx harbor run -d satbench@1.0 -t 1933a7e262a
1934
uvx harbor run -d satbench@1.0 -t 1934a7e262a
1935
uvx harbor run -d satbench@1.0 -t 1935a7e262a
1936
uvx harbor run -d satbench@1.0 -t 1936a7e262a
1937
uvx harbor run -d satbench@1.0 -t 1937a7e262a
1938
uvx harbor run -d satbench@1.0 -t 1938a7e262a
1939
uvx harbor run -d satbench@1.0 -t 1939a7e262a
194
uvx harbor run -d satbench@1.0 -t 194a7e262a
1940
uvx harbor run -d satbench@1.0 -t 1940a7e262a
1941
uvx harbor run -d satbench@1.0 -t 1941a7e262a
1942
uvx harbor run -d satbench@1.0 -t 1942a7e262a
1943
uvx harbor run -d satbench@1.0 -t 1943a7e262a
1944
uvx harbor run -d satbench@1.0 -t 1944a7e262a
1945
uvx harbor run -d satbench@1.0 -t 1945a7e262a
1946
uvx harbor run -d satbench@1.0 -t 1946a7e262a
1947
uvx harbor run -d satbench@1.0 -t 1947a7e262a
1948
uvx harbor run -d satbench@1.0 -t 1948a7e262a
1949
uvx harbor run -d satbench@1.0 -t 1949a7e262a
195
uvx harbor run -d satbench@1.0 -t 195a7e262a
1950
uvx harbor run -d satbench@1.0 -t 1950a7e262a
1951
uvx harbor run -d satbench@1.0 -t 1951a7e262a
1952
uvx harbor run -d satbench@1.0 -t 1952a7e262a
1953
uvx harbor run -d satbench@1.0 -t 1953a7e262a
1954
uvx harbor run -d satbench@1.0 -t 1954a7e262a
1955
uvx harbor run -d satbench@1.0 -t 1955a7e262a
1956
uvx harbor run -d satbench@1.0 -t 1956a7e262a
1957
uvx harbor run -d satbench@1.0 -t 1957a7e262a
1958
uvx harbor run -d satbench@1.0 -t 1958a7e262a
1959
uvx harbor run -d satbench@1.0 -t 1959a7e262a
196
uvx harbor run -d satbench@1.0 -t 196a7e262a
1960
uvx harbor run -d satbench@1.0 -t 1960a7e262a
1961
uvx harbor run -d satbench@1.0 -t 1961a7e262a
1962
uvx harbor run -d satbench@1.0 -t 1962a7e262a
1963
uvx harbor run -d satbench@1.0 -t 1963a7e262a
1964
uvx harbor run -d satbench@1.0 -t 1964a7e262a
1965
uvx harbor run -d satbench@1.0 -t 1965a7e262a
1966
uvx harbor run -d satbench@1.0 -t 1966a7e262a
1967
uvx harbor run -d satbench@1.0 -t 1967a7e262a
1968
uvx harbor run -d satbench@1.0 -t 1968a7e262a
1969
uvx harbor run -d satbench@1.0 -t 1969a7e262a
197
uvx harbor run -d satbench@1.0 -t 197a7e262a
1970
uvx harbor run -d satbench@1.0 -t 1970a7e262a
1971
uvx harbor run -d satbench@1.0 -t 1971a7e262a
1972
uvx harbor run -d satbench@1.0 -t 1972a7e262a
1973
uvx harbor run -d satbench@1.0 -t 1973a7e262a
1974
uvx harbor run -d satbench@1.0 -t 1974a7e262a
1975
uvx harbor run -d satbench@1.0 -t 1975a7e262a
1976
uvx harbor run -d satbench@1.0 -t 1976a7e262a
1977
uvx harbor run -d satbench@1.0 -t 1977a7e262a
1978
uvx harbor run -d satbench@1.0 -t 1978a7e262a
1979
uvx harbor run -d satbench@1.0 -t 1979a7e262a
198
uvx harbor run -d satbench@1.0 -t 198a7e262a
1980
uvx harbor run -d satbench@1.0 -t 1980a7e262a
1981
uvx harbor run -d satbench@1.0 -t 1981a7e262a
1982
uvx harbor run -d satbench@1.0 -t 1982a7e262a
1983
uvx harbor run -d satbench@1.0 -t 1983a7e262a
1984
uvx harbor run -d satbench@1.0 -t 1984a7e262a
1985
uvx harbor run -d satbench@1.0 -t 1985a7e262a
1986
uvx harbor run -d satbench@1.0 -t 1986a7e262a
1987
uvx harbor run -d satbench@1.0 -t 1987a7e262a
1988
uvx harbor run -d satbench@1.0 -t 1988a7e262a