satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1989
uvx harbor run -d satbench@1.0 -t 1989
a7e262a
199
uvx harbor run -d satbench@1.0 -t 199
a7e262a
1990
uvx harbor run -d satbench@1.0 -t 1990
a7e262a
1991
uvx harbor run -d satbench@1.0 -t 1991
a7e262a
1992
uvx harbor run -d satbench@1.0 -t 1992
a7e262a
1993
uvx harbor run -d satbench@1.0 -t 1993
a7e262a
1994
uvx harbor run -d satbench@1.0 -t 1994
a7e262a
1995
uvx harbor run -d satbench@1.0 -t 1995
a7e262a
1996
uvx harbor run -d satbench@1.0 -t 1996
a7e262a
1997
uvx harbor run -d satbench@1.0 -t 1997
a7e262a
1998
uvx harbor run -d satbench@1.0 -t 1998
a7e262a
1999
uvx harbor run -d satbench@1.0 -t 1999
a7e262a
2
uvx harbor run -d satbench@1.0 -t 2
a7e262a
20
uvx harbor run -d satbench@1.0 -t 20
a7e262a
200
uvx harbor run -d satbench@1.0 -t 200
a7e262a
2000
uvx harbor run -d satbench@1.0 -t 2000
a7e262a
2001
uvx harbor run -d satbench@1.0 -t 2001
a7e262a
2002
uvx harbor run -d satbench@1.0 -t 2002
a7e262a
2003
uvx harbor run -d satbench@1.0 -t 2003
a7e262a
2004
uvx harbor run -d satbench@1.0 -t 2004
a7e262a
2005
uvx harbor run -d satbench@1.0 -t 2005
a7e262a
2006
uvx harbor run -d satbench@1.0 -t 2006
a7e262a
2007
uvx harbor run -d satbench@1.0 -t 2007
a7e262a
2008
uvx harbor run -d satbench@1.0 -t 2008
a7e262a
2009
uvx harbor run -d satbench@1.0 -t 2009
a7e262a
201
uvx harbor run -d satbench@1.0 -t 201
a7e262a
2010
uvx harbor run -d satbench@1.0 -t 2010
a7e262a
2011
uvx harbor run -d satbench@1.0 -t 2011
a7e262a
2012
uvx harbor run -d satbench@1.0 -t 2012
a7e262a
2013
uvx harbor run -d satbench@1.0 -t 2013
a7e262a
2014
uvx harbor run -d satbench@1.0 -t 2014
a7e262a
2015
uvx harbor run -d satbench@1.0 -t 2015
a7e262a
2016
uvx harbor run -d satbench@1.0 -t 2016
a7e262a
2017
uvx harbor run -d satbench@1.0 -t 2017
a7e262a
2018
uvx harbor run -d satbench@1.0 -t 2018
a7e262a
2019
uvx harbor run -d satbench@1.0 -t 2019
a7e262a
202
uvx harbor run -d satbench@1.0 -t 202
a7e262a
2020
uvx harbor run -d satbench@1.0 -t 2020
a7e262a
2021
uvx harbor run -d satbench@1.0 -t 2021
a7e262a
2022
uvx harbor run -d satbench@1.0 -t 2022
a7e262a
2023
uvx harbor run -d satbench@1.0 -t 2023
a7e262a
2024
uvx harbor run -d satbench@1.0 -t 2024
a7e262a
2025
uvx harbor run -d satbench@1.0 -t 2025
a7e262a
2026
uvx harbor run -d satbench@1.0 -t 2026
a7e262a
2027
uvx harbor run -d satbench@1.0 -t 2027
a7e262a
2028
uvx harbor run -d satbench@1.0 -t 2028
a7e262a
2029
uvx harbor run -d satbench@1.0 -t 2029
a7e262a
203
uvx harbor run -d satbench@1.0 -t 203
a7e262a
2030
uvx harbor run -d satbench@1.0 -t 2030
a7e262a
2031
uvx harbor run -d satbench@1.0 -t 2031
a7e262a
2032
uvx harbor run -d satbench@1.0 -t 2032
a7e262a
2033
uvx harbor run -d satbench@1.0 -t 2033
a7e262a
2034
uvx harbor run -d satbench@1.0 -t 2034
a7e262a
2035
uvx harbor run -d satbench@1.0 -t 2035
a7e262a
2036
uvx harbor run -d satbench@1.0 -t 2036
a7e262a
2037
uvx harbor run -d satbench@1.0 -t 2037
a7e262a
2038
uvx harbor run -d satbench@1.0 -t 2038
a7e262a
2039
uvx harbor run -d satbench@1.0 -t 2039
a7e262a
204
uvx harbor run -d satbench@1.0 -t 204
a7e262a
2040
uvx harbor run -d satbench@1.0 -t 2040
a7e262a
2041
uvx harbor run -d satbench@1.0 -t 2041
a7e262a
2042
uvx harbor run -d satbench@1.0 -t 2042
a7e262a
2043
uvx harbor run -d satbench@1.0 -t 2043
a7e262a
2044
uvx harbor run -d satbench@1.0 -t 2044
a7e262a
2045
uvx harbor run -d satbench@1.0 -t 2045
a7e262a
2046
uvx harbor run -d satbench@1.0 -t 2046
a7e262a
2047
uvx harbor run -d satbench@1.0 -t 2047
a7e262a
2048
uvx harbor run -d satbench@1.0 -t 2048
a7e262a
2049
uvx harbor run -d satbench@1.0 -t 2049
a7e262a
205
uvx harbor run -d satbench@1.0 -t 205
a7e262a
2050
uvx harbor run -d satbench@1.0 -t 2050
a7e262a
2051
uvx harbor run -d satbench@1.0 -t 2051
a7e262a
2052
uvx harbor run -d satbench@1.0 -t 2052
a7e262a
2053
uvx harbor run -d satbench@1.0 -t 2053
a7e262a
2054
uvx harbor run -d satbench@1.0 -t 2054
a7e262a
2055
uvx harbor run -d satbench@1.0 -t 2055
a7e262a
2056
uvx harbor run -d satbench@1.0 -t 2056
a7e262a
2057
uvx harbor run -d satbench@1.0 -t 2057
a7e262a
2058
uvx harbor run -d satbench@1.0 -t 2058
a7e262a
2059
uvx harbor run -d satbench@1.0 -t 2059
a7e262a
206
uvx harbor run -d satbench@1.0 -t 206
a7e262a
2060
uvx harbor run -d satbench@1.0 -t 2060
a7e262a
2061
uvx harbor run -d satbench@1.0 -t 2061
a7e262a
2062
uvx harbor run -d satbench@1.0 -t 2062
a7e262a
2063
uvx harbor run -d satbench@1.0 -t 2063
a7e262a
2064
uvx harbor run -d satbench@1.0 -t 2064
a7e262a
2065
uvx harbor run -d satbench@1.0 -t 2065
a7e262a
2066
uvx harbor run -d satbench@1.0 -t 2066
a7e262a
2067
uvx harbor run -d satbench@1.0 -t 2067
a7e262a
2068
uvx harbor run -d satbench@1.0 -t 2068
a7e262a
2069
uvx harbor run -d satbench@1.0 -t 2069
a7e262a
207
uvx harbor run -d satbench@1.0 -t 207
a7e262a
2070
uvx harbor run -d satbench@1.0 -t 2070
a7e262a
2071
uvx harbor run -d satbench@1.0 -t 2071
a7e262a
2072
uvx harbor run -d satbench@1.0 -t 2072
a7e262a
2073
uvx harbor run -d satbench@1.0 -t 2073
a7e262a
2074
uvx harbor run -d satbench@1.0 -t 2074
a7e262a
2075
uvx harbor run -d satbench@1.0 -t 2075
a7e262a
2076
uvx harbor run -d satbench@1.0 -t 2076
a7e262a
2077
uvx harbor run -d satbench@1.0 -t 2077
a7e262a