satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1989
uvx harbor run -d satbench@1.0 -t 1989a7e262a
199
uvx harbor run -d satbench@1.0 -t 199a7e262a
1990
uvx harbor run -d satbench@1.0 -t 1990a7e262a
1991
uvx harbor run -d satbench@1.0 -t 1991a7e262a
1992
uvx harbor run -d satbench@1.0 -t 1992a7e262a
1993
uvx harbor run -d satbench@1.0 -t 1993a7e262a
1994
uvx harbor run -d satbench@1.0 -t 1994a7e262a
1995
uvx harbor run -d satbench@1.0 -t 1995a7e262a
1996
uvx harbor run -d satbench@1.0 -t 1996a7e262a
1997
uvx harbor run -d satbench@1.0 -t 1997a7e262a
1998
uvx harbor run -d satbench@1.0 -t 1998a7e262a
1999
uvx harbor run -d satbench@1.0 -t 1999a7e262a
2
uvx harbor run -d satbench@1.0 -t 2a7e262a
20
uvx harbor run -d satbench@1.0 -t 20a7e262a
200
uvx harbor run -d satbench@1.0 -t 200a7e262a
2000
uvx harbor run -d satbench@1.0 -t 2000a7e262a
2001
uvx harbor run -d satbench@1.0 -t 2001a7e262a
2002
uvx harbor run -d satbench@1.0 -t 2002a7e262a
2003
uvx harbor run -d satbench@1.0 -t 2003a7e262a
2004
uvx harbor run -d satbench@1.0 -t 2004a7e262a
2005
uvx harbor run -d satbench@1.0 -t 2005a7e262a
2006
uvx harbor run -d satbench@1.0 -t 2006a7e262a
2007
uvx harbor run -d satbench@1.0 -t 2007a7e262a
2008
uvx harbor run -d satbench@1.0 -t 2008a7e262a
2009
uvx harbor run -d satbench@1.0 -t 2009a7e262a
201
uvx harbor run -d satbench@1.0 -t 201a7e262a
2010
uvx harbor run -d satbench@1.0 -t 2010a7e262a
2011
uvx harbor run -d satbench@1.0 -t 2011a7e262a
2012
uvx harbor run -d satbench@1.0 -t 2012a7e262a
2013
uvx harbor run -d satbench@1.0 -t 2013a7e262a
2014
uvx harbor run -d satbench@1.0 -t 2014a7e262a
2015
uvx harbor run -d satbench@1.0 -t 2015a7e262a
2016
uvx harbor run -d satbench@1.0 -t 2016a7e262a
2017
uvx harbor run -d satbench@1.0 -t 2017a7e262a
2018
uvx harbor run -d satbench@1.0 -t 2018a7e262a
2019
uvx harbor run -d satbench@1.0 -t 2019a7e262a
202
uvx harbor run -d satbench@1.0 -t 202a7e262a
2020
uvx harbor run -d satbench@1.0 -t 2020a7e262a
2021
uvx harbor run -d satbench@1.0 -t 2021a7e262a
2022
uvx harbor run -d satbench@1.0 -t 2022a7e262a
2023
uvx harbor run -d satbench@1.0 -t 2023a7e262a
2024
uvx harbor run -d satbench@1.0 -t 2024a7e262a
2025
uvx harbor run -d satbench@1.0 -t 2025a7e262a
2026
uvx harbor run -d satbench@1.0 -t 2026a7e262a
2027
uvx harbor run -d satbench@1.0 -t 2027a7e262a
2028
uvx harbor run -d satbench@1.0 -t 2028a7e262a
2029
uvx harbor run -d satbench@1.0 -t 2029a7e262a
203
uvx harbor run -d satbench@1.0 -t 203a7e262a
2030
uvx harbor run -d satbench@1.0 -t 2030a7e262a
2031
uvx harbor run -d satbench@1.0 -t 2031a7e262a
2032
uvx harbor run -d satbench@1.0 -t 2032a7e262a
2033
uvx harbor run -d satbench@1.0 -t 2033a7e262a
2034
uvx harbor run -d satbench@1.0 -t 2034a7e262a
2035
uvx harbor run -d satbench@1.0 -t 2035a7e262a
2036
uvx harbor run -d satbench@1.0 -t 2036a7e262a
2037
uvx harbor run -d satbench@1.0 -t 2037a7e262a
2038
uvx harbor run -d satbench@1.0 -t 2038a7e262a
2039
uvx harbor run -d satbench@1.0 -t 2039a7e262a
204
uvx harbor run -d satbench@1.0 -t 204a7e262a
2040
uvx harbor run -d satbench@1.0 -t 2040a7e262a
2041
uvx harbor run -d satbench@1.0 -t 2041a7e262a
2042
uvx harbor run -d satbench@1.0 -t 2042a7e262a
2043
uvx harbor run -d satbench@1.0 -t 2043a7e262a
2044
uvx harbor run -d satbench@1.0 -t 2044a7e262a
2045
uvx harbor run -d satbench@1.0 -t 2045a7e262a
2046
uvx harbor run -d satbench@1.0 -t 2046a7e262a
2047
uvx harbor run -d satbench@1.0 -t 2047a7e262a
2048
uvx harbor run -d satbench@1.0 -t 2048a7e262a
2049
uvx harbor run -d satbench@1.0 -t 2049a7e262a
205
uvx harbor run -d satbench@1.0 -t 205a7e262a
2050
uvx harbor run -d satbench@1.0 -t 2050a7e262a
2051
uvx harbor run -d satbench@1.0 -t 2051a7e262a
2052
uvx harbor run -d satbench@1.0 -t 2052a7e262a
2053
uvx harbor run -d satbench@1.0 -t 2053a7e262a
2054
uvx harbor run -d satbench@1.0 -t 2054a7e262a
2055
uvx harbor run -d satbench@1.0 -t 2055a7e262a
2056
uvx harbor run -d satbench@1.0 -t 2056a7e262a
2057
uvx harbor run -d satbench@1.0 -t 2057a7e262a
2058
uvx harbor run -d satbench@1.0 -t 2058a7e262a
2059
uvx harbor run -d satbench@1.0 -t 2059a7e262a
206
uvx harbor run -d satbench@1.0 -t 206a7e262a
2060
uvx harbor run -d satbench@1.0 -t 2060a7e262a
2061
uvx harbor run -d satbench@1.0 -t 2061a7e262a
2062
uvx harbor run -d satbench@1.0 -t 2062a7e262a
2063
uvx harbor run -d satbench@1.0 -t 2063a7e262a
2064
uvx harbor run -d satbench@1.0 -t 2064a7e262a
2065
uvx harbor run -d satbench@1.0 -t 2065a7e262a
2066
uvx harbor run -d satbench@1.0 -t 2066a7e262a
2067
uvx harbor run -d satbench@1.0 -t 2067a7e262a
2068
uvx harbor run -d satbench@1.0 -t 2068a7e262a
2069
uvx harbor run -d satbench@1.0 -t 2069a7e262a
207
uvx harbor run -d satbench@1.0 -t 207a7e262a
2070
uvx harbor run -d satbench@1.0 -t 2070a7e262a
2071
uvx harbor run -d satbench@1.0 -t 2071a7e262a
2072
uvx harbor run -d satbench@1.0 -t 2072a7e262a
2073
uvx harbor run -d satbench@1.0 -t 2073a7e262a
2074
uvx harbor run -d satbench@1.0 -t 2074a7e262a
2075
uvx harbor run -d satbench@1.0 -t 2075a7e262a
2076
uvx harbor run -d satbench@1.0 -t 2076a7e262a
2077
uvx harbor run -d satbench@1.0 -t 2077a7e262a