satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

2078
uvx harbor run -d satbench@1.0 -t 2078
a7e262a
2079
uvx harbor run -d satbench@1.0 -t 2079
a7e262a
208
uvx harbor run -d satbench@1.0 -t 208
a7e262a
2080
uvx harbor run -d satbench@1.0 -t 2080
a7e262a
2081
uvx harbor run -d satbench@1.0 -t 2081
a7e262a
2082
uvx harbor run -d satbench@1.0 -t 2082
a7e262a
2083
uvx harbor run -d satbench@1.0 -t 2083
a7e262a
2084
uvx harbor run -d satbench@1.0 -t 2084
a7e262a
2085
uvx harbor run -d satbench@1.0 -t 2085
a7e262a
2086
uvx harbor run -d satbench@1.0 -t 2086
a7e262a
2087
uvx harbor run -d satbench@1.0 -t 2087
a7e262a
2088
uvx harbor run -d satbench@1.0 -t 2088
a7e262a
2089
uvx harbor run -d satbench@1.0 -t 2089
a7e262a
209
uvx harbor run -d satbench@1.0 -t 209
a7e262a
2090
uvx harbor run -d satbench@1.0 -t 2090
a7e262a
2091
uvx harbor run -d satbench@1.0 -t 2091
a7e262a
2092
uvx harbor run -d satbench@1.0 -t 2092
a7e262a
2093
uvx harbor run -d satbench@1.0 -t 2093
a7e262a
2094
uvx harbor run -d satbench@1.0 -t 2094
a7e262a
2095
uvx harbor run -d satbench@1.0 -t 2095
a7e262a
2096
uvx harbor run -d satbench@1.0 -t 2096
a7e262a
2097
uvx harbor run -d satbench@1.0 -t 2097
a7e262a
2098
uvx harbor run -d satbench@1.0 -t 2098
a7e262a
2099
uvx harbor run -d satbench@1.0 -t 2099
a7e262a
21
uvx harbor run -d satbench@1.0 -t 21
a7e262a
210
uvx harbor run -d satbench@1.0 -t 210
a7e262a
211
uvx harbor run -d satbench@1.0 -t 211
a7e262a
212
uvx harbor run -d satbench@1.0 -t 212
a7e262a
213
uvx harbor run -d satbench@1.0 -t 213
a7e262a
214
uvx harbor run -d satbench@1.0 -t 214
a7e262a
215
uvx harbor run -d satbench@1.0 -t 215
a7e262a
216
uvx harbor run -d satbench@1.0 -t 216
a7e262a
217
uvx harbor run -d satbench@1.0 -t 217
a7e262a
218
uvx harbor run -d satbench@1.0 -t 218
a7e262a
219
uvx harbor run -d satbench@1.0 -t 219
a7e262a
22
uvx harbor run -d satbench@1.0 -t 22
a7e262a
220
uvx harbor run -d satbench@1.0 -t 220
a7e262a
221
uvx harbor run -d satbench@1.0 -t 221
a7e262a
222
uvx harbor run -d satbench@1.0 -t 222
a7e262a
223
uvx harbor run -d satbench@1.0 -t 223
a7e262a
224
uvx harbor run -d satbench@1.0 -t 224
a7e262a
225
uvx harbor run -d satbench@1.0 -t 225
a7e262a
226
uvx harbor run -d satbench@1.0 -t 226
a7e262a
227
uvx harbor run -d satbench@1.0 -t 227
a7e262a
228
uvx harbor run -d satbench@1.0 -t 228
a7e262a
229
uvx harbor run -d satbench@1.0 -t 229
a7e262a
23
uvx harbor run -d satbench@1.0 -t 23
a7e262a
230
uvx harbor run -d satbench@1.0 -t 230
a7e262a
231
uvx harbor run -d satbench@1.0 -t 231
a7e262a
232
uvx harbor run -d satbench@1.0 -t 232
a7e262a
233
uvx harbor run -d satbench@1.0 -t 233
a7e262a
234
uvx harbor run -d satbench@1.0 -t 234
a7e262a
235
uvx harbor run -d satbench@1.0 -t 235
a7e262a
236
uvx harbor run -d satbench@1.0 -t 236
a7e262a
237
uvx harbor run -d satbench@1.0 -t 237
a7e262a
238
uvx harbor run -d satbench@1.0 -t 238
a7e262a
239
uvx harbor run -d satbench@1.0 -t 239
a7e262a
24
uvx harbor run -d satbench@1.0 -t 24
a7e262a
240
uvx harbor run -d satbench@1.0 -t 240
a7e262a
241
uvx harbor run -d satbench@1.0 -t 241
a7e262a
242
uvx harbor run -d satbench@1.0 -t 242
a7e262a
243
uvx harbor run -d satbench@1.0 -t 243
a7e262a
244
uvx harbor run -d satbench@1.0 -t 244
a7e262a
245
uvx harbor run -d satbench@1.0 -t 245
a7e262a
246
uvx harbor run -d satbench@1.0 -t 246
a7e262a
247
uvx harbor run -d satbench@1.0 -t 247
a7e262a
248
uvx harbor run -d satbench@1.0 -t 248
a7e262a
249
uvx harbor run -d satbench@1.0 -t 249
a7e262a
25
uvx harbor run -d satbench@1.0 -t 25
a7e262a
250
uvx harbor run -d satbench@1.0 -t 250
a7e262a
251
uvx harbor run -d satbench@1.0 -t 251
a7e262a
252
uvx harbor run -d satbench@1.0 -t 252
a7e262a
253
uvx harbor run -d satbench@1.0 -t 253
a7e262a
254
uvx harbor run -d satbench@1.0 -t 254
a7e262a
255
uvx harbor run -d satbench@1.0 -t 255
a7e262a
256
uvx harbor run -d satbench@1.0 -t 256
a7e262a
257
uvx harbor run -d satbench@1.0 -t 257
a7e262a
258
uvx harbor run -d satbench@1.0 -t 258
a7e262a
259
uvx harbor run -d satbench@1.0 -t 259
a7e262a
26
uvx harbor run -d satbench@1.0 -t 26
a7e262a
260
uvx harbor run -d satbench@1.0 -t 260
a7e262a
261
uvx harbor run -d satbench@1.0 -t 261
a7e262a
262
uvx harbor run -d satbench@1.0 -t 262
a7e262a
263
uvx harbor run -d satbench@1.0 -t 263
a7e262a
264
uvx harbor run -d satbench@1.0 -t 264
a7e262a
265
uvx harbor run -d satbench@1.0 -t 265
a7e262a
266
uvx harbor run -d satbench@1.0 -t 266
a7e262a
267
uvx harbor run -d satbench@1.0 -t 267
a7e262a
268
uvx harbor run -d satbench@1.0 -t 268
a7e262a
269
uvx harbor run -d satbench@1.0 -t 269
a7e262a
27
uvx harbor run -d satbench@1.0 -t 27
a7e262a
270
uvx harbor run -d satbench@1.0 -t 270
a7e262a
271
uvx harbor run -d satbench@1.0 -t 271
a7e262a
272
uvx harbor run -d satbench@1.0 -t 272
a7e262a
273
uvx harbor run -d satbench@1.0 -t 273
a7e262a
274
uvx harbor run -d satbench@1.0 -t 274
a7e262a
275
uvx harbor run -d satbench@1.0 -t 275
a7e262a
276
uvx harbor run -d satbench@1.0 -t 276
a7e262a
277
uvx harbor run -d satbench@1.0 -t 277
a7e262a
278
uvx harbor run -d satbench@1.0 -t 278
a7e262a