satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

279
uvx harbor run -d satbench@1.0 -t 279
a7e262a
28
uvx harbor run -d satbench@1.0 -t 28
a7e262a
280
uvx harbor run -d satbench@1.0 -t 280
a7e262a
281
uvx harbor run -d satbench@1.0 -t 281
a7e262a
282
uvx harbor run -d satbench@1.0 -t 282
a7e262a
283
uvx harbor run -d satbench@1.0 -t 283
a7e262a
284
uvx harbor run -d satbench@1.0 -t 284
a7e262a
285
uvx harbor run -d satbench@1.0 -t 285
a7e262a
286
uvx harbor run -d satbench@1.0 -t 286
a7e262a
287
uvx harbor run -d satbench@1.0 -t 287
a7e262a
288
uvx harbor run -d satbench@1.0 -t 288
a7e262a
289
uvx harbor run -d satbench@1.0 -t 289
a7e262a
29
uvx harbor run -d satbench@1.0 -t 29
a7e262a
290
uvx harbor run -d satbench@1.0 -t 290
a7e262a
291
uvx harbor run -d satbench@1.0 -t 291
a7e262a
292
uvx harbor run -d satbench@1.0 -t 292
a7e262a
293
uvx harbor run -d satbench@1.0 -t 293
a7e262a
294
uvx harbor run -d satbench@1.0 -t 294
a7e262a
295
uvx harbor run -d satbench@1.0 -t 295
a7e262a
296
uvx harbor run -d satbench@1.0 -t 296
a7e262a
297
uvx harbor run -d satbench@1.0 -t 297
a7e262a
298
uvx harbor run -d satbench@1.0 -t 298
a7e262a
299
uvx harbor run -d satbench@1.0 -t 299
a7e262a
3
uvx harbor run -d satbench@1.0 -t 3
a7e262a
30
uvx harbor run -d satbench@1.0 -t 30
a7e262a
300
uvx harbor run -d satbench@1.0 -t 300
a7e262a
301
uvx harbor run -d satbench@1.0 -t 301
a7e262a
302
uvx harbor run -d satbench@1.0 -t 302
a7e262a
303
uvx harbor run -d satbench@1.0 -t 303
a7e262a
304
uvx harbor run -d satbench@1.0 -t 304
a7e262a
305
uvx harbor run -d satbench@1.0 -t 305
a7e262a
306
uvx harbor run -d satbench@1.0 -t 306
a7e262a
307
uvx harbor run -d satbench@1.0 -t 307
a7e262a
308
uvx harbor run -d satbench@1.0 -t 308
a7e262a
309
uvx harbor run -d satbench@1.0 -t 309
a7e262a
31
uvx harbor run -d satbench@1.0 -t 31
a7e262a
310
uvx harbor run -d satbench@1.0 -t 310
a7e262a
311
uvx harbor run -d satbench@1.0 -t 311
a7e262a
312
uvx harbor run -d satbench@1.0 -t 312
a7e262a
313
uvx harbor run -d satbench@1.0 -t 313
a7e262a
314
uvx harbor run -d satbench@1.0 -t 314
a7e262a
315
uvx harbor run -d satbench@1.0 -t 315
a7e262a
316
uvx harbor run -d satbench@1.0 -t 316
a7e262a
317
uvx harbor run -d satbench@1.0 -t 317
a7e262a
318
uvx harbor run -d satbench@1.0 -t 318
a7e262a
319
uvx harbor run -d satbench@1.0 -t 319
a7e262a
32
uvx harbor run -d satbench@1.0 -t 32
a7e262a
320
uvx harbor run -d satbench@1.0 -t 320
a7e262a
321
uvx harbor run -d satbench@1.0 -t 321
a7e262a
322
uvx harbor run -d satbench@1.0 -t 322
a7e262a
323
uvx harbor run -d satbench@1.0 -t 323
a7e262a
324
uvx harbor run -d satbench@1.0 -t 324
a7e262a
325
uvx harbor run -d satbench@1.0 -t 325
a7e262a
326
uvx harbor run -d satbench@1.0 -t 326
a7e262a
327
uvx harbor run -d satbench@1.0 -t 327
a7e262a
328
uvx harbor run -d satbench@1.0 -t 328
a7e262a
329
uvx harbor run -d satbench@1.0 -t 329
a7e262a
33
uvx harbor run -d satbench@1.0 -t 33
a7e262a
330
uvx harbor run -d satbench@1.0 -t 330
a7e262a
331
uvx harbor run -d satbench@1.0 -t 331
a7e262a
332
uvx harbor run -d satbench@1.0 -t 332
a7e262a
333
uvx harbor run -d satbench@1.0 -t 333
a7e262a
334
uvx harbor run -d satbench@1.0 -t 334
a7e262a
335
uvx harbor run -d satbench@1.0 -t 335
a7e262a
336
uvx harbor run -d satbench@1.0 -t 336
a7e262a
337
uvx harbor run -d satbench@1.0 -t 337
a7e262a
338
uvx harbor run -d satbench@1.0 -t 338
a7e262a
339
uvx harbor run -d satbench@1.0 -t 339
a7e262a
34
uvx harbor run -d satbench@1.0 -t 34
a7e262a
340
uvx harbor run -d satbench@1.0 -t 340
a7e262a
341
uvx harbor run -d satbench@1.0 -t 341
a7e262a
342
uvx harbor run -d satbench@1.0 -t 342
a7e262a
343
uvx harbor run -d satbench@1.0 -t 343
a7e262a
344
uvx harbor run -d satbench@1.0 -t 344
a7e262a
345
uvx harbor run -d satbench@1.0 -t 345
a7e262a
346
uvx harbor run -d satbench@1.0 -t 346
a7e262a
347
uvx harbor run -d satbench@1.0 -t 347
a7e262a
348
uvx harbor run -d satbench@1.0 -t 348
a7e262a
349
uvx harbor run -d satbench@1.0 -t 349
a7e262a
35
uvx harbor run -d satbench@1.0 -t 35
a7e262a
350
uvx harbor run -d satbench@1.0 -t 350
a7e262a
351
uvx harbor run -d satbench@1.0 -t 351
a7e262a
352
uvx harbor run -d satbench@1.0 -t 352
a7e262a
353
uvx harbor run -d satbench@1.0 -t 353
a7e262a
354
uvx harbor run -d satbench@1.0 -t 354
a7e262a
355
uvx harbor run -d satbench@1.0 -t 355
a7e262a
356
uvx harbor run -d satbench@1.0 -t 356
a7e262a
357
uvx harbor run -d satbench@1.0 -t 357
a7e262a
358
uvx harbor run -d satbench@1.0 -t 358
a7e262a
359
uvx harbor run -d satbench@1.0 -t 359
a7e262a
36
uvx harbor run -d satbench@1.0 -t 36
a7e262a
360
uvx harbor run -d satbench@1.0 -t 360
a7e262a
361
uvx harbor run -d satbench@1.0 -t 361
a7e262a
362
uvx harbor run -d satbench@1.0 -t 362
a7e262a
363
uvx harbor run -d satbench@1.0 -t 363
a7e262a
364
uvx harbor run -d satbench@1.0 -t 364
a7e262a
365
uvx harbor run -d satbench@1.0 -t 365
a7e262a
366
uvx harbor run -d satbench@1.0 -t 366
a7e262a
367
uvx harbor run -d satbench@1.0 -t 367
a7e262a
368
uvx harbor run -d satbench@1.0 -t 368
a7e262a