satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

369
uvx harbor run -d satbench@1.0 -t 369
a7e262a
37
uvx harbor run -d satbench@1.0 -t 37
a7e262a
370
uvx harbor run -d satbench@1.0 -t 370
a7e262a
371
uvx harbor run -d satbench@1.0 -t 371
a7e262a
372
uvx harbor run -d satbench@1.0 -t 372
a7e262a
373
uvx harbor run -d satbench@1.0 -t 373
a7e262a
374
uvx harbor run -d satbench@1.0 -t 374
a7e262a
375
uvx harbor run -d satbench@1.0 -t 375
a7e262a
376
uvx harbor run -d satbench@1.0 -t 376
a7e262a
377
uvx harbor run -d satbench@1.0 -t 377
a7e262a
378
uvx harbor run -d satbench@1.0 -t 378
a7e262a
379
uvx harbor run -d satbench@1.0 -t 379
a7e262a
38
uvx harbor run -d satbench@1.0 -t 38
a7e262a
380
uvx harbor run -d satbench@1.0 -t 380
a7e262a
381
uvx harbor run -d satbench@1.0 -t 381
a7e262a
382
uvx harbor run -d satbench@1.0 -t 382
a7e262a
383
uvx harbor run -d satbench@1.0 -t 383
a7e262a
384
uvx harbor run -d satbench@1.0 -t 384
a7e262a
385
uvx harbor run -d satbench@1.0 -t 385
a7e262a
386
uvx harbor run -d satbench@1.0 -t 386
a7e262a
387
uvx harbor run -d satbench@1.0 -t 387
a7e262a
388
uvx harbor run -d satbench@1.0 -t 388
a7e262a
389
uvx harbor run -d satbench@1.0 -t 389
a7e262a
39
uvx harbor run -d satbench@1.0 -t 39
a7e262a
390
uvx harbor run -d satbench@1.0 -t 390
a7e262a
391
uvx harbor run -d satbench@1.0 -t 391
a7e262a
392
uvx harbor run -d satbench@1.0 -t 392
a7e262a
393
uvx harbor run -d satbench@1.0 -t 393
a7e262a
394
uvx harbor run -d satbench@1.0 -t 394
a7e262a
395
uvx harbor run -d satbench@1.0 -t 395
a7e262a
396
uvx harbor run -d satbench@1.0 -t 396
a7e262a
397
uvx harbor run -d satbench@1.0 -t 397
a7e262a
398
uvx harbor run -d satbench@1.0 -t 398
a7e262a
399
uvx harbor run -d satbench@1.0 -t 399
a7e262a
4
uvx harbor run -d satbench@1.0 -t 4
a7e262a
40
uvx harbor run -d satbench@1.0 -t 40
a7e262a
400
uvx harbor run -d satbench@1.0 -t 400
a7e262a
401
uvx harbor run -d satbench@1.0 -t 401
a7e262a
402
uvx harbor run -d satbench@1.0 -t 402
a7e262a
403
uvx harbor run -d satbench@1.0 -t 403
a7e262a
404
uvx harbor run -d satbench@1.0 -t 404
a7e262a
405
uvx harbor run -d satbench@1.0 -t 405
a7e262a
406
uvx harbor run -d satbench@1.0 -t 406
a7e262a
407
uvx harbor run -d satbench@1.0 -t 407
a7e262a
408
uvx harbor run -d satbench@1.0 -t 408
a7e262a
409
uvx harbor run -d satbench@1.0 -t 409
a7e262a
41
uvx harbor run -d satbench@1.0 -t 41
a7e262a
410
uvx harbor run -d satbench@1.0 -t 410
a7e262a
411
uvx harbor run -d satbench@1.0 -t 411
a7e262a
412
uvx harbor run -d satbench@1.0 -t 412
a7e262a
413
uvx harbor run -d satbench@1.0 -t 413
a7e262a
414
uvx harbor run -d satbench@1.0 -t 414
a7e262a
415
uvx harbor run -d satbench@1.0 -t 415
a7e262a
416
uvx harbor run -d satbench@1.0 -t 416
a7e262a
417
uvx harbor run -d satbench@1.0 -t 417
a7e262a
418
uvx harbor run -d satbench@1.0 -t 418
a7e262a
419
uvx harbor run -d satbench@1.0 -t 419
a7e262a
42
uvx harbor run -d satbench@1.0 -t 42
a7e262a
420
uvx harbor run -d satbench@1.0 -t 420
a7e262a
421
uvx harbor run -d satbench@1.0 -t 421
a7e262a
422
uvx harbor run -d satbench@1.0 -t 422
a7e262a
423
uvx harbor run -d satbench@1.0 -t 423
a7e262a
424
uvx harbor run -d satbench@1.0 -t 424
a7e262a
425
uvx harbor run -d satbench@1.0 -t 425
a7e262a
426
uvx harbor run -d satbench@1.0 -t 426
a7e262a
427
uvx harbor run -d satbench@1.0 -t 427
a7e262a
428
uvx harbor run -d satbench@1.0 -t 428
a7e262a
429
uvx harbor run -d satbench@1.0 -t 429
a7e262a
43
uvx harbor run -d satbench@1.0 -t 43
a7e262a
430
uvx harbor run -d satbench@1.0 -t 430
a7e262a
431
uvx harbor run -d satbench@1.0 -t 431
a7e262a
432
uvx harbor run -d satbench@1.0 -t 432
a7e262a
433
uvx harbor run -d satbench@1.0 -t 433
a7e262a
434
uvx harbor run -d satbench@1.0 -t 434
a7e262a
435
uvx harbor run -d satbench@1.0 -t 435
a7e262a
436
uvx harbor run -d satbench@1.0 -t 436
a7e262a
437
uvx harbor run -d satbench@1.0 -t 437
a7e262a
438
uvx harbor run -d satbench@1.0 -t 438
a7e262a
439
uvx harbor run -d satbench@1.0 -t 439
a7e262a
44
uvx harbor run -d satbench@1.0 -t 44
a7e262a
440
uvx harbor run -d satbench@1.0 -t 440
a7e262a
441
uvx harbor run -d satbench@1.0 -t 441
a7e262a
442
uvx harbor run -d satbench@1.0 -t 442
a7e262a
443
uvx harbor run -d satbench@1.0 -t 443
a7e262a
444
uvx harbor run -d satbench@1.0 -t 444
a7e262a
445
uvx harbor run -d satbench@1.0 -t 445
a7e262a
446
uvx harbor run -d satbench@1.0 -t 446
a7e262a
447
uvx harbor run -d satbench@1.0 -t 447
a7e262a
448
uvx harbor run -d satbench@1.0 -t 448
a7e262a
449
uvx harbor run -d satbench@1.0 -t 449
a7e262a
45
uvx harbor run -d satbench@1.0 -t 45
a7e262a
450
uvx harbor run -d satbench@1.0 -t 450
a7e262a
451
uvx harbor run -d satbench@1.0 -t 451
a7e262a
452
uvx harbor run -d satbench@1.0 -t 452
a7e262a
453
uvx harbor run -d satbench@1.0 -t 453
a7e262a
454
uvx harbor run -d satbench@1.0 -t 454
a7e262a
455
uvx harbor run -d satbench@1.0 -t 455
a7e262a
456
uvx harbor run -d satbench@1.0 -t 456
a7e262a
457
uvx harbor run -d satbench@1.0 -t 457
a7e262a
458
uvx harbor run -d satbench@1.0 -t 458
a7e262a