satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

459
uvx harbor run -d satbench@1.0 -t 459
a7e262a
46
uvx harbor run -d satbench@1.0 -t 46
a7e262a
460
uvx harbor run -d satbench@1.0 -t 460
a7e262a
461
uvx harbor run -d satbench@1.0 -t 461
a7e262a
462
uvx harbor run -d satbench@1.0 -t 462
a7e262a
463
uvx harbor run -d satbench@1.0 -t 463
a7e262a
464
uvx harbor run -d satbench@1.0 -t 464
a7e262a
465
uvx harbor run -d satbench@1.0 -t 465
a7e262a
466
uvx harbor run -d satbench@1.0 -t 466
a7e262a
467
uvx harbor run -d satbench@1.0 -t 467
a7e262a
468
uvx harbor run -d satbench@1.0 -t 468
a7e262a
469
uvx harbor run -d satbench@1.0 -t 469
a7e262a
47
uvx harbor run -d satbench@1.0 -t 47
a7e262a
470
uvx harbor run -d satbench@1.0 -t 470
a7e262a
471
uvx harbor run -d satbench@1.0 -t 471
a7e262a
472
uvx harbor run -d satbench@1.0 -t 472
a7e262a
473
uvx harbor run -d satbench@1.0 -t 473
a7e262a
474
uvx harbor run -d satbench@1.0 -t 474
a7e262a
475
uvx harbor run -d satbench@1.0 -t 475
a7e262a
476
uvx harbor run -d satbench@1.0 -t 476
a7e262a
477
uvx harbor run -d satbench@1.0 -t 477
a7e262a
478
uvx harbor run -d satbench@1.0 -t 478
a7e262a
479
uvx harbor run -d satbench@1.0 -t 479
a7e262a
48
uvx harbor run -d satbench@1.0 -t 48
a7e262a
480
uvx harbor run -d satbench@1.0 -t 480
a7e262a
481
uvx harbor run -d satbench@1.0 -t 481
a7e262a
482
uvx harbor run -d satbench@1.0 -t 482
a7e262a
483
uvx harbor run -d satbench@1.0 -t 483
a7e262a
484
uvx harbor run -d satbench@1.0 -t 484
a7e262a
485
uvx harbor run -d satbench@1.0 -t 485
a7e262a
486
uvx harbor run -d satbench@1.0 -t 486
a7e262a
487
uvx harbor run -d satbench@1.0 -t 487
a7e262a
488
uvx harbor run -d satbench@1.0 -t 488
a7e262a
489
uvx harbor run -d satbench@1.0 -t 489
a7e262a
49
uvx harbor run -d satbench@1.0 -t 49
a7e262a
490
uvx harbor run -d satbench@1.0 -t 490
a7e262a
491
uvx harbor run -d satbench@1.0 -t 491
a7e262a
492
uvx harbor run -d satbench@1.0 -t 492
a7e262a
493
uvx harbor run -d satbench@1.0 -t 493
a7e262a
494
uvx harbor run -d satbench@1.0 -t 494
a7e262a
495
uvx harbor run -d satbench@1.0 -t 495
a7e262a
496
uvx harbor run -d satbench@1.0 -t 496
a7e262a
497
uvx harbor run -d satbench@1.0 -t 497
a7e262a
498
uvx harbor run -d satbench@1.0 -t 498
a7e262a
499
uvx harbor run -d satbench@1.0 -t 499
a7e262a
5
uvx harbor run -d satbench@1.0 -t 5
a7e262a
50
uvx harbor run -d satbench@1.0 -t 50
a7e262a
500
uvx harbor run -d satbench@1.0 -t 500
a7e262a
501
uvx harbor run -d satbench@1.0 -t 501
a7e262a
502
uvx harbor run -d satbench@1.0 -t 502
a7e262a
503
uvx harbor run -d satbench@1.0 -t 503
a7e262a
504
uvx harbor run -d satbench@1.0 -t 504
a7e262a
505
uvx harbor run -d satbench@1.0 -t 505
a7e262a
506
uvx harbor run -d satbench@1.0 -t 506
a7e262a
507
uvx harbor run -d satbench@1.0 -t 507
a7e262a
508
uvx harbor run -d satbench@1.0 -t 508
a7e262a
509
uvx harbor run -d satbench@1.0 -t 509
a7e262a
51
uvx harbor run -d satbench@1.0 -t 51
a7e262a
510
uvx harbor run -d satbench@1.0 -t 510
a7e262a
511
uvx harbor run -d satbench@1.0 -t 511
a7e262a
512
uvx harbor run -d satbench@1.0 -t 512
a7e262a
513
uvx harbor run -d satbench@1.0 -t 513
a7e262a
514
uvx harbor run -d satbench@1.0 -t 514
a7e262a
515
uvx harbor run -d satbench@1.0 -t 515
a7e262a
516
uvx harbor run -d satbench@1.0 -t 516
a7e262a
517
uvx harbor run -d satbench@1.0 -t 517
a7e262a
518
uvx harbor run -d satbench@1.0 -t 518
a7e262a
519
uvx harbor run -d satbench@1.0 -t 519
a7e262a
52
uvx harbor run -d satbench@1.0 -t 52
a7e262a
520
uvx harbor run -d satbench@1.0 -t 520
a7e262a
521
uvx harbor run -d satbench@1.0 -t 521
a7e262a
522
uvx harbor run -d satbench@1.0 -t 522
a7e262a
523
uvx harbor run -d satbench@1.0 -t 523
a7e262a
524
uvx harbor run -d satbench@1.0 -t 524
a7e262a
525
uvx harbor run -d satbench@1.0 -t 525
a7e262a
526
uvx harbor run -d satbench@1.0 -t 526
a7e262a
527
uvx harbor run -d satbench@1.0 -t 527
a7e262a
528
uvx harbor run -d satbench@1.0 -t 528
a7e262a
529
uvx harbor run -d satbench@1.0 -t 529
a7e262a
53
uvx harbor run -d satbench@1.0 -t 53
a7e262a
530
uvx harbor run -d satbench@1.0 -t 530
a7e262a
531
uvx harbor run -d satbench@1.0 -t 531
a7e262a
532
uvx harbor run -d satbench@1.0 -t 532
a7e262a
533
uvx harbor run -d satbench@1.0 -t 533
a7e262a
534
uvx harbor run -d satbench@1.0 -t 534
a7e262a
535
uvx harbor run -d satbench@1.0 -t 535
a7e262a
536
uvx harbor run -d satbench@1.0 -t 536
a7e262a
537
uvx harbor run -d satbench@1.0 -t 537
a7e262a
538
uvx harbor run -d satbench@1.0 -t 538
a7e262a
539
uvx harbor run -d satbench@1.0 -t 539
a7e262a
54
uvx harbor run -d satbench@1.0 -t 54
a7e262a
540
uvx harbor run -d satbench@1.0 -t 540
a7e262a
541
uvx harbor run -d satbench@1.0 -t 541
a7e262a
542
uvx harbor run -d satbench@1.0 -t 542
a7e262a
543
uvx harbor run -d satbench@1.0 -t 543
a7e262a
544
uvx harbor run -d satbench@1.0 -t 544
a7e262a
545
uvx harbor run -d satbench@1.0 -t 545
a7e262a
546
uvx harbor run -d satbench@1.0 -t 546
a7e262a
547
uvx harbor run -d satbench@1.0 -t 547
a7e262a
548
uvx harbor run -d satbench@1.0 -t 548
a7e262a