satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

639
uvx harbor run -d satbench@1.0 -t 639
a7e262a
64
uvx harbor run -d satbench@1.0 -t 64
a7e262a
640
uvx harbor run -d satbench@1.0 -t 640
a7e262a
641
uvx harbor run -d satbench@1.0 -t 641
a7e262a
642
uvx harbor run -d satbench@1.0 -t 642
a7e262a
643
uvx harbor run -d satbench@1.0 -t 643
a7e262a
644
uvx harbor run -d satbench@1.0 -t 644
a7e262a
645
uvx harbor run -d satbench@1.0 -t 645
a7e262a
646
uvx harbor run -d satbench@1.0 -t 646
a7e262a
647
uvx harbor run -d satbench@1.0 -t 647
a7e262a
648
uvx harbor run -d satbench@1.0 -t 648
a7e262a
649
uvx harbor run -d satbench@1.0 -t 649
a7e262a
65
uvx harbor run -d satbench@1.0 -t 65
a7e262a
650
uvx harbor run -d satbench@1.0 -t 650
a7e262a
651
uvx harbor run -d satbench@1.0 -t 651
a7e262a
652
uvx harbor run -d satbench@1.0 -t 652
a7e262a
653
uvx harbor run -d satbench@1.0 -t 653
a7e262a
654
uvx harbor run -d satbench@1.0 -t 654
a7e262a
655
uvx harbor run -d satbench@1.0 -t 655
a7e262a
656
uvx harbor run -d satbench@1.0 -t 656
a7e262a
657
uvx harbor run -d satbench@1.0 -t 657
a7e262a
658
uvx harbor run -d satbench@1.0 -t 658
a7e262a
659
uvx harbor run -d satbench@1.0 -t 659
a7e262a
66
uvx harbor run -d satbench@1.0 -t 66
a7e262a
660
uvx harbor run -d satbench@1.0 -t 660
a7e262a
661
uvx harbor run -d satbench@1.0 -t 661
a7e262a
662
uvx harbor run -d satbench@1.0 -t 662
a7e262a
663
uvx harbor run -d satbench@1.0 -t 663
a7e262a
664
uvx harbor run -d satbench@1.0 -t 664
a7e262a
665
uvx harbor run -d satbench@1.0 -t 665
a7e262a
666
uvx harbor run -d satbench@1.0 -t 666
a7e262a
667
uvx harbor run -d satbench@1.0 -t 667
a7e262a
668
uvx harbor run -d satbench@1.0 -t 668
a7e262a
669
uvx harbor run -d satbench@1.0 -t 669
a7e262a
67
uvx harbor run -d satbench@1.0 -t 67
a7e262a
670
uvx harbor run -d satbench@1.0 -t 670
a7e262a
671
uvx harbor run -d satbench@1.0 -t 671
a7e262a
672
uvx harbor run -d satbench@1.0 -t 672
a7e262a
673
uvx harbor run -d satbench@1.0 -t 673
a7e262a
674
uvx harbor run -d satbench@1.0 -t 674
a7e262a
675
uvx harbor run -d satbench@1.0 -t 675
a7e262a
676
uvx harbor run -d satbench@1.0 -t 676
a7e262a
677
uvx harbor run -d satbench@1.0 -t 677
a7e262a
678
uvx harbor run -d satbench@1.0 -t 678
a7e262a
679
uvx harbor run -d satbench@1.0 -t 679
a7e262a
68
uvx harbor run -d satbench@1.0 -t 68
a7e262a
680
uvx harbor run -d satbench@1.0 -t 680
a7e262a
681
uvx harbor run -d satbench@1.0 -t 681
a7e262a
682
uvx harbor run -d satbench@1.0 -t 682
a7e262a
683
uvx harbor run -d satbench@1.0 -t 683
a7e262a
684
uvx harbor run -d satbench@1.0 -t 684
a7e262a
685
uvx harbor run -d satbench@1.0 -t 685
a7e262a
686
uvx harbor run -d satbench@1.0 -t 686
a7e262a
687
uvx harbor run -d satbench@1.0 -t 687
a7e262a
688
uvx harbor run -d satbench@1.0 -t 688
a7e262a
689
uvx harbor run -d satbench@1.0 -t 689
a7e262a
69
uvx harbor run -d satbench@1.0 -t 69
a7e262a
690
uvx harbor run -d satbench@1.0 -t 690
a7e262a
691
uvx harbor run -d satbench@1.0 -t 691
a7e262a
692
uvx harbor run -d satbench@1.0 -t 692
a7e262a
693
uvx harbor run -d satbench@1.0 -t 693
a7e262a
694
uvx harbor run -d satbench@1.0 -t 694
a7e262a
695
uvx harbor run -d satbench@1.0 -t 695
a7e262a
696
uvx harbor run -d satbench@1.0 -t 696
a7e262a
697
uvx harbor run -d satbench@1.0 -t 697
a7e262a
698
uvx harbor run -d satbench@1.0 -t 698
a7e262a
699
uvx harbor run -d satbench@1.0 -t 699
a7e262a
7
uvx harbor run -d satbench@1.0 -t 7
a7e262a
70
uvx harbor run -d satbench@1.0 -t 70
a7e262a
700
uvx harbor run -d satbench@1.0 -t 700
a7e262a
701
uvx harbor run -d satbench@1.0 -t 701
a7e262a
702
uvx harbor run -d satbench@1.0 -t 702
a7e262a
703
uvx harbor run -d satbench@1.0 -t 703
a7e262a
704
uvx harbor run -d satbench@1.0 -t 704
a7e262a
705
uvx harbor run -d satbench@1.0 -t 705
a7e262a
706
uvx harbor run -d satbench@1.0 -t 706
a7e262a
707
uvx harbor run -d satbench@1.0 -t 707
a7e262a
708
uvx harbor run -d satbench@1.0 -t 708
a7e262a
709
uvx harbor run -d satbench@1.0 -t 709
a7e262a
71
uvx harbor run -d satbench@1.0 -t 71
a7e262a
710
uvx harbor run -d satbench@1.0 -t 710
a7e262a
711
uvx harbor run -d satbench@1.0 -t 711
a7e262a
712
uvx harbor run -d satbench@1.0 -t 712
a7e262a
713
uvx harbor run -d satbench@1.0 -t 713
a7e262a
714
uvx harbor run -d satbench@1.0 -t 714
a7e262a
715
uvx harbor run -d satbench@1.0 -t 715
a7e262a
716
uvx harbor run -d satbench@1.0 -t 716
a7e262a
717
uvx harbor run -d satbench@1.0 -t 717
a7e262a
718
uvx harbor run -d satbench@1.0 -t 718
a7e262a
719
uvx harbor run -d satbench@1.0 -t 719
a7e262a
72
uvx harbor run -d satbench@1.0 -t 72
a7e262a
720
uvx harbor run -d satbench@1.0 -t 720
a7e262a
721
uvx harbor run -d satbench@1.0 -t 721
a7e262a
722
uvx harbor run -d satbench@1.0 -t 722
a7e262a
723
uvx harbor run -d satbench@1.0 -t 723
a7e262a
724
uvx harbor run -d satbench@1.0 -t 724
a7e262a
725
uvx harbor run -d satbench@1.0 -t 725
a7e262a
726
uvx harbor run -d satbench@1.0 -t 726
a7e262a
727
uvx harbor run -d satbench@1.0 -t 727
a7e262a
728
uvx harbor run -d satbench@1.0 -t 728
a7e262a