satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

729
uvx harbor run -d satbench@1.0 -t 729
a7e262a
73
uvx harbor run -d satbench@1.0 -t 73
a7e262a
730
uvx harbor run -d satbench@1.0 -t 730
a7e262a
731
uvx harbor run -d satbench@1.0 -t 731
a7e262a
732
uvx harbor run -d satbench@1.0 -t 732
a7e262a
733
uvx harbor run -d satbench@1.0 -t 733
a7e262a
734
uvx harbor run -d satbench@1.0 -t 734
a7e262a
735
uvx harbor run -d satbench@1.0 -t 735
a7e262a
736
uvx harbor run -d satbench@1.0 -t 736
a7e262a
737
uvx harbor run -d satbench@1.0 -t 737
a7e262a
738
uvx harbor run -d satbench@1.0 -t 738
a7e262a
739
uvx harbor run -d satbench@1.0 -t 739
a7e262a
74
uvx harbor run -d satbench@1.0 -t 74
a7e262a
740
uvx harbor run -d satbench@1.0 -t 740
a7e262a
741
uvx harbor run -d satbench@1.0 -t 741
a7e262a
742
uvx harbor run -d satbench@1.0 -t 742
a7e262a
743
uvx harbor run -d satbench@1.0 -t 743
a7e262a
744
uvx harbor run -d satbench@1.0 -t 744
a7e262a
745
uvx harbor run -d satbench@1.0 -t 745
a7e262a
746
uvx harbor run -d satbench@1.0 -t 746
a7e262a
747
uvx harbor run -d satbench@1.0 -t 747
a7e262a
748
uvx harbor run -d satbench@1.0 -t 748
a7e262a
749
uvx harbor run -d satbench@1.0 -t 749
a7e262a
75
uvx harbor run -d satbench@1.0 -t 75
a7e262a
750
uvx harbor run -d satbench@1.0 -t 750
a7e262a
751
uvx harbor run -d satbench@1.0 -t 751
a7e262a
752
uvx harbor run -d satbench@1.0 -t 752
a7e262a
753
uvx harbor run -d satbench@1.0 -t 753
a7e262a
754
uvx harbor run -d satbench@1.0 -t 754
a7e262a
755
uvx harbor run -d satbench@1.0 -t 755
a7e262a
756
uvx harbor run -d satbench@1.0 -t 756
a7e262a
757
uvx harbor run -d satbench@1.0 -t 757
a7e262a
758
uvx harbor run -d satbench@1.0 -t 758
a7e262a
759
uvx harbor run -d satbench@1.0 -t 759
a7e262a
76
uvx harbor run -d satbench@1.0 -t 76
a7e262a
760
uvx harbor run -d satbench@1.0 -t 760
a7e262a
761
uvx harbor run -d satbench@1.0 -t 761
a7e262a
762
uvx harbor run -d satbench@1.0 -t 762
a7e262a
763
uvx harbor run -d satbench@1.0 -t 763
a7e262a
764
uvx harbor run -d satbench@1.0 -t 764
a7e262a
765
uvx harbor run -d satbench@1.0 -t 765
a7e262a
766
uvx harbor run -d satbench@1.0 -t 766
a7e262a
767
uvx harbor run -d satbench@1.0 -t 767
a7e262a
768
uvx harbor run -d satbench@1.0 -t 768
a7e262a
769
uvx harbor run -d satbench@1.0 -t 769
a7e262a
77
uvx harbor run -d satbench@1.0 -t 77
a7e262a
770
uvx harbor run -d satbench@1.0 -t 770
a7e262a
771
uvx harbor run -d satbench@1.0 -t 771
a7e262a
772
uvx harbor run -d satbench@1.0 -t 772
a7e262a
773
uvx harbor run -d satbench@1.0 -t 773
a7e262a
774
uvx harbor run -d satbench@1.0 -t 774
a7e262a
775
uvx harbor run -d satbench@1.0 -t 775
a7e262a
776
uvx harbor run -d satbench@1.0 -t 776
a7e262a
777
uvx harbor run -d satbench@1.0 -t 777
a7e262a
778
uvx harbor run -d satbench@1.0 -t 778
a7e262a
779
uvx harbor run -d satbench@1.0 -t 779
a7e262a
78
uvx harbor run -d satbench@1.0 -t 78
a7e262a
780
uvx harbor run -d satbench@1.0 -t 780
a7e262a
781
uvx harbor run -d satbench@1.0 -t 781
a7e262a
782
uvx harbor run -d satbench@1.0 -t 782
a7e262a
783
uvx harbor run -d satbench@1.0 -t 783
a7e262a
784
uvx harbor run -d satbench@1.0 -t 784
a7e262a
785
uvx harbor run -d satbench@1.0 -t 785
a7e262a
786
uvx harbor run -d satbench@1.0 -t 786
a7e262a
787
uvx harbor run -d satbench@1.0 -t 787
a7e262a
788
uvx harbor run -d satbench@1.0 -t 788
a7e262a
789
uvx harbor run -d satbench@1.0 -t 789
a7e262a
79
uvx harbor run -d satbench@1.0 -t 79
a7e262a
790
uvx harbor run -d satbench@1.0 -t 790
a7e262a
791
uvx harbor run -d satbench@1.0 -t 791
a7e262a
792
uvx harbor run -d satbench@1.0 -t 792
a7e262a
793
uvx harbor run -d satbench@1.0 -t 793
a7e262a
794
uvx harbor run -d satbench@1.0 -t 794
a7e262a
795
uvx harbor run -d satbench@1.0 -t 795
a7e262a
796
uvx harbor run -d satbench@1.0 -t 796
a7e262a
797
uvx harbor run -d satbench@1.0 -t 797
a7e262a
798
uvx harbor run -d satbench@1.0 -t 798
a7e262a
799
uvx harbor run -d satbench@1.0 -t 799
a7e262a
8
uvx harbor run -d satbench@1.0 -t 8
a7e262a
80
uvx harbor run -d satbench@1.0 -t 80
a7e262a
800
uvx harbor run -d satbench@1.0 -t 800
a7e262a
801
uvx harbor run -d satbench@1.0 -t 801
a7e262a
802
uvx harbor run -d satbench@1.0 -t 802
a7e262a
803
uvx harbor run -d satbench@1.0 -t 803
a7e262a
804
uvx harbor run -d satbench@1.0 -t 804
a7e262a
805
uvx harbor run -d satbench@1.0 -t 805
a7e262a
806
uvx harbor run -d satbench@1.0 -t 806
a7e262a
807
uvx harbor run -d satbench@1.0 -t 807
a7e262a
808
uvx harbor run -d satbench@1.0 -t 808
a7e262a
809
uvx harbor run -d satbench@1.0 -t 809
a7e262a
81
uvx harbor run -d satbench@1.0 -t 81
a7e262a
810
uvx harbor run -d satbench@1.0 -t 810
a7e262a
811
uvx harbor run -d satbench@1.0 -t 811
a7e262a
812
uvx harbor run -d satbench@1.0 -t 812
a7e262a
813
uvx harbor run -d satbench@1.0 -t 813
a7e262a
814
uvx harbor run -d satbench@1.0 -t 814
a7e262a
815
uvx harbor run -d satbench@1.0 -t 815
a7e262a
816
uvx harbor run -d satbench@1.0 -t 816
a7e262a
817
uvx harbor run -d satbench@1.0 -t 817
a7e262a
818
uvx harbor run -d satbench@1.0 -t 818
a7e262a