satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

819
uvx harbor run -d satbench@1.0 -t 819
a7e262a
82
uvx harbor run -d satbench@1.0 -t 82
a7e262a
820
uvx harbor run -d satbench@1.0 -t 820
a7e262a
821
uvx harbor run -d satbench@1.0 -t 821
a7e262a
822
uvx harbor run -d satbench@1.0 -t 822
a7e262a
823
uvx harbor run -d satbench@1.0 -t 823
a7e262a
824
uvx harbor run -d satbench@1.0 -t 824
a7e262a
825
uvx harbor run -d satbench@1.0 -t 825
a7e262a
826
uvx harbor run -d satbench@1.0 -t 826
a7e262a
827
uvx harbor run -d satbench@1.0 -t 827
a7e262a
828
uvx harbor run -d satbench@1.0 -t 828
a7e262a
829
uvx harbor run -d satbench@1.0 -t 829
a7e262a
83
uvx harbor run -d satbench@1.0 -t 83
a7e262a
830
uvx harbor run -d satbench@1.0 -t 830
a7e262a
831
uvx harbor run -d satbench@1.0 -t 831
a7e262a
832
uvx harbor run -d satbench@1.0 -t 832
a7e262a
833
uvx harbor run -d satbench@1.0 -t 833
a7e262a
834
uvx harbor run -d satbench@1.0 -t 834
a7e262a
835
uvx harbor run -d satbench@1.0 -t 835
a7e262a
836
uvx harbor run -d satbench@1.0 -t 836
a7e262a
837
uvx harbor run -d satbench@1.0 -t 837
a7e262a
838
uvx harbor run -d satbench@1.0 -t 838
a7e262a
839
uvx harbor run -d satbench@1.0 -t 839
a7e262a
84
uvx harbor run -d satbench@1.0 -t 84
a7e262a
840
uvx harbor run -d satbench@1.0 -t 840
a7e262a
841
uvx harbor run -d satbench@1.0 -t 841
a7e262a
842
uvx harbor run -d satbench@1.0 -t 842
a7e262a
843
uvx harbor run -d satbench@1.0 -t 843
a7e262a
844
uvx harbor run -d satbench@1.0 -t 844
a7e262a
845
uvx harbor run -d satbench@1.0 -t 845
a7e262a
846
uvx harbor run -d satbench@1.0 -t 846
a7e262a
847
uvx harbor run -d satbench@1.0 -t 847
a7e262a
848
uvx harbor run -d satbench@1.0 -t 848
a7e262a
849
uvx harbor run -d satbench@1.0 -t 849
a7e262a
85
uvx harbor run -d satbench@1.0 -t 85
a7e262a
850
uvx harbor run -d satbench@1.0 -t 850
a7e262a
851
uvx harbor run -d satbench@1.0 -t 851
a7e262a
852
uvx harbor run -d satbench@1.0 -t 852
a7e262a
853
uvx harbor run -d satbench@1.0 -t 853
a7e262a
854
uvx harbor run -d satbench@1.0 -t 854
a7e262a
855
uvx harbor run -d satbench@1.0 -t 855
a7e262a
856
uvx harbor run -d satbench@1.0 -t 856
a7e262a
857
uvx harbor run -d satbench@1.0 -t 857
a7e262a
858
uvx harbor run -d satbench@1.0 -t 858
a7e262a
859
uvx harbor run -d satbench@1.0 -t 859
a7e262a
86
uvx harbor run -d satbench@1.0 -t 86
a7e262a
860
uvx harbor run -d satbench@1.0 -t 860
a7e262a
861
uvx harbor run -d satbench@1.0 -t 861
a7e262a
862
uvx harbor run -d satbench@1.0 -t 862
a7e262a
863
uvx harbor run -d satbench@1.0 -t 863
a7e262a
864
uvx harbor run -d satbench@1.0 -t 864
a7e262a
865
uvx harbor run -d satbench@1.0 -t 865
a7e262a
866
uvx harbor run -d satbench@1.0 -t 866
a7e262a
867
uvx harbor run -d satbench@1.0 -t 867
a7e262a
868
uvx harbor run -d satbench@1.0 -t 868
a7e262a
869
uvx harbor run -d satbench@1.0 -t 869
a7e262a
87
uvx harbor run -d satbench@1.0 -t 87
a7e262a
870
uvx harbor run -d satbench@1.0 -t 870
a7e262a
871
uvx harbor run -d satbench@1.0 -t 871
a7e262a
872
uvx harbor run -d satbench@1.0 -t 872
a7e262a
873
uvx harbor run -d satbench@1.0 -t 873
a7e262a
874
uvx harbor run -d satbench@1.0 -t 874
a7e262a
875
uvx harbor run -d satbench@1.0 -t 875
a7e262a
876
uvx harbor run -d satbench@1.0 -t 876
a7e262a
877
uvx harbor run -d satbench@1.0 -t 877
a7e262a
878
uvx harbor run -d satbench@1.0 -t 878
a7e262a
879
uvx harbor run -d satbench@1.0 -t 879
a7e262a
88
uvx harbor run -d satbench@1.0 -t 88
a7e262a
880
uvx harbor run -d satbench@1.0 -t 880
a7e262a
881
uvx harbor run -d satbench@1.0 -t 881
a7e262a
882
uvx harbor run -d satbench@1.0 -t 882
a7e262a
883
uvx harbor run -d satbench@1.0 -t 883
a7e262a
884
uvx harbor run -d satbench@1.0 -t 884
a7e262a
885
uvx harbor run -d satbench@1.0 -t 885
a7e262a
886
uvx harbor run -d satbench@1.0 -t 886
a7e262a
887
uvx harbor run -d satbench@1.0 -t 887
a7e262a
888
uvx harbor run -d satbench@1.0 -t 888
a7e262a
889
uvx harbor run -d satbench@1.0 -t 889
a7e262a
89
uvx harbor run -d satbench@1.0 -t 89
a7e262a
890
uvx harbor run -d satbench@1.0 -t 890
a7e262a
891
uvx harbor run -d satbench@1.0 -t 891
a7e262a
892
uvx harbor run -d satbench@1.0 -t 892
a7e262a
893
uvx harbor run -d satbench@1.0 -t 893
a7e262a
894
uvx harbor run -d satbench@1.0 -t 894
a7e262a
895
uvx harbor run -d satbench@1.0 -t 895
a7e262a
896
uvx harbor run -d satbench@1.0 -t 896
a7e262a
897
uvx harbor run -d satbench@1.0 -t 897
a7e262a
898
uvx harbor run -d satbench@1.0 -t 898
a7e262a
899
uvx harbor run -d satbench@1.0 -t 899
a7e262a
9
uvx harbor run -d satbench@1.0 -t 9
a7e262a
90
uvx harbor run -d satbench@1.0 -t 90
a7e262a
900
uvx harbor run -d satbench@1.0 -t 900
a7e262a
901
uvx harbor run -d satbench@1.0 -t 901
a7e262a
902
uvx harbor run -d satbench@1.0 -t 902
a7e262a
903
uvx harbor run -d satbench@1.0 -t 903
a7e262a
904
uvx harbor run -d satbench@1.0 -t 904
a7e262a
905
uvx harbor run -d satbench@1.0 -t 905
a7e262a
906
uvx harbor run -d satbench@1.0 -t 906
a7e262a
907
uvx harbor run -d satbench@1.0 -t 907
a7e262a
908
uvx harbor run -d satbench@1.0 -t 908
a7e262a