satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
819
uvx harbor run -d satbench@1.0 -t 819a7e262a
82
uvx harbor run -d satbench@1.0 -t 82a7e262a
820
uvx harbor run -d satbench@1.0 -t 820a7e262a
821
uvx harbor run -d satbench@1.0 -t 821a7e262a
822
uvx harbor run -d satbench@1.0 -t 822a7e262a
823
uvx harbor run -d satbench@1.0 -t 823a7e262a
824
uvx harbor run -d satbench@1.0 -t 824a7e262a
825
uvx harbor run -d satbench@1.0 -t 825a7e262a
826
uvx harbor run -d satbench@1.0 -t 826a7e262a
827
uvx harbor run -d satbench@1.0 -t 827a7e262a
828
uvx harbor run -d satbench@1.0 -t 828a7e262a
829
uvx harbor run -d satbench@1.0 -t 829a7e262a
83
uvx harbor run -d satbench@1.0 -t 83a7e262a
830
uvx harbor run -d satbench@1.0 -t 830a7e262a
831
uvx harbor run -d satbench@1.0 -t 831a7e262a
832
uvx harbor run -d satbench@1.0 -t 832a7e262a
833
uvx harbor run -d satbench@1.0 -t 833a7e262a
834
uvx harbor run -d satbench@1.0 -t 834a7e262a
835
uvx harbor run -d satbench@1.0 -t 835a7e262a
836
uvx harbor run -d satbench@1.0 -t 836a7e262a
837
uvx harbor run -d satbench@1.0 -t 837a7e262a
838
uvx harbor run -d satbench@1.0 -t 838a7e262a
839
uvx harbor run -d satbench@1.0 -t 839a7e262a
84
uvx harbor run -d satbench@1.0 -t 84a7e262a
840
uvx harbor run -d satbench@1.0 -t 840a7e262a
841
uvx harbor run -d satbench@1.0 -t 841a7e262a
842
uvx harbor run -d satbench@1.0 -t 842a7e262a
843
uvx harbor run -d satbench@1.0 -t 843a7e262a
844
uvx harbor run -d satbench@1.0 -t 844a7e262a
845
uvx harbor run -d satbench@1.0 -t 845a7e262a
846
uvx harbor run -d satbench@1.0 -t 846a7e262a
847
uvx harbor run -d satbench@1.0 -t 847a7e262a
848
uvx harbor run -d satbench@1.0 -t 848a7e262a
849
uvx harbor run -d satbench@1.0 -t 849a7e262a
85
uvx harbor run -d satbench@1.0 -t 85a7e262a
850
uvx harbor run -d satbench@1.0 -t 850a7e262a
851
uvx harbor run -d satbench@1.0 -t 851a7e262a
852
uvx harbor run -d satbench@1.0 -t 852a7e262a
853
uvx harbor run -d satbench@1.0 -t 853a7e262a
854
uvx harbor run -d satbench@1.0 -t 854a7e262a
855
uvx harbor run -d satbench@1.0 -t 855a7e262a
856
uvx harbor run -d satbench@1.0 -t 856a7e262a
857
uvx harbor run -d satbench@1.0 -t 857a7e262a
858
uvx harbor run -d satbench@1.0 -t 858a7e262a
859
uvx harbor run -d satbench@1.0 -t 859a7e262a
86
uvx harbor run -d satbench@1.0 -t 86a7e262a
860
uvx harbor run -d satbench@1.0 -t 860a7e262a
861
uvx harbor run -d satbench@1.0 -t 861a7e262a
862
uvx harbor run -d satbench@1.0 -t 862a7e262a
863
uvx harbor run -d satbench@1.0 -t 863a7e262a
864
uvx harbor run -d satbench@1.0 -t 864a7e262a
865
uvx harbor run -d satbench@1.0 -t 865a7e262a
866
uvx harbor run -d satbench@1.0 -t 866a7e262a
867
uvx harbor run -d satbench@1.0 -t 867a7e262a
868
uvx harbor run -d satbench@1.0 -t 868a7e262a
869
uvx harbor run -d satbench@1.0 -t 869a7e262a
87
uvx harbor run -d satbench@1.0 -t 87a7e262a
870
uvx harbor run -d satbench@1.0 -t 870a7e262a
871
uvx harbor run -d satbench@1.0 -t 871a7e262a
872
uvx harbor run -d satbench@1.0 -t 872a7e262a
873
uvx harbor run -d satbench@1.0 -t 873a7e262a
874
uvx harbor run -d satbench@1.0 -t 874a7e262a
875
uvx harbor run -d satbench@1.0 -t 875a7e262a
876
uvx harbor run -d satbench@1.0 -t 876a7e262a
877
uvx harbor run -d satbench@1.0 -t 877a7e262a
878
uvx harbor run -d satbench@1.0 -t 878a7e262a
879
uvx harbor run -d satbench@1.0 -t 879a7e262a
88
uvx harbor run -d satbench@1.0 -t 88a7e262a
880
uvx harbor run -d satbench@1.0 -t 880a7e262a
881
uvx harbor run -d satbench@1.0 -t 881a7e262a
882
uvx harbor run -d satbench@1.0 -t 882a7e262a
883
uvx harbor run -d satbench@1.0 -t 883a7e262a
884
uvx harbor run -d satbench@1.0 -t 884a7e262a
885
uvx harbor run -d satbench@1.0 -t 885a7e262a
886
uvx harbor run -d satbench@1.0 -t 886a7e262a
887
uvx harbor run -d satbench@1.0 -t 887a7e262a
888
uvx harbor run -d satbench@1.0 -t 888a7e262a
889
uvx harbor run -d satbench@1.0 -t 889a7e262a
89
uvx harbor run -d satbench@1.0 -t 89a7e262a
890
uvx harbor run -d satbench@1.0 -t 890a7e262a
891
uvx harbor run -d satbench@1.0 -t 891a7e262a
892
uvx harbor run -d satbench@1.0 -t 892a7e262a
893
uvx harbor run -d satbench@1.0 -t 893a7e262a
894
uvx harbor run -d satbench@1.0 -t 894a7e262a
895
uvx harbor run -d satbench@1.0 -t 895a7e262a
896
uvx harbor run -d satbench@1.0 -t 896a7e262a
897
uvx harbor run -d satbench@1.0 -t 897a7e262a
898
uvx harbor run -d satbench@1.0 -t 898a7e262a
899
uvx harbor run -d satbench@1.0 -t 899a7e262a
9
uvx harbor run -d satbench@1.0 -t 9a7e262a
90
uvx harbor run -d satbench@1.0 -t 90a7e262a
900
uvx harbor run -d satbench@1.0 -t 900a7e262a
901
uvx harbor run -d satbench@1.0 -t 901a7e262a
902
uvx harbor run -d satbench@1.0 -t 902a7e262a
903
uvx harbor run -d satbench@1.0 -t 903a7e262a
904
uvx harbor run -d satbench@1.0 -t 904a7e262a
905
uvx harbor run -d satbench@1.0 -t 905a7e262a
906
uvx harbor run -d satbench@1.0 -t 906a7e262a
907
uvx harbor run -d satbench@1.0 -t 907a7e262a
908
uvx harbor run -d satbench@1.0 -t 908a7e262a