satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
909
uvx harbor run -d satbench@1.0 -t 909a7e262a
91
uvx harbor run -d satbench@1.0 -t 91a7e262a
910
uvx harbor run -d satbench@1.0 -t 910a7e262a
911
uvx harbor run -d satbench@1.0 -t 911a7e262a
912
uvx harbor run -d satbench@1.0 -t 912a7e262a
913
uvx harbor run -d satbench@1.0 -t 913a7e262a
914
uvx harbor run -d satbench@1.0 -t 914a7e262a
915
uvx harbor run -d satbench@1.0 -t 915a7e262a
916
uvx harbor run -d satbench@1.0 -t 916a7e262a
917
uvx harbor run -d satbench@1.0 -t 917a7e262a
918
uvx harbor run -d satbench@1.0 -t 918a7e262a
919
uvx harbor run -d satbench@1.0 -t 919a7e262a
92
uvx harbor run -d satbench@1.0 -t 92a7e262a
920
uvx harbor run -d satbench@1.0 -t 920a7e262a
921
uvx harbor run -d satbench@1.0 -t 921a7e262a
922
uvx harbor run -d satbench@1.0 -t 922a7e262a
923
uvx harbor run -d satbench@1.0 -t 923a7e262a
924
uvx harbor run -d satbench@1.0 -t 924a7e262a
925
uvx harbor run -d satbench@1.0 -t 925a7e262a
926
uvx harbor run -d satbench@1.0 -t 926a7e262a
927
uvx harbor run -d satbench@1.0 -t 927a7e262a
928
uvx harbor run -d satbench@1.0 -t 928a7e262a
929
uvx harbor run -d satbench@1.0 -t 929a7e262a
93
uvx harbor run -d satbench@1.0 -t 93a7e262a
930
uvx harbor run -d satbench@1.0 -t 930a7e262a
931
uvx harbor run -d satbench@1.0 -t 931a7e262a
932
uvx harbor run -d satbench@1.0 -t 932a7e262a
933
uvx harbor run -d satbench@1.0 -t 933a7e262a
934
uvx harbor run -d satbench@1.0 -t 934a7e262a
935
uvx harbor run -d satbench@1.0 -t 935a7e262a
936
uvx harbor run -d satbench@1.0 -t 936a7e262a
937
uvx harbor run -d satbench@1.0 -t 937a7e262a
938
uvx harbor run -d satbench@1.0 -t 938a7e262a
939
uvx harbor run -d satbench@1.0 -t 939a7e262a
94
uvx harbor run -d satbench@1.0 -t 94a7e262a
940
uvx harbor run -d satbench@1.0 -t 940a7e262a
941
uvx harbor run -d satbench@1.0 -t 941a7e262a
942
uvx harbor run -d satbench@1.0 -t 942a7e262a
943
uvx harbor run -d satbench@1.0 -t 943a7e262a
944
uvx harbor run -d satbench@1.0 -t 944a7e262a
945
uvx harbor run -d satbench@1.0 -t 945a7e262a
946
uvx harbor run -d satbench@1.0 -t 946a7e262a
947
uvx harbor run -d satbench@1.0 -t 947a7e262a
948
uvx harbor run -d satbench@1.0 -t 948a7e262a
949
uvx harbor run -d satbench@1.0 -t 949a7e262a
95
uvx harbor run -d satbench@1.0 -t 95a7e262a
950
uvx harbor run -d satbench@1.0 -t 950a7e262a
951
uvx harbor run -d satbench@1.0 -t 951a7e262a
952
uvx harbor run -d satbench@1.0 -t 952a7e262a
953
uvx harbor run -d satbench@1.0 -t 953a7e262a
954
uvx harbor run -d satbench@1.0 -t 954a7e262a
955
uvx harbor run -d satbench@1.0 -t 955a7e262a
956
uvx harbor run -d satbench@1.0 -t 956a7e262a
957
uvx harbor run -d satbench@1.0 -t 957a7e262a
958
uvx harbor run -d satbench@1.0 -t 958a7e262a
959
uvx harbor run -d satbench@1.0 -t 959a7e262a
96
uvx harbor run -d satbench@1.0 -t 96a7e262a
960
uvx harbor run -d satbench@1.0 -t 960a7e262a
961
uvx harbor run -d satbench@1.0 -t 961a7e262a
962
uvx harbor run -d satbench@1.0 -t 962a7e262a
963
uvx harbor run -d satbench@1.0 -t 963a7e262a
964
uvx harbor run -d satbench@1.0 -t 964a7e262a
965
uvx harbor run -d satbench@1.0 -t 965a7e262a
966
uvx harbor run -d satbench@1.0 -t 966a7e262a
967
uvx harbor run -d satbench@1.0 -t 967a7e262a
968
uvx harbor run -d satbench@1.0 -t 968a7e262a
969
uvx harbor run -d satbench@1.0 -t 969a7e262a
97
uvx harbor run -d satbench@1.0 -t 97a7e262a
970
uvx harbor run -d satbench@1.0 -t 970a7e262a
971
uvx harbor run -d satbench@1.0 -t 971a7e262a
972
uvx harbor run -d satbench@1.0 -t 972a7e262a
973
uvx harbor run -d satbench@1.0 -t 973a7e262a
974
uvx harbor run -d satbench@1.0 -t 974a7e262a
975
uvx harbor run -d satbench@1.0 -t 975a7e262a
976
uvx harbor run -d satbench@1.0 -t 976a7e262a
977
uvx harbor run -d satbench@1.0 -t 977a7e262a
978
uvx harbor run -d satbench@1.0 -t 978a7e262a
979
uvx harbor run -d satbench@1.0 -t 979a7e262a
98
uvx harbor run -d satbench@1.0 -t 98a7e262a
980
uvx harbor run -d satbench@1.0 -t 980a7e262a
981
uvx harbor run -d satbench@1.0 -t 981a7e262a
982
uvx harbor run -d satbench@1.0 -t 982a7e262a
983
uvx harbor run -d satbench@1.0 -t 983a7e262a
984
uvx harbor run -d satbench@1.0 -t 984a7e262a
985
uvx harbor run -d satbench@1.0 -t 985a7e262a
986
uvx harbor run -d satbench@1.0 -t 986a7e262a
987
uvx harbor run -d satbench@1.0 -t 987a7e262a
988
uvx harbor run -d satbench@1.0 -t 988a7e262a
989
uvx harbor run -d satbench@1.0 -t 989a7e262a
99
uvx harbor run -d satbench@1.0 -t 99a7e262a
990
uvx harbor run -d satbench@1.0 -t 990a7e262a
991
uvx harbor run -d satbench@1.0 -t 991a7e262a
992
uvx harbor run -d satbench@1.0 -t 992a7e262a
993
uvx harbor run -d satbench@1.0 -t 993a7e262a
994
uvx harbor run -d satbench@1.0 -t 994a7e262a
995
uvx harbor run -d satbench@1.0 -t 995a7e262a
996
uvx harbor run -d satbench@1.0 -t 996a7e262a
997
uvx harbor run -d satbench@1.0 -t 997a7e262a
998
uvx harbor run -d satbench@1.0 -t 998a7e262a
999
uvx harbor run -d satbench@1.0 -t 999a7e262a