satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

909
uvx harbor run -d satbench@1.0 -t 909
a7e262a
91
uvx harbor run -d satbench@1.0 -t 91
a7e262a
910
uvx harbor run -d satbench@1.0 -t 910
a7e262a
911
uvx harbor run -d satbench@1.0 -t 911
a7e262a
912
uvx harbor run -d satbench@1.0 -t 912
a7e262a
913
uvx harbor run -d satbench@1.0 -t 913
a7e262a
914
uvx harbor run -d satbench@1.0 -t 914
a7e262a
915
uvx harbor run -d satbench@1.0 -t 915
a7e262a
916
uvx harbor run -d satbench@1.0 -t 916
a7e262a
917
uvx harbor run -d satbench@1.0 -t 917
a7e262a
918
uvx harbor run -d satbench@1.0 -t 918
a7e262a
919
uvx harbor run -d satbench@1.0 -t 919
a7e262a
92
uvx harbor run -d satbench@1.0 -t 92
a7e262a
920
uvx harbor run -d satbench@1.0 -t 920
a7e262a
921
uvx harbor run -d satbench@1.0 -t 921
a7e262a
922
uvx harbor run -d satbench@1.0 -t 922
a7e262a
923
uvx harbor run -d satbench@1.0 -t 923
a7e262a
924
uvx harbor run -d satbench@1.0 -t 924
a7e262a
925
uvx harbor run -d satbench@1.0 -t 925
a7e262a
926
uvx harbor run -d satbench@1.0 -t 926
a7e262a
927
uvx harbor run -d satbench@1.0 -t 927
a7e262a
928
uvx harbor run -d satbench@1.0 -t 928
a7e262a
929
uvx harbor run -d satbench@1.0 -t 929
a7e262a
93
uvx harbor run -d satbench@1.0 -t 93
a7e262a
930
uvx harbor run -d satbench@1.0 -t 930
a7e262a
931
uvx harbor run -d satbench@1.0 -t 931
a7e262a
932
uvx harbor run -d satbench@1.0 -t 932
a7e262a
933
uvx harbor run -d satbench@1.0 -t 933
a7e262a
934
uvx harbor run -d satbench@1.0 -t 934
a7e262a
935
uvx harbor run -d satbench@1.0 -t 935
a7e262a
936
uvx harbor run -d satbench@1.0 -t 936
a7e262a
937
uvx harbor run -d satbench@1.0 -t 937
a7e262a
938
uvx harbor run -d satbench@1.0 -t 938
a7e262a
939
uvx harbor run -d satbench@1.0 -t 939
a7e262a
94
uvx harbor run -d satbench@1.0 -t 94
a7e262a
940
uvx harbor run -d satbench@1.0 -t 940
a7e262a
941
uvx harbor run -d satbench@1.0 -t 941
a7e262a
942
uvx harbor run -d satbench@1.0 -t 942
a7e262a
943
uvx harbor run -d satbench@1.0 -t 943
a7e262a
944
uvx harbor run -d satbench@1.0 -t 944
a7e262a
945
uvx harbor run -d satbench@1.0 -t 945
a7e262a
946
uvx harbor run -d satbench@1.0 -t 946
a7e262a
947
uvx harbor run -d satbench@1.0 -t 947
a7e262a
948
uvx harbor run -d satbench@1.0 -t 948
a7e262a
949
uvx harbor run -d satbench@1.0 -t 949
a7e262a
95
uvx harbor run -d satbench@1.0 -t 95
a7e262a
950
uvx harbor run -d satbench@1.0 -t 950
a7e262a
951
uvx harbor run -d satbench@1.0 -t 951
a7e262a
952
uvx harbor run -d satbench@1.0 -t 952
a7e262a
953
uvx harbor run -d satbench@1.0 -t 953
a7e262a
954
uvx harbor run -d satbench@1.0 -t 954
a7e262a
955
uvx harbor run -d satbench@1.0 -t 955
a7e262a
956
uvx harbor run -d satbench@1.0 -t 956
a7e262a
957
uvx harbor run -d satbench@1.0 -t 957
a7e262a
958
uvx harbor run -d satbench@1.0 -t 958
a7e262a
959
uvx harbor run -d satbench@1.0 -t 959
a7e262a
96
uvx harbor run -d satbench@1.0 -t 96
a7e262a
960
uvx harbor run -d satbench@1.0 -t 960
a7e262a
961
uvx harbor run -d satbench@1.0 -t 961
a7e262a
962
uvx harbor run -d satbench@1.0 -t 962
a7e262a
963
uvx harbor run -d satbench@1.0 -t 963
a7e262a
964
uvx harbor run -d satbench@1.0 -t 964
a7e262a
965
uvx harbor run -d satbench@1.0 -t 965
a7e262a
966
uvx harbor run -d satbench@1.0 -t 966
a7e262a
967
uvx harbor run -d satbench@1.0 -t 967
a7e262a
968
uvx harbor run -d satbench@1.0 -t 968
a7e262a
969
uvx harbor run -d satbench@1.0 -t 969
a7e262a
97
uvx harbor run -d satbench@1.0 -t 97
a7e262a
970
uvx harbor run -d satbench@1.0 -t 970
a7e262a
971
uvx harbor run -d satbench@1.0 -t 971
a7e262a
972
uvx harbor run -d satbench@1.0 -t 972
a7e262a
973
uvx harbor run -d satbench@1.0 -t 973
a7e262a
974
uvx harbor run -d satbench@1.0 -t 974
a7e262a
975
uvx harbor run -d satbench@1.0 -t 975
a7e262a
976
uvx harbor run -d satbench@1.0 -t 976
a7e262a
977
uvx harbor run -d satbench@1.0 -t 977
a7e262a
978
uvx harbor run -d satbench@1.0 -t 978
a7e262a
979
uvx harbor run -d satbench@1.0 -t 979
a7e262a
98
uvx harbor run -d satbench@1.0 -t 98
a7e262a
980
uvx harbor run -d satbench@1.0 -t 980
a7e262a
981
uvx harbor run -d satbench@1.0 -t 981
a7e262a
982
uvx harbor run -d satbench@1.0 -t 982
a7e262a
983
uvx harbor run -d satbench@1.0 -t 983
a7e262a
984
uvx harbor run -d satbench@1.0 -t 984
a7e262a
985
uvx harbor run -d satbench@1.0 -t 985
a7e262a
986
uvx harbor run -d satbench@1.0 -t 986
a7e262a
987
uvx harbor run -d satbench@1.0 -t 987
a7e262a
988
uvx harbor run -d satbench@1.0 -t 988
a7e262a
989
uvx harbor run -d satbench@1.0 -t 989
a7e262a
99
uvx harbor run -d satbench@1.0 -t 99
a7e262a
990
uvx harbor run -d satbench@1.0 -t 990
a7e262a
991
uvx harbor run -d satbench@1.0 -t 991
a7e262a
992
uvx harbor run -d satbench@1.0 -t 992
a7e262a
993
uvx harbor run -d satbench@1.0 -t 993
a7e262a
994
uvx harbor run -d satbench@1.0 -t 994
a7e262a
995
uvx harbor run -d satbench@1.0 -t 995
a7e262a
996
uvx harbor run -d satbench@1.0 -t 996
a7e262a
997
uvx harbor run -d satbench@1.0 -t 997
a7e262a
998
uvx harbor run -d satbench@1.0 -t 998
a7e262a
999
uvx harbor run -d satbench@1.0 -t 999
a7e262a