satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
0
uvx harbor run -d satbench@1.0 -t 0a7e262a
1
uvx harbor run -d satbench@1.0 -t 1a7e262a
10
uvx harbor run -d satbench@1.0 -t 10a7e262a
100
uvx harbor run -d satbench@1.0 -t 100a7e262a
1000
uvx harbor run -d satbench@1.0 -t 1000a7e262a
1001
uvx harbor run -d satbench@1.0 -t 1001a7e262a
1002
uvx harbor run -d satbench@1.0 -t 1002a7e262a
1003
uvx harbor run -d satbench@1.0 -t 1003a7e262a
1004
uvx harbor run -d satbench@1.0 -t 1004a7e262a
1005
uvx harbor run -d satbench@1.0 -t 1005a7e262a
1006
uvx harbor run -d satbench@1.0 -t 1006a7e262a
1007
uvx harbor run -d satbench@1.0 -t 1007a7e262a
1008
uvx harbor run -d satbench@1.0 -t 1008a7e262a
1009
uvx harbor run -d satbench@1.0 -t 1009a7e262a
101
uvx harbor run -d satbench@1.0 -t 101a7e262a
1010
uvx harbor run -d satbench@1.0 -t 1010a7e262a
1011
uvx harbor run -d satbench@1.0 -t 1011a7e262a
1012
uvx harbor run -d satbench@1.0 -t 1012a7e262a
1013
uvx harbor run -d satbench@1.0 -t 1013a7e262a
1014
uvx harbor run -d satbench@1.0 -t 1014a7e262a
1015
uvx harbor run -d satbench@1.0 -t 1015a7e262a
1016
uvx harbor run -d satbench@1.0 -t 1016a7e262a
1017
uvx harbor run -d satbench@1.0 -t 1017a7e262a
1018
uvx harbor run -d satbench@1.0 -t 1018a7e262a
1019
uvx harbor run -d satbench@1.0 -t 1019a7e262a
102
uvx harbor run -d satbench@1.0 -t 102a7e262a
1020
uvx harbor run -d satbench@1.0 -t 1020a7e262a
1021
uvx harbor run -d satbench@1.0 -t 1021a7e262a
1022
uvx harbor run -d satbench@1.0 -t 1022a7e262a
1023
uvx harbor run -d satbench@1.0 -t 1023a7e262a
1024
uvx harbor run -d satbench@1.0 -t 1024a7e262a
1025
uvx harbor run -d satbench@1.0 -t 1025a7e262a
1026
uvx harbor run -d satbench@1.0 -t 1026a7e262a
1027
uvx harbor run -d satbench@1.0 -t 1027a7e262a
1028
uvx harbor run -d satbench@1.0 -t 1028a7e262a
1029
uvx harbor run -d satbench@1.0 -t 1029a7e262a
103
uvx harbor run -d satbench@1.0 -t 103a7e262a
1030
uvx harbor run -d satbench@1.0 -t 1030a7e262a
1031
uvx harbor run -d satbench@1.0 -t 1031a7e262a
1032
uvx harbor run -d satbench@1.0 -t 1032a7e262a
1033
uvx harbor run -d satbench@1.0 -t 1033a7e262a
1034
uvx harbor run -d satbench@1.0 -t 1034a7e262a
1035
uvx harbor run -d satbench@1.0 -t 1035a7e262a
1036
uvx harbor run -d satbench@1.0 -t 1036a7e262a
1037
uvx harbor run -d satbench@1.0 -t 1037a7e262a
1038
uvx harbor run -d satbench@1.0 -t 1038a7e262a
1039
uvx harbor run -d satbench@1.0 -t 1039a7e262a
104
uvx harbor run -d satbench@1.0 -t 104a7e262a
1040
uvx harbor run -d satbench@1.0 -t 1040a7e262a
1041
uvx harbor run -d satbench@1.0 -t 1041a7e262a
1042
uvx harbor run -d satbench@1.0 -t 1042a7e262a
1043
uvx harbor run -d satbench@1.0 -t 1043a7e262a
1044
uvx harbor run -d satbench@1.0 -t 1044a7e262a
1045
uvx harbor run -d satbench@1.0 -t 1045a7e262a
1046
uvx harbor run -d satbench@1.0 -t 1046a7e262a
1047
uvx harbor run -d satbench@1.0 -t 1047a7e262a
1048
uvx harbor run -d satbench@1.0 -t 1048a7e262a
1049
uvx harbor run -d satbench@1.0 -t 1049a7e262a
105
uvx harbor run -d satbench@1.0 -t 105a7e262a
1050
uvx harbor run -d satbench@1.0 -t 1050a7e262a
1051
uvx harbor run -d satbench@1.0 -t 1051a7e262a
1052
uvx harbor run -d satbench@1.0 -t 1052a7e262a
1053
uvx harbor run -d satbench@1.0 -t 1053a7e262a
1054
uvx harbor run -d satbench@1.0 -t 1054a7e262a
1055
uvx harbor run -d satbench@1.0 -t 1055a7e262a
1056
uvx harbor run -d satbench@1.0 -t 1056a7e262a
1057
uvx harbor run -d satbench@1.0 -t 1057a7e262a
1058
uvx harbor run -d satbench@1.0 -t 1058a7e262a
1059
uvx harbor run -d satbench@1.0 -t 1059a7e262a
106
uvx harbor run -d satbench@1.0 -t 106a7e262a
1060
uvx harbor run -d satbench@1.0 -t 1060a7e262a
1061
uvx harbor run -d satbench@1.0 -t 1061a7e262a
1062
uvx harbor run -d satbench@1.0 -t 1062a7e262a
1063
uvx harbor run -d satbench@1.0 -t 1063a7e262a
1064
uvx harbor run -d satbench@1.0 -t 1064a7e262a
1065
uvx harbor run -d satbench@1.0 -t 1065a7e262a
1066
uvx harbor run -d satbench@1.0 -t 1066a7e262a
1067
uvx harbor run -d satbench@1.0 -t 1067a7e262a
1068
uvx harbor run -d satbench@1.0 -t 1068a7e262a
1069
uvx harbor run -d satbench@1.0 -t 1069a7e262a
107
uvx harbor run -d satbench@1.0 -t 107a7e262a
1070
uvx harbor run -d satbench@1.0 -t 1070a7e262a
1071
uvx harbor run -d satbench@1.0 -t 1071a7e262a
1072
uvx harbor run -d satbench@1.0 -t 1072a7e262a
1073
uvx harbor run -d satbench@1.0 -t 1073a7e262a
1074
uvx harbor run -d satbench@1.0 -t 1074a7e262a
1075
uvx harbor run -d satbench@1.0 -t 1075a7e262a
1076
uvx harbor run -d satbench@1.0 -t 1076a7e262a
1077
uvx harbor run -d satbench@1.0 -t 1077a7e262a
1078
uvx harbor run -d satbench@1.0 -t 1078a7e262a
1079
uvx harbor run -d satbench@1.0 -t 1079a7e262a
108
uvx harbor run -d satbench@1.0 -t 108a7e262a
1080
uvx harbor run -d satbench@1.0 -t 1080a7e262a
1081
uvx harbor run -d satbench@1.0 -t 1081a7e262a
1082
uvx harbor run -d satbench@1.0 -t 1082a7e262a
1083
uvx harbor run -d satbench@1.0 -t 1083a7e262a
1084
uvx harbor run -d satbench@1.0 -t 1084a7e262a
1085
uvx harbor run -d satbench@1.0 -t 1085a7e262a
1086
uvx harbor run -d satbench@1.0 -t 1086a7e262a
1087
uvx harbor run -d satbench@1.0 -t 1087a7e262a