satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
1088
uvx harbor run -d satbench@1.0 -t 1088a7e262a
1089
uvx harbor run -d satbench@1.0 -t 1089a7e262a
109
uvx harbor run -d satbench@1.0 -t 109a7e262a
1090
uvx harbor run -d satbench@1.0 -t 1090a7e262a
1091
uvx harbor run -d satbench@1.0 -t 1091a7e262a
1092
uvx harbor run -d satbench@1.0 -t 1092a7e262a
1093
uvx harbor run -d satbench@1.0 -t 1093a7e262a
1094
uvx harbor run -d satbench@1.0 -t 1094a7e262a
1095
uvx harbor run -d satbench@1.0 -t 1095a7e262a
1096
uvx harbor run -d satbench@1.0 -t 1096a7e262a
1097
uvx harbor run -d satbench@1.0 -t 1097a7e262a
1098
uvx harbor run -d satbench@1.0 -t 1098a7e262a
1099
uvx harbor run -d satbench@1.0 -t 1099a7e262a
11
uvx harbor run -d satbench@1.0 -t 11a7e262a
110
uvx harbor run -d satbench@1.0 -t 110a7e262a
1100
uvx harbor run -d satbench@1.0 -t 1100a7e262a
1101
uvx harbor run -d satbench@1.0 -t 1101a7e262a
1102
uvx harbor run -d satbench@1.0 -t 1102a7e262a
1103
uvx harbor run -d satbench@1.0 -t 1103a7e262a
1104
uvx harbor run -d satbench@1.0 -t 1104a7e262a
1105
uvx harbor run -d satbench@1.0 -t 1105a7e262a
1106
uvx harbor run -d satbench@1.0 -t 1106a7e262a
1107
uvx harbor run -d satbench@1.0 -t 1107a7e262a
1108
uvx harbor run -d satbench@1.0 -t 1108a7e262a
1109
uvx harbor run -d satbench@1.0 -t 1109a7e262a
111
uvx harbor run -d satbench@1.0 -t 111a7e262a
1110
uvx harbor run -d satbench@1.0 -t 1110a7e262a
1111
uvx harbor run -d satbench@1.0 -t 1111a7e262a
1112
uvx harbor run -d satbench@1.0 -t 1112a7e262a
1113
uvx harbor run -d satbench@1.0 -t 1113a7e262a
1114
uvx harbor run -d satbench@1.0 -t 1114a7e262a
1115
uvx harbor run -d satbench@1.0 -t 1115a7e262a
1116
uvx harbor run -d satbench@1.0 -t 1116a7e262a
1117
uvx harbor run -d satbench@1.0 -t 1117a7e262a
1118
uvx harbor run -d satbench@1.0 -t 1118a7e262a
1119
uvx harbor run -d satbench@1.0 -t 1119a7e262a
112
uvx harbor run -d satbench@1.0 -t 112a7e262a
1120
uvx harbor run -d satbench@1.0 -t 1120a7e262a
1121
uvx harbor run -d satbench@1.0 -t 1121a7e262a
1122
uvx harbor run -d satbench@1.0 -t 1122a7e262a
1123
uvx harbor run -d satbench@1.0 -t 1123a7e262a
1124
uvx harbor run -d satbench@1.0 -t 1124a7e262a
1125
uvx harbor run -d satbench@1.0 -t 1125a7e262a
1126
uvx harbor run -d satbench@1.0 -t 1126a7e262a
1127
uvx harbor run -d satbench@1.0 -t 1127a7e262a
1128
uvx harbor run -d satbench@1.0 -t 1128a7e262a
1129
uvx harbor run -d satbench@1.0 -t 1129a7e262a
113
uvx harbor run -d satbench@1.0 -t 113a7e262a
1130
uvx harbor run -d satbench@1.0 -t 1130a7e262a
1131
uvx harbor run -d satbench@1.0 -t 1131a7e262a
1132
uvx harbor run -d satbench@1.0 -t 1132a7e262a
1133
uvx harbor run -d satbench@1.0 -t 1133a7e262a
1134
uvx harbor run -d satbench@1.0 -t 1134a7e262a
1135
uvx harbor run -d satbench@1.0 -t 1135a7e262a
1136
uvx harbor run -d satbench@1.0 -t 1136a7e262a
1137
uvx harbor run -d satbench@1.0 -t 1137a7e262a
1138
uvx harbor run -d satbench@1.0 -t 1138a7e262a
1139
uvx harbor run -d satbench@1.0 -t 1139a7e262a
114
uvx harbor run -d satbench@1.0 -t 114a7e262a
1140
uvx harbor run -d satbench@1.0 -t 1140a7e262a
1141
uvx harbor run -d satbench@1.0 -t 1141a7e262a
1142
uvx harbor run -d satbench@1.0 -t 1142a7e262a
1143
uvx harbor run -d satbench@1.0 -t 1143a7e262a
1144
uvx harbor run -d satbench@1.0 -t 1144a7e262a
1145
uvx harbor run -d satbench@1.0 -t 1145a7e262a
1146
uvx harbor run -d satbench@1.0 -t 1146a7e262a
1147
uvx harbor run -d satbench@1.0 -t 1147a7e262a
1148
uvx harbor run -d satbench@1.0 -t 1148a7e262a
1149
uvx harbor run -d satbench@1.0 -t 1149a7e262a
115
uvx harbor run -d satbench@1.0 -t 115a7e262a
1150
uvx harbor run -d satbench@1.0 -t 1150a7e262a
1151
uvx harbor run -d satbench@1.0 -t 1151a7e262a
1152
uvx harbor run -d satbench@1.0 -t 1152a7e262a
1153
uvx harbor run -d satbench@1.0 -t 1153a7e262a
1154
uvx harbor run -d satbench@1.0 -t 1154a7e262a
1155
uvx harbor run -d satbench@1.0 -t 1155a7e262a
1156
uvx harbor run -d satbench@1.0 -t 1156a7e262a
1157
uvx harbor run -d satbench@1.0 -t 1157a7e262a
1158
uvx harbor run -d satbench@1.0 -t 1158a7e262a
1159
uvx harbor run -d satbench@1.0 -t 1159a7e262a
116
uvx harbor run -d satbench@1.0 -t 116a7e262a
1160
uvx harbor run -d satbench@1.0 -t 1160a7e262a
1161
uvx harbor run -d satbench@1.0 -t 1161a7e262a
1162
uvx harbor run -d satbench@1.0 -t 1162a7e262a
1163
uvx harbor run -d satbench@1.0 -t 1163a7e262a
1164
uvx harbor run -d satbench@1.0 -t 1164a7e262a
1165
uvx harbor run -d satbench@1.0 -t 1165a7e262a
1166
uvx harbor run -d satbench@1.0 -t 1166a7e262a
1167
uvx harbor run -d satbench@1.0 -t 1167a7e262a
1168
uvx harbor run -d satbench@1.0 -t 1168a7e262a
1169
uvx harbor run -d satbench@1.0 -t 1169a7e262a
117
uvx harbor run -d satbench@1.0 -t 117a7e262a
1170
uvx harbor run -d satbench@1.0 -t 1170a7e262a
1171
uvx harbor run -d satbench@1.0 -t 1171a7e262a
1172
uvx harbor run -d satbench@1.0 -t 1172a7e262a
1173
uvx harbor run -d satbench@1.0 -t 1173a7e262a
1174
uvx harbor run -d satbench@1.0 -t 1174a7e262a
1175
uvx harbor run -d satbench@1.0 -t 1175a7e262a
1176
uvx harbor run -d satbench@1.0 -t 1176a7e262a
1177
uvx harbor run -d satbench@1.0 -t 1177a7e262a