satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1178
uvx harbor run -d satbench@1.0 -t 1178
a7e262a
1179
uvx harbor run -d satbench@1.0 -t 1179
a7e262a
118
uvx harbor run -d satbench@1.0 -t 118
a7e262a
1180
uvx harbor run -d satbench@1.0 -t 1180
a7e262a
1181
uvx harbor run -d satbench@1.0 -t 1181
a7e262a
1182
uvx harbor run -d satbench@1.0 -t 1182
a7e262a
1183
uvx harbor run -d satbench@1.0 -t 1183
a7e262a
1184
uvx harbor run -d satbench@1.0 -t 1184
a7e262a
1185
uvx harbor run -d satbench@1.0 -t 1185
a7e262a
1186
uvx harbor run -d satbench@1.0 -t 1186
a7e262a
1187
uvx harbor run -d satbench@1.0 -t 1187
a7e262a
1188
uvx harbor run -d satbench@1.0 -t 1188
a7e262a
1189
uvx harbor run -d satbench@1.0 -t 1189
a7e262a
119
uvx harbor run -d satbench@1.0 -t 119
a7e262a
1190
uvx harbor run -d satbench@1.0 -t 1190
a7e262a
1191
uvx harbor run -d satbench@1.0 -t 1191
a7e262a
1192
uvx harbor run -d satbench@1.0 -t 1192
a7e262a
1193
uvx harbor run -d satbench@1.0 -t 1193
a7e262a
1194
uvx harbor run -d satbench@1.0 -t 1194
a7e262a
1195
uvx harbor run -d satbench@1.0 -t 1195
a7e262a
1196
uvx harbor run -d satbench@1.0 -t 1196
a7e262a
1197
uvx harbor run -d satbench@1.0 -t 1197
a7e262a
1198
uvx harbor run -d satbench@1.0 -t 1198
a7e262a
1199
uvx harbor run -d satbench@1.0 -t 1199
a7e262a
12
uvx harbor run -d satbench@1.0 -t 12
a7e262a
120
uvx harbor run -d satbench@1.0 -t 120
a7e262a
1200
uvx harbor run -d satbench@1.0 -t 1200
a7e262a
1201
uvx harbor run -d satbench@1.0 -t 1201
a7e262a
1202
uvx harbor run -d satbench@1.0 -t 1202
a7e262a
1203
uvx harbor run -d satbench@1.0 -t 1203
a7e262a
1204
uvx harbor run -d satbench@1.0 -t 1204
a7e262a
1205
uvx harbor run -d satbench@1.0 -t 1205
a7e262a
1206
uvx harbor run -d satbench@1.0 -t 1206
a7e262a
1207
uvx harbor run -d satbench@1.0 -t 1207
a7e262a
1208
uvx harbor run -d satbench@1.0 -t 1208
a7e262a
1209
uvx harbor run -d satbench@1.0 -t 1209
a7e262a
121
uvx harbor run -d satbench@1.0 -t 121
a7e262a
1210
uvx harbor run -d satbench@1.0 -t 1210
a7e262a
1211
uvx harbor run -d satbench@1.0 -t 1211
a7e262a
1212
uvx harbor run -d satbench@1.0 -t 1212
a7e262a
1213
uvx harbor run -d satbench@1.0 -t 1213
a7e262a
1214
uvx harbor run -d satbench@1.0 -t 1214
a7e262a
1215
uvx harbor run -d satbench@1.0 -t 1215
a7e262a
1216
uvx harbor run -d satbench@1.0 -t 1216
a7e262a
1217
uvx harbor run -d satbench@1.0 -t 1217
a7e262a
1218
uvx harbor run -d satbench@1.0 -t 1218
a7e262a
1219
uvx harbor run -d satbench@1.0 -t 1219
a7e262a
122
uvx harbor run -d satbench@1.0 -t 122
a7e262a
1220
uvx harbor run -d satbench@1.0 -t 1220
a7e262a
1221
uvx harbor run -d satbench@1.0 -t 1221
a7e262a
1222
uvx harbor run -d satbench@1.0 -t 1222
a7e262a
1223
uvx harbor run -d satbench@1.0 -t 1223
a7e262a
1224
uvx harbor run -d satbench@1.0 -t 1224
a7e262a
1225
uvx harbor run -d satbench@1.0 -t 1225
a7e262a
1226
uvx harbor run -d satbench@1.0 -t 1226
a7e262a
1227
uvx harbor run -d satbench@1.0 -t 1227
a7e262a
1228
uvx harbor run -d satbench@1.0 -t 1228
a7e262a
1229
uvx harbor run -d satbench@1.0 -t 1229
a7e262a
123
uvx harbor run -d satbench@1.0 -t 123
a7e262a
1230
uvx harbor run -d satbench@1.0 -t 1230
a7e262a
1231
uvx harbor run -d satbench@1.0 -t 1231
a7e262a
1232
uvx harbor run -d satbench@1.0 -t 1232
a7e262a
1233
uvx harbor run -d satbench@1.0 -t 1233
a7e262a
1234
uvx harbor run -d satbench@1.0 -t 1234
a7e262a
1235
uvx harbor run -d satbench@1.0 -t 1235
a7e262a
1236
uvx harbor run -d satbench@1.0 -t 1236
a7e262a
1237
uvx harbor run -d satbench@1.0 -t 1237
a7e262a
1238
uvx harbor run -d satbench@1.0 -t 1238
a7e262a
1239
uvx harbor run -d satbench@1.0 -t 1239
a7e262a
124
uvx harbor run -d satbench@1.0 -t 124
a7e262a
1240
uvx harbor run -d satbench@1.0 -t 1240
a7e262a
1241
uvx harbor run -d satbench@1.0 -t 1241
a7e262a
1242
uvx harbor run -d satbench@1.0 -t 1242
a7e262a
1243
uvx harbor run -d satbench@1.0 -t 1243
a7e262a
1244
uvx harbor run -d satbench@1.0 -t 1244
a7e262a
1245
uvx harbor run -d satbench@1.0 -t 1245
a7e262a
1246
uvx harbor run -d satbench@1.0 -t 1246
a7e262a
1247
uvx harbor run -d satbench@1.0 -t 1247
a7e262a
1248
uvx harbor run -d satbench@1.0 -t 1248
a7e262a
1249
uvx harbor run -d satbench@1.0 -t 1249
a7e262a
125
uvx harbor run -d satbench@1.0 -t 125
a7e262a
1250
uvx harbor run -d satbench@1.0 -t 1250
a7e262a
1251
uvx harbor run -d satbench@1.0 -t 1251
a7e262a
1252
uvx harbor run -d satbench@1.0 -t 1252
a7e262a
1253
uvx harbor run -d satbench@1.0 -t 1253
a7e262a
1254
uvx harbor run -d satbench@1.0 -t 1254
a7e262a
1255
uvx harbor run -d satbench@1.0 -t 1255
a7e262a
1256
uvx harbor run -d satbench@1.0 -t 1256
a7e262a
1257
uvx harbor run -d satbench@1.0 -t 1257
a7e262a
1258
uvx harbor run -d satbench@1.0 -t 1258
a7e262a
1259
uvx harbor run -d satbench@1.0 -t 1259
a7e262a
126
uvx harbor run -d satbench@1.0 -t 126
a7e262a
1260
uvx harbor run -d satbench@1.0 -t 1260
a7e262a
1261
uvx harbor run -d satbench@1.0 -t 1261
a7e262a
1262
uvx harbor run -d satbench@1.0 -t 1262
a7e262a
1263
uvx harbor run -d satbench@1.0 -t 1263
a7e262a
1264
uvx harbor run -d satbench@1.0 -t 1264
a7e262a
1265
uvx harbor run -d satbench@1.0 -t 1265
a7e262a
1266
uvx harbor run -d satbench@1.0 -t 1266
a7e262a
1267
uvx harbor run -d satbench@1.0 -t 1267
a7e262a