satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1268
uvx harbor run -d satbench@1.0 -t 1268
a7e262a
1269
uvx harbor run -d satbench@1.0 -t 1269
a7e262a
127
uvx harbor run -d satbench@1.0 -t 127
a7e262a
1270
uvx harbor run -d satbench@1.0 -t 1270
a7e262a
1271
uvx harbor run -d satbench@1.0 -t 1271
a7e262a
1272
uvx harbor run -d satbench@1.0 -t 1272
a7e262a
1273
uvx harbor run -d satbench@1.0 -t 1273
a7e262a
1274
uvx harbor run -d satbench@1.0 -t 1274
a7e262a
1275
uvx harbor run -d satbench@1.0 -t 1275
a7e262a
1276
uvx harbor run -d satbench@1.0 -t 1276
a7e262a
1277
uvx harbor run -d satbench@1.0 -t 1277
a7e262a
1278
uvx harbor run -d satbench@1.0 -t 1278
a7e262a
1279
uvx harbor run -d satbench@1.0 -t 1279
a7e262a
128
uvx harbor run -d satbench@1.0 -t 128
a7e262a
1280
uvx harbor run -d satbench@1.0 -t 1280
a7e262a
1281
uvx harbor run -d satbench@1.0 -t 1281
a7e262a
1282
uvx harbor run -d satbench@1.0 -t 1282
a7e262a
1283
uvx harbor run -d satbench@1.0 -t 1283
a7e262a
1284
uvx harbor run -d satbench@1.0 -t 1284
a7e262a
1285
uvx harbor run -d satbench@1.0 -t 1285
a7e262a
1286
uvx harbor run -d satbench@1.0 -t 1286
a7e262a
1287
uvx harbor run -d satbench@1.0 -t 1287
a7e262a
1288
uvx harbor run -d satbench@1.0 -t 1288
a7e262a
1289
uvx harbor run -d satbench@1.0 -t 1289
a7e262a
129
uvx harbor run -d satbench@1.0 -t 129
a7e262a
1290
uvx harbor run -d satbench@1.0 -t 1290
a7e262a
1291
uvx harbor run -d satbench@1.0 -t 1291
a7e262a
1292
uvx harbor run -d satbench@1.0 -t 1292
a7e262a
1293
uvx harbor run -d satbench@1.0 -t 1293
a7e262a
1294
uvx harbor run -d satbench@1.0 -t 1294
a7e262a
1295
uvx harbor run -d satbench@1.0 -t 1295
a7e262a
1296
uvx harbor run -d satbench@1.0 -t 1296
a7e262a
1297
uvx harbor run -d satbench@1.0 -t 1297
a7e262a
1298
uvx harbor run -d satbench@1.0 -t 1298
a7e262a
1299
uvx harbor run -d satbench@1.0 -t 1299
a7e262a
13
uvx harbor run -d satbench@1.0 -t 13
a7e262a
130
uvx harbor run -d satbench@1.0 -t 130
a7e262a
1300
uvx harbor run -d satbench@1.0 -t 1300
a7e262a
1301
uvx harbor run -d satbench@1.0 -t 1301
a7e262a
1302
uvx harbor run -d satbench@1.0 -t 1302
a7e262a
1303
uvx harbor run -d satbench@1.0 -t 1303
a7e262a
1304
uvx harbor run -d satbench@1.0 -t 1304
a7e262a
1305
uvx harbor run -d satbench@1.0 -t 1305
a7e262a
1306
uvx harbor run -d satbench@1.0 -t 1306
a7e262a
1307
uvx harbor run -d satbench@1.0 -t 1307
a7e262a
1308
uvx harbor run -d satbench@1.0 -t 1308
a7e262a
1309
uvx harbor run -d satbench@1.0 -t 1309
a7e262a
131
uvx harbor run -d satbench@1.0 -t 131
a7e262a
1310
uvx harbor run -d satbench@1.0 -t 1310
a7e262a
1311
uvx harbor run -d satbench@1.0 -t 1311
a7e262a
1312
uvx harbor run -d satbench@1.0 -t 1312
a7e262a
1313
uvx harbor run -d satbench@1.0 -t 1313
a7e262a
1314
uvx harbor run -d satbench@1.0 -t 1314
a7e262a
1315
uvx harbor run -d satbench@1.0 -t 1315
a7e262a
1316
uvx harbor run -d satbench@1.0 -t 1316
a7e262a
1317
uvx harbor run -d satbench@1.0 -t 1317
a7e262a
1318
uvx harbor run -d satbench@1.0 -t 1318
a7e262a
1319
uvx harbor run -d satbench@1.0 -t 1319
a7e262a
132
uvx harbor run -d satbench@1.0 -t 132
a7e262a
1320
uvx harbor run -d satbench@1.0 -t 1320
a7e262a
1321
uvx harbor run -d satbench@1.0 -t 1321
a7e262a
1322
uvx harbor run -d satbench@1.0 -t 1322
a7e262a
1323
uvx harbor run -d satbench@1.0 -t 1323
a7e262a
1324
uvx harbor run -d satbench@1.0 -t 1324
a7e262a
1325
uvx harbor run -d satbench@1.0 -t 1325
a7e262a
1326
uvx harbor run -d satbench@1.0 -t 1326
a7e262a
1327
uvx harbor run -d satbench@1.0 -t 1327
a7e262a
1328
uvx harbor run -d satbench@1.0 -t 1328
a7e262a
1329
uvx harbor run -d satbench@1.0 -t 1329
a7e262a
133
uvx harbor run -d satbench@1.0 -t 133
a7e262a
1330
uvx harbor run -d satbench@1.0 -t 1330
a7e262a
1331
uvx harbor run -d satbench@1.0 -t 1331
a7e262a
1332
uvx harbor run -d satbench@1.0 -t 1332
a7e262a
1333
uvx harbor run -d satbench@1.0 -t 1333
a7e262a
1334
uvx harbor run -d satbench@1.0 -t 1334
a7e262a
1335
uvx harbor run -d satbench@1.0 -t 1335
a7e262a
1336
uvx harbor run -d satbench@1.0 -t 1336
a7e262a
1337
uvx harbor run -d satbench@1.0 -t 1337
a7e262a
1338
uvx harbor run -d satbench@1.0 -t 1338
a7e262a
1339
uvx harbor run -d satbench@1.0 -t 1339
a7e262a
134
uvx harbor run -d satbench@1.0 -t 134
a7e262a
1340
uvx harbor run -d satbench@1.0 -t 1340
a7e262a
1341
uvx harbor run -d satbench@1.0 -t 1341
a7e262a
1342
uvx harbor run -d satbench@1.0 -t 1342
a7e262a
1343
uvx harbor run -d satbench@1.0 -t 1343
a7e262a
1344
uvx harbor run -d satbench@1.0 -t 1344
a7e262a
1345
uvx harbor run -d satbench@1.0 -t 1345
a7e262a
1346
uvx harbor run -d satbench@1.0 -t 1346
a7e262a
1347
uvx harbor run -d satbench@1.0 -t 1347
a7e262a
1348
uvx harbor run -d satbench@1.0 -t 1348
a7e262a
1349
uvx harbor run -d satbench@1.0 -t 1349
a7e262a
135
uvx harbor run -d satbench@1.0 -t 135
a7e262a
1350
uvx harbor run -d satbench@1.0 -t 1350
a7e262a
1351
uvx harbor run -d satbench@1.0 -t 1351
a7e262a
1352
uvx harbor run -d satbench@1.0 -t 1352
a7e262a
1353
uvx harbor run -d satbench@1.0 -t 1353
a7e262a
1354
uvx harbor run -d satbench@1.0 -t 1354
a7e262a
1355
uvx harbor run -d satbench@1.0 -t 1355
a7e262a
1356
uvx harbor run -d satbench@1.0 -t 1356
a7e262a
1357
uvx harbor run -d satbench@1.0 -t 1357
a7e262a