satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1358
uvx harbor run -d satbench@1.0 -t 1358
a7e262a
1359
uvx harbor run -d satbench@1.0 -t 1359
a7e262a
136
uvx harbor run -d satbench@1.0 -t 136
a7e262a
1360
uvx harbor run -d satbench@1.0 -t 1360
a7e262a
1361
uvx harbor run -d satbench@1.0 -t 1361
a7e262a
1362
uvx harbor run -d satbench@1.0 -t 1362
a7e262a
1363
uvx harbor run -d satbench@1.0 -t 1363
a7e262a
1364
uvx harbor run -d satbench@1.0 -t 1364
a7e262a
1365
uvx harbor run -d satbench@1.0 -t 1365
a7e262a
1366
uvx harbor run -d satbench@1.0 -t 1366
a7e262a
1367
uvx harbor run -d satbench@1.0 -t 1367
a7e262a
1368
uvx harbor run -d satbench@1.0 -t 1368
a7e262a
1369
uvx harbor run -d satbench@1.0 -t 1369
a7e262a
137
uvx harbor run -d satbench@1.0 -t 137
a7e262a
1370
uvx harbor run -d satbench@1.0 -t 1370
a7e262a
1371
uvx harbor run -d satbench@1.0 -t 1371
a7e262a
1372
uvx harbor run -d satbench@1.0 -t 1372
a7e262a
1373
uvx harbor run -d satbench@1.0 -t 1373
a7e262a
1374
uvx harbor run -d satbench@1.0 -t 1374
a7e262a
1375
uvx harbor run -d satbench@1.0 -t 1375
a7e262a
1376
uvx harbor run -d satbench@1.0 -t 1376
a7e262a
1377
uvx harbor run -d satbench@1.0 -t 1377
a7e262a
1378
uvx harbor run -d satbench@1.0 -t 1378
a7e262a
1379
uvx harbor run -d satbench@1.0 -t 1379
a7e262a
138
uvx harbor run -d satbench@1.0 -t 138
a7e262a
1380
uvx harbor run -d satbench@1.0 -t 1380
a7e262a
1381
uvx harbor run -d satbench@1.0 -t 1381
a7e262a
1382
uvx harbor run -d satbench@1.0 -t 1382
a7e262a
1383
uvx harbor run -d satbench@1.0 -t 1383
a7e262a
1384
uvx harbor run -d satbench@1.0 -t 1384
a7e262a
1385
uvx harbor run -d satbench@1.0 -t 1385
a7e262a
1386
uvx harbor run -d satbench@1.0 -t 1386
a7e262a
1387
uvx harbor run -d satbench@1.0 -t 1387
a7e262a
1388
uvx harbor run -d satbench@1.0 -t 1388
a7e262a
1389
uvx harbor run -d satbench@1.0 -t 1389
a7e262a
139
uvx harbor run -d satbench@1.0 -t 139
a7e262a
1390
uvx harbor run -d satbench@1.0 -t 1390
a7e262a
1391
uvx harbor run -d satbench@1.0 -t 1391
a7e262a
1392
uvx harbor run -d satbench@1.0 -t 1392
a7e262a
1393
uvx harbor run -d satbench@1.0 -t 1393
a7e262a
1394
uvx harbor run -d satbench@1.0 -t 1394
a7e262a
1395
uvx harbor run -d satbench@1.0 -t 1395
a7e262a
1396
uvx harbor run -d satbench@1.0 -t 1396
a7e262a
1397
uvx harbor run -d satbench@1.0 -t 1397
a7e262a
1398
uvx harbor run -d satbench@1.0 -t 1398
a7e262a
1399
uvx harbor run -d satbench@1.0 -t 1399
a7e262a
14
uvx harbor run -d satbench@1.0 -t 14
a7e262a
140
uvx harbor run -d satbench@1.0 -t 140
a7e262a
1400
uvx harbor run -d satbench@1.0 -t 1400
a7e262a
1401
uvx harbor run -d satbench@1.0 -t 1401
a7e262a
1402
uvx harbor run -d satbench@1.0 -t 1402
a7e262a
1403
uvx harbor run -d satbench@1.0 -t 1403
a7e262a
1404
uvx harbor run -d satbench@1.0 -t 1404
a7e262a
1405
uvx harbor run -d satbench@1.0 -t 1405
a7e262a
1406
uvx harbor run -d satbench@1.0 -t 1406
a7e262a
1407
uvx harbor run -d satbench@1.0 -t 1407
a7e262a
1408
uvx harbor run -d satbench@1.0 -t 1408
a7e262a
1409
uvx harbor run -d satbench@1.0 -t 1409
a7e262a
141
uvx harbor run -d satbench@1.0 -t 141
a7e262a
1410
uvx harbor run -d satbench@1.0 -t 1410
a7e262a
1411
uvx harbor run -d satbench@1.0 -t 1411
a7e262a
1412
uvx harbor run -d satbench@1.0 -t 1412
a7e262a
1413
uvx harbor run -d satbench@1.0 -t 1413
a7e262a
1414
uvx harbor run -d satbench@1.0 -t 1414
a7e262a
1415
uvx harbor run -d satbench@1.0 -t 1415
a7e262a
1416
uvx harbor run -d satbench@1.0 -t 1416
a7e262a
1417
uvx harbor run -d satbench@1.0 -t 1417
a7e262a
1418
uvx harbor run -d satbench@1.0 -t 1418
a7e262a
1419
uvx harbor run -d satbench@1.0 -t 1419
a7e262a
142
uvx harbor run -d satbench@1.0 -t 142
a7e262a
1420
uvx harbor run -d satbench@1.0 -t 1420
a7e262a
1421
uvx harbor run -d satbench@1.0 -t 1421
a7e262a
1422
uvx harbor run -d satbench@1.0 -t 1422
a7e262a
1423
uvx harbor run -d satbench@1.0 -t 1423
a7e262a
1424
uvx harbor run -d satbench@1.0 -t 1424
a7e262a
1425
uvx harbor run -d satbench@1.0 -t 1425
a7e262a
1426
uvx harbor run -d satbench@1.0 -t 1426
a7e262a
1427
uvx harbor run -d satbench@1.0 -t 1427
a7e262a
1428
uvx harbor run -d satbench@1.0 -t 1428
a7e262a
1429
uvx harbor run -d satbench@1.0 -t 1429
a7e262a
143
uvx harbor run -d satbench@1.0 -t 143
a7e262a
1430
uvx harbor run -d satbench@1.0 -t 1430
a7e262a
1431
uvx harbor run -d satbench@1.0 -t 1431
a7e262a
1432
uvx harbor run -d satbench@1.0 -t 1432
a7e262a
1433
uvx harbor run -d satbench@1.0 -t 1433
a7e262a
1434
uvx harbor run -d satbench@1.0 -t 1434
a7e262a
1435
uvx harbor run -d satbench@1.0 -t 1435
a7e262a
1436
uvx harbor run -d satbench@1.0 -t 1436
a7e262a
1437
uvx harbor run -d satbench@1.0 -t 1437
a7e262a
1438
uvx harbor run -d satbench@1.0 -t 1438
a7e262a
1439
uvx harbor run -d satbench@1.0 -t 1439
a7e262a
144
uvx harbor run -d satbench@1.0 -t 144
a7e262a
1440
uvx harbor run -d satbench@1.0 -t 1440
a7e262a
1441
uvx harbor run -d satbench@1.0 -t 1441
a7e262a
1442
uvx harbor run -d satbench@1.0 -t 1442
a7e262a
1443
uvx harbor run -d satbench@1.0 -t 1443
a7e262a
1444
uvx harbor run -d satbench@1.0 -t 1444
a7e262a
1445
uvx harbor run -d satbench@1.0 -t 1445
a7e262a
1446
uvx harbor run -d satbench@1.0 -t 1446
a7e262a
1447
uvx harbor run -d satbench@1.0 -t 1447
a7e262a