satbench

v1.0

SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.

uvx harbor run -d satbench@1.0

Tasks (2100)

1538
uvx harbor run -d satbench@1.0 -t 1538
a7e262a
1539
uvx harbor run -d satbench@1.0 -t 1539
a7e262a
154
uvx harbor run -d satbench@1.0 -t 154
a7e262a
1540
uvx harbor run -d satbench@1.0 -t 1540
a7e262a
1541
uvx harbor run -d satbench@1.0 -t 1541
a7e262a
1542
uvx harbor run -d satbench@1.0 -t 1542
a7e262a
1543
uvx harbor run -d satbench@1.0 -t 1543
a7e262a
1544
uvx harbor run -d satbench@1.0 -t 1544
a7e262a
1545
uvx harbor run -d satbench@1.0 -t 1545
a7e262a
1546
uvx harbor run -d satbench@1.0 -t 1546
a7e262a
1547
uvx harbor run -d satbench@1.0 -t 1547
a7e262a
1548
uvx harbor run -d satbench@1.0 -t 1548
a7e262a
1549
uvx harbor run -d satbench@1.0 -t 1549
a7e262a
155
uvx harbor run -d satbench@1.0 -t 155
a7e262a
1550
uvx harbor run -d satbench@1.0 -t 1550
a7e262a
1551
uvx harbor run -d satbench@1.0 -t 1551
a7e262a
1552
uvx harbor run -d satbench@1.0 -t 1552
a7e262a
1553
uvx harbor run -d satbench@1.0 -t 1553
a7e262a
1554
uvx harbor run -d satbench@1.0 -t 1554
a7e262a
1555
uvx harbor run -d satbench@1.0 -t 1555
a7e262a
1556
uvx harbor run -d satbench@1.0 -t 1556
a7e262a
1557
uvx harbor run -d satbench@1.0 -t 1557
a7e262a
1558
uvx harbor run -d satbench@1.0 -t 1558
a7e262a
1559
uvx harbor run -d satbench@1.0 -t 1559
a7e262a
156
uvx harbor run -d satbench@1.0 -t 156
a7e262a
1560
uvx harbor run -d satbench@1.0 -t 1560
a7e262a
1561
uvx harbor run -d satbench@1.0 -t 1561
a7e262a
1562
uvx harbor run -d satbench@1.0 -t 1562
a7e262a
1563
uvx harbor run -d satbench@1.0 -t 1563
a7e262a
1564
uvx harbor run -d satbench@1.0 -t 1564
a7e262a
1565
uvx harbor run -d satbench@1.0 -t 1565
a7e262a
1566
uvx harbor run -d satbench@1.0 -t 1566
a7e262a
1567
uvx harbor run -d satbench@1.0 -t 1567
a7e262a
1568
uvx harbor run -d satbench@1.0 -t 1568
a7e262a
1569
uvx harbor run -d satbench@1.0 -t 1569
a7e262a
157
uvx harbor run -d satbench@1.0 -t 157
a7e262a
1570
uvx harbor run -d satbench@1.0 -t 1570
a7e262a
1571
uvx harbor run -d satbench@1.0 -t 1571
a7e262a
1572
uvx harbor run -d satbench@1.0 -t 1572
a7e262a
1573
uvx harbor run -d satbench@1.0 -t 1573
a7e262a
1574
uvx harbor run -d satbench@1.0 -t 1574
a7e262a
1575
uvx harbor run -d satbench@1.0 -t 1575
a7e262a
1576
uvx harbor run -d satbench@1.0 -t 1576
a7e262a
1577
uvx harbor run -d satbench@1.0 -t 1577
a7e262a
1578
uvx harbor run -d satbench@1.0 -t 1578
a7e262a
1579
uvx harbor run -d satbench@1.0 -t 1579
a7e262a
158
uvx harbor run -d satbench@1.0 -t 158
a7e262a
1580
uvx harbor run -d satbench@1.0 -t 1580
a7e262a
1581
uvx harbor run -d satbench@1.0 -t 1581
a7e262a
1582
uvx harbor run -d satbench@1.0 -t 1582
a7e262a
1583
uvx harbor run -d satbench@1.0 -t 1583
a7e262a
1584
uvx harbor run -d satbench@1.0 -t 1584
a7e262a
1585
uvx harbor run -d satbench@1.0 -t 1585
a7e262a
1586
uvx harbor run -d satbench@1.0 -t 1586
a7e262a
1587
uvx harbor run -d satbench@1.0 -t 1587
a7e262a
1588
uvx harbor run -d satbench@1.0 -t 1588
a7e262a
1589
uvx harbor run -d satbench@1.0 -t 1589
a7e262a
159
uvx harbor run -d satbench@1.0 -t 159
a7e262a
1590
uvx harbor run -d satbench@1.0 -t 1590
a7e262a
1591
uvx harbor run -d satbench@1.0 -t 1591
a7e262a
1592
uvx harbor run -d satbench@1.0 -t 1592
a7e262a
1593
uvx harbor run -d satbench@1.0 -t 1593
a7e262a
1594
uvx harbor run -d satbench@1.0 -t 1594
a7e262a
1595
uvx harbor run -d satbench@1.0 -t 1595
a7e262a
1596
uvx harbor run -d satbench@1.0 -t 1596
a7e262a
1597
uvx harbor run -d satbench@1.0 -t 1597
a7e262a
1598
uvx harbor run -d satbench@1.0 -t 1598
a7e262a
1599
uvx harbor run -d satbench@1.0 -t 1599
a7e262a
16
uvx harbor run -d satbench@1.0 -t 16
a7e262a
160
uvx harbor run -d satbench@1.0 -t 160
a7e262a
1600
uvx harbor run -d satbench@1.0 -t 1600
a7e262a
1601
uvx harbor run -d satbench@1.0 -t 1601
a7e262a
1602
uvx harbor run -d satbench@1.0 -t 1602
a7e262a
1603
uvx harbor run -d satbench@1.0 -t 1603
a7e262a
1604
uvx harbor run -d satbench@1.0 -t 1604
a7e262a
1605
uvx harbor run -d satbench@1.0 -t 1605
a7e262a
1606
uvx harbor run -d satbench@1.0 -t 1606
a7e262a
1607
uvx harbor run -d satbench@1.0 -t 1607
a7e262a
1608
uvx harbor run -d satbench@1.0 -t 1608
a7e262a
1609
uvx harbor run -d satbench@1.0 -t 1609
a7e262a
161
uvx harbor run -d satbench@1.0 -t 161
a7e262a
1610
uvx harbor run -d satbench@1.0 -t 1610
a7e262a
1611
uvx harbor run -d satbench@1.0 -t 1611
a7e262a
1612
uvx harbor run -d satbench@1.0 -t 1612
a7e262a
1613
uvx harbor run -d satbench@1.0 -t 1613
a7e262a
1614
uvx harbor run -d satbench@1.0 -t 1614
a7e262a
1615
uvx harbor run -d satbench@1.0 -t 1615
a7e262a
1616
uvx harbor run -d satbench@1.0 -t 1616
a7e262a
1617
uvx harbor run -d satbench@1.0 -t 1617
a7e262a
1618
uvx harbor run -d satbench@1.0 -t 1618
a7e262a
1619
uvx harbor run -d satbench@1.0 -t 1619
a7e262a
162
uvx harbor run -d satbench@1.0 -t 162
a7e262a
1620
uvx harbor run -d satbench@1.0 -t 1620
a7e262a
1621
uvx harbor run -d satbench@1.0 -t 1621
a7e262a
1622
uvx harbor run -d satbench@1.0 -t 1622
a7e262a
1623
uvx harbor run -d satbench@1.0 -t 1623
a7e262a
1624
uvx harbor run -d satbench@1.0 -t 1624
a7e262a
1625
uvx harbor run -d satbench@1.0 -t 1625
a7e262a
1626
uvx harbor run -d satbench@1.0 -t 1626
a7e262a
1627
uvx harbor run -d satbench@1.0 -t 1627
a7e262a