satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
639
uvx harbor run -d satbench@1.0 -t 639a7e262a
64
uvx harbor run -d satbench@1.0 -t 64a7e262a
640
uvx harbor run -d satbench@1.0 -t 640a7e262a
641
uvx harbor run -d satbench@1.0 -t 641a7e262a
642
uvx harbor run -d satbench@1.0 -t 642a7e262a
643
uvx harbor run -d satbench@1.0 -t 643a7e262a
644
uvx harbor run -d satbench@1.0 -t 644a7e262a
645
uvx harbor run -d satbench@1.0 -t 645a7e262a
646
uvx harbor run -d satbench@1.0 -t 646a7e262a
647
uvx harbor run -d satbench@1.0 -t 647a7e262a
648
uvx harbor run -d satbench@1.0 -t 648a7e262a
649
uvx harbor run -d satbench@1.0 -t 649a7e262a
65
uvx harbor run -d satbench@1.0 -t 65a7e262a
650
uvx harbor run -d satbench@1.0 -t 650a7e262a
651
uvx harbor run -d satbench@1.0 -t 651a7e262a
652
uvx harbor run -d satbench@1.0 -t 652a7e262a
653
uvx harbor run -d satbench@1.0 -t 653a7e262a
654
uvx harbor run -d satbench@1.0 -t 654a7e262a
655
uvx harbor run -d satbench@1.0 -t 655a7e262a
656
uvx harbor run -d satbench@1.0 -t 656a7e262a
657
uvx harbor run -d satbench@1.0 -t 657a7e262a
658
uvx harbor run -d satbench@1.0 -t 658a7e262a
659
uvx harbor run -d satbench@1.0 -t 659a7e262a
66
uvx harbor run -d satbench@1.0 -t 66a7e262a
660
uvx harbor run -d satbench@1.0 -t 660a7e262a
661
uvx harbor run -d satbench@1.0 -t 661a7e262a
662
uvx harbor run -d satbench@1.0 -t 662a7e262a
663
uvx harbor run -d satbench@1.0 -t 663a7e262a
664
uvx harbor run -d satbench@1.0 -t 664a7e262a
665
uvx harbor run -d satbench@1.0 -t 665a7e262a
666
uvx harbor run -d satbench@1.0 -t 666a7e262a
667
uvx harbor run -d satbench@1.0 -t 667a7e262a
668
uvx harbor run -d satbench@1.0 -t 668a7e262a
669
uvx harbor run -d satbench@1.0 -t 669a7e262a
67
uvx harbor run -d satbench@1.0 -t 67a7e262a
670
uvx harbor run -d satbench@1.0 -t 670a7e262a
671
uvx harbor run -d satbench@1.0 -t 671a7e262a
672
uvx harbor run -d satbench@1.0 -t 672a7e262a
673
uvx harbor run -d satbench@1.0 -t 673a7e262a
674
uvx harbor run -d satbench@1.0 -t 674a7e262a
675
uvx harbor run -d satbench@1.0 -t 675a7e262a
676
uvx harbor run -d satbench@1.0 -t 676a7e262a
677
uvx harbor run -d satbench@1.0 -t 677a7e262a
678
uvx harbor run -d satbench@1.0 -t 678a7e262a
679
uvx harbor run -d satbench@1.0 -t 679a7e262a
68
uvx harbor run -d satbench@1.0 -t 68a7e262a
680
uvx harbor run -d satbench@1.0 -t 680a7e262a
681
uvx harbor run -d satbench@1.0 -t 681a7e262a
682
uvx harbor run -d satbench@1.0 -t 682a7e262a
683
uvx harbor run -d satbench@1.0 -t 683a7e262a
684
uvx harbor run -d satbench@1.0 -t 684a7e262a
685
uvx harbor run -d satbench@1.0 -t 685a7e262a
686
uvx harbor run -d satbench@1.0 -t 686a7e262a
687
uvx harbor run -d satbench@1.0 -t 687a7e262a
688
uvx harbor run -d satbench@1.0 -t 688a7e262a
689
uvx harbor run -d satbench@1.0 -t 689a7e262a
69
uvx harbor run -d satbench@1.0 -t 69a7e262a
690
uvx harbor run -d satbench@1.0 -t 690a7e262a
691
uvx harbor run -d satbench@1.0 -t 691a7e262a
692
uvx harbor run -d satbench@1.0 -t 692a7e262a
693
uvx harbor run -d satbench@1.0 -t 693a7e262a
694
uvx harbor run -d satbench@1.0 -t 694a7e262a
695
uvx harbor run -d satbench@1.0 -t 695a7e262a
696
uvx harbor run -d satbench@1.0 -t 696a7e262a
697
uvx harbor run -d satbench@1.0 -t 697a7e262a
698
uvx harbor run -d satbench@1.0 -t 698a7e262a
699
uvx harbor run -d satbench@1.0 -t 699a7e262a
7
uvx harbor run -d satbench@1.0 -t 7a7e262a
70
uvx harbor run -d satbench@1.0 -t 70a7e262a
700
uvx harbor run -d satbench@1.0 -t 700a7e262a
701
uvx harbor run -d satbench@1.0 -t 701a7e262a
702
uvx harbor run -d satbench@1.0 -t 702a7e262a
703
uvx harbor run -d satbench@1.0 -t 703a7e262a
704
uvx harbor run -d satbench@1.0 -t 704a7e262a
705
uvx harbor run -d satbench@1.0 -t 705a7e262a
706
uvx harbor run -d satbench@1.0 -t 706a7e262a
707
uvx harbor run -d satbench@1.0 -t 707a7e262a
708
uvx harbor run -d satbench@1.0 -t 708a7e262a
709
uvx harbor run -d satbench@1.0 -t 709a7e262a
71
uvx harbor run -d satbench@1.0 -t 71a7e262a
710
uvx harbor run -d satbench@1.0 -t 710a7e262a
711
uvx harbor run -d satbench@1.0 -t 711a7e262a
712
uvx harbor run -d satbench@1.0 -t 712a7e262a
713
uvx harbor run -d satbench@1.0 -t 713a7e262a
714
uvx harbor run -d satbench@1.0 -t 714a7e262a
715
uvx harbor run -d satbench@1.0 -t 715a7e262a
716
uvx harbor run -d satbench@1.0 -t 716a7e262a
717
uvx harbor run -d satbench@1.0 -t 717a7e262a
718
uvx harbor run -d satbench@1.0 -t 718a7e262a
719
uvx harbor run -d satbench@1.0 -t 719a7e262a
72
uvx harbor run -d satbench@1.0 -t 72a7e262a
720
uvx harbor run -d satbench@1.0 -t 720a7e262a
721
uvx harbor run -d satbench@1.0 -t 721a7e262a
722
uvx harbor run -d satbench@1.0 -t 722a7e262a
723
uvx harbor run -d satbench@1.0 -t 723a7e262a
724
uvx harbor run -d satbench@1.0 -t 724a7e262a
725
uvx harbor run -d satbench@1.0 -t 725a7e262a
726
uvx harbor run -d satbench@1.0 -t 726a7e262a
727
uvx harbor run -d satbench@1.0 -t 727a7e262a
728
uvx harbor run -d satbench@1.0 -t 728a7e262a