satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
729
uvx harbor run -d satbench@1.0 -t 729a7e262a
73
uvx harbor run -d satbench@1.0 -t 73a7e262a
730
uvx harbor run -d satbench@1.0 -t 730a7e262a
731
uvx harbor run -d satbench@1.0 -t 731a7e262a
732
uvx harbor run -d satbench@1.0 -t 732a7e262a
733
uvx harbor run -d satbench@1.0 -t 733a7e262a
734
uvx harbor run -d satbench@1.0 -t 734a7e262a
735
uvx harbor run -d satbench@1.0 -t 735a7e262a
736
uvx harbor run -d satbench@1.0 -t 736a7e262a
737
uvx harbor run -d satbench@1.0 -t 737a7e262a
738
uvx harbor run -d satbench@1.0 -t 738a7e262a
739
uvx harbor run -d satbench@1.0 -t 739a7e262a
74
uvx harbor run -d satbench@1.0 -t 74a7e262a
740
uvx harbor run -d satbench@1.0 -t 740a7e262a
741
uvx harbor run -d satbench@1.0 -t 741a7e262a
742
uvx harbor run -d satbench@1.0 -t 742a7e262a
743
uvx harbor run -d satbench@1.0 -t 743a7e262a
744
uvx harbor run -d satbench@1.0 -t 744a7e262a
745
uvx harbor run -d satbench@1.0 -t 745a7e262a
746
uvx harbor run -d satbench@1.0 -t 746a7e262a
747
uvx harbor run -d satbench@1.0 -t 747a7e262a
748
uvx harbor run -d satbench@1.0 -t 748a7e262a
749
uvx harbor run -d satbench@1.0 -t 749a7e262a
75
uvx harbor run -d satbench@1.0 -t 75a7e262a
750
uvx harbor run -d satbench@1.0 -t 750a7e262a
751
uvx harbor run -d satbench@1.0 -t 751a7e262a
752
uvx harbor run -d satbench@1.0 -t 752a7e262a
753
uvx harbor run -d satbench@1.0 -t 753a7e262a
754
uvx harbor run -d satbench@1.0 -t 754a7e262a
755
uvx harbor run -d satbench@1.0 -t 755a7e262a
756
uvx harbor run -d satbench@1.0 -t 756a7e262a
757
uvx harbor run -d satbench@1.0 -t 757a7e262a
758
uvx harbor run -d satbench@1.0 -t 758a7e262a
759
uvx harbor run -d satbench@1.0 -t 759a7e262a
76
uvx harbor run -d satbench@1.0 -t 76a7e262a
760
uvx harbor run -d satbench@1.0 -t 760a7e262a
761
uvx harbor run -d satbench@1.0 -t 761a7e262a
762
uvx harbor run -d satbench@1.0 -t 762a7e262a
763
uvx harbor run -d satbench@1.0 -t 763a7e262a
764
uvx harbor run -d satbench@1.0 -t 764a7e262a
765
uvx harbor run -d satbench@1.0 -t 765a7e262a
766
uvx harbor run -d satbench@1.0 -t 766a7e262a
767
uvx harbor run -d satbench@1.0 -t 767a7e262a
768
uvx harbor run -d satbench@1.0 -t 768a7e262a
769
uvx harbor run -d satbench@1.0 -t 769a7e262a
77
uvx harbor run -d satbench@1.0 -t 77a7e262a
770
uvx harbor run -d satbench@1.0 -t 770a7e262a
771
uvx harbor run -d satbench@1.0 -t 771a7e262a
772
uvx harbor run -d satbench@1.0 -t 772a7e262a
773
uvx harbor run -d satbench@1.0 -t 773a7e262a
774
uvx harbor run -d satbench@1.0 -t 774a7e262a
775
uvx harbor run -d satbench@1.0 -t 775a7e262a
776
uvx harbor run -d satbench@1.0 -t 776a7e262a
777
uvx harbor run -d satbench@1.0 -t 777a7e262a
778
uvx harbor run -d satbench@1.0 -t 778a7e262a
779
uvx harbor run -d satbench@1.0 -t 779a7e262a
78
uvx harbor run -d satbench@1.0 -t 78a7e262a
780
uvx harbor run -d satbench@1.0 -t 780a7e262a
781
uvx harbor run -d satbench@1.0 -t 781a7e262a
782
uvx harbor run -d satbench@1.0 -t 782a7e262a
783
uvx harbor run -d satbench@1.0 -t 783a7e262a
784
uvx harbor run -d satbench@1.0 -t 784a7e262a
785
uvx harbor run -d satbench@1.0 -t 785a7e262a
786
uvx harbor run -d satbench@1.0 -t 786a7e262a
787
uvx harbor run -d satbench@1.0 -t 787a7e262a
788
uvx harbor run -d satbench@1.0 -t 788a7e262a
789
uvx harbor run -d satbench@1.0 -t 789a7e262a
79
uvx harbor run -d satbench@1.0 -t 79a7e262a
790
uvx harbor run -d satbench@1.0 -t 790a7e262a
791
uvx harbor run -d satbench@1.0 -t 791a7e262a
792
uvx harbor run -d satbench@1.0 -t 792a7e262a
793
uvx harbor run -d satbench@1.0 -t 793a7e262a
794
uvx harbor run -d satbench@1.0 -t 794a7e262a
795
uvx harbor run -d satbench@1.0 -t 795a7e262a
796
uvx harbor run -d satbench@1.0 -t 796a7e262a
797
uvx harbor run -d satbench@1.0 -t 797a7e262a
798
uvx harbor run -d satbench@1.0 -t 798a7e262a
799
uvx harbor run -d satbench@1.0 -t 799a7e262a
8
uvx harbor run -d satbench@1.0 -t 8a7e262a
80
uvx harbor run -d satbench@1.0 -t 80a7e262a
800
uvx harbor run -d satbench@1.0 -t 800a7e262a
801
uvx harbor run -d satbench@1.0 -t 801a7e262a
802
uvx harbor run -d satbench@1.0 -t 802a7e262a
803
uvx harbor run -d satbench@1.0 -t 803a7e262a
804
uvx harbor run -d satbench@1.0 -t 804a7e262a
805
uvx harbor run -d satbench@1.0 -t 805a7e262a
806
uvx harbor run -d satbench@1.0 -t 806a7e262a
807
uvx harbor run -d satbench@1.0 -t 807a7e262a
808
uvx harbor run -d satbench@1.0 -t 808a7e262a
809
uvx harbor run -d satbench@1.0 -t 809a7e262a
81
uvx harbor run -d satbench@1.0 -t 81a7e262a
810
uvx harbor run -d satbench@1.0 -t 810a7e262a
811
uvx harbor run -d satbench@1.0 -t 811a7e262a
812
uvx harbor run -d satbench@1.0 -t 812a7e262a
813
uvx harbor run -d satbench@1.0 -t 813a7e262a
814
uvx harbor run -d satbench@1.0 -t 814a7e262a
815
uvx harbor run -d satbench@1.0 -t 815a7e262a
816
uvx harbor run -d satbench@1.0 -t 816a7e262a
817
uvx harbor run -d satbench@1.0 -t 817a7e262a
818
uvx harbor run -d satbench@1.0 -t 818a7e262a