satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
459
uvx harbor run -d satbench@1.0 -t 459a7e262a
46
uvx harbor run -d satbench@1.0 -t 46a7e262a
460
uvx harbor run -d satbench@1.0 -t 460a7e262a
461
uvx harbor run -d satbench@1.0 -t 461a7e262a
462
uvx harbor run -d satbench@1.0 -t 462a7e262a
463
uvx harbor run -d satbench@1.0 -t 463a7e262a
464
uvx harbor run -d satbench@1.0 -t 464a7e262a
465
uvx harbor run -d satbench@1.0 -t 465a7e262a
466
uvx harbor run -d satbench@1.0 -t 466a7e262a
467
uvx harbor run -d satbench@1.0 -t 467a7e262a
468
uvx harbor run -d satbench@1.0 -t 468a7e262a
469
uvx harbor run -d satbench@1.0 -t 469a7e262a
47
uvx harbor run -d satbench@1.0 -t 47a7e262a
470
uvx harbor run -d satbench@1.0 -t 470a7e262a
471
uvx harbor run -d satbench@1.0 -t 471a7e262a
472
uvx harbor run -d satbench@1.0 -t 472a7e262a
473
uvx harbor run -d satbench@1.0 -t 473a7e262a
474
uvx harbor run -d satbench@1.0 -t 474a7e262a
475
uvx harbor run -d satbench@1.0 -t 475a7e262a
476
uvx harbor run -d satbench@1.0 -t 476a7e262a
477
uvx harbor run -d satbench@1.0 -t 477a7e262a
478
uvx harbor run -d satbench@1.0 -t 478a7e262a
479
uvx harbor run -d satbench@1.0 -t 479a7e262a
48
uvx harbor run -d satbench@1.0 -t 48a7e262a
480
uvx harbor run -d satbench@1.0 -t 480a7e262a
481
uvx harbor run -d satbench@1.0 -t 481a7e262a
482
uvx harbor run -d satbench@1.0 -t 482a7e262a
483
uvx harbor run -d satbench@1.0 -t 483a7e262a
484
uvx harbor run -d satbench@1.0 -t 484a7e262a
485
uvx harbor run -d satbench@1.0 -t 485a7e262a
486
uvx harbor run -d satbench@1.0 -t 486a7e262a
487
uvx harbor run -d satbench@1.0 -t 487a7e262a
488
uvx harbor run -d satbench@1.0 -t 488a7e262a
489
uvx harbor run -d satbench@1.0 -t 489a7e262a
49
uvx harbor run -d satbench@1.0 -t 49a7e262a
490
uvx harbor run -d satbench@1.0 -t 490a7e262a
491
uvx harbor run -d satbench@1.0 -t 491a7e262a
492
uvx harbor run -d satbench@1.0 -t 492a7e262a
493
uvx harbor run -d satbench@1.0 -t 493a7e262a
494
uvx harbor run -d satbench@1.0 -t 494a7e262a
495
uvx harbor run -d satbench@1.0 -t 495a7e262a
496
uvx harbor run -d satbench@1.0 -t 496a7e262a
497
uvx harbor run -d satbench@1.0 -t 497a7e262a
498
uvx harbor run -d satbench@1.0 -t 498a7e262a
499
uvx harbor run -d satbench@1.0 -t 499a7e262a
5
uvx harbor run -d satbench@1.0 -t 5a7e262a
50
uvx harbor run -d satbench@1.0 -t 50a7e262a
500
uvx harbor run -d satbench@1.0 -t 500a7e262a
501
uvx harbor run -d satbench@1.0 -t 501a7e262a
502
uvx harbor run -d satbench@1.0 -t 502a7e262a
503
uvx harbor run -d satbench@1.0 -t 503a7e262a
504
uvx harbor run -d satbench@1.0 -t 504a7e262a
505
uvx harbor run -d satbench@1.0 -t 505a7e262a
506
uvx harbor run -d satbench@1.0 -t 506a7e262a
507
uvx harbor run -d satbench@1.0 -t 507a7e262a
508
uvx harbor run -d satbench@1.0 -t 508a7e262a
509
uvx harbor run -d satbench@1.0 -t 509a7e262a
51
uvx harbor run -d satbench@1.0 -t 51a7e262a
510
uvx harbor run -d satbench@1.0 -t 510a7e262a
511
uvx harbor run -d satbench@1.0 -t 511a7e262a
512
uvx harbor run -d satbench@1.0 -t 512a7e262a
513
uvx harbor run -d satbench@1.0 -t 513a7e262a
514
uvx harbor run -d satbench@1.0 -t 514a7e262a
515
uvx harbor run -d satbench@1.0 -t 515a7e262a
516
uvx harbor run -d satbench@1.0 -t 516a7e262a
517
uvx harbor run -d satbench@1.0 -t 517a7e262a
518
uvx harbor run -d satbench@1.0 -t 518a7e262a
519
uvx harbor run -d satbench@1.0 -t 519a7e262a
52
uvx harbor run -d satbench@1.0 -t 52a7e262a
520
uvx harbor run -d satbench@1.0 -t 520a7e262a
521
uvx harbor run -d satbench@1.0 -t 521a7e262a
522
uvx harbor run -d satbench@1.0 -t 522a7e262a
523
uvx harbor run -d satbench@1.0 -t 523a7e262a
524
uvx harbor run -d satbench@1.0 -t 524a7e262a
525
uvx harbor run -d satbench@1.0 -t 525a7e262a
526
uvx harbor run -d satbench@1.0 -t 526a7e262a
527
uvx harbor run -d satbench@1.0 -t 527a7e262a
528
uvx harbor run -d satbench@1.0 -t 528a7e262a
529
uvx harbor run -d satbench@1.0 -t 529a7e262a
53
uvx harbor run -d satbench@1.0 -t 53a7e262a
530
uvx harbor run -d satbench@1.0 -t 530a7e262a
531
uvx harbor run -d satbench@1.0 -t 531a7e262a
532
uvx harbor run -d satbench@1.0 -t 532a7e262a
533
uvx harbor run -d satbench@1.0 -t 533a7e262a
534
uvx harbor run -d satbench@1.0 -t 534a7e262a
535
uvx harbor run -d satbench@1.0 -t 535a7e262a
536
uvx harbor run -d satbench@1.0 -t 536a7e262a
537
uvx harbor run -d satbench@1.0 -t 537a7e262a
538
uvx harbor run -d satbench@1.0 -t 538a7e262a
539
uvx harbor run -d satbench@1.0 -t 539a7e262a
54
uvx harbor run -d satbench@1.0 -t 54a7e262a
540
uvx harbor run -d satbench@1.0 -t 540a7e262a
541
uvx harbor run -d satbench@1.0 -t 541a7e262a
542
uvx harbor run -d satbench@1.0 -t 542a7e262a
543
uvx harbor run -d satbench@1.0 -t 543a7e262a
544
uvx harbor run -d satbench@1.0 -t 544a7e262a
545
uvx harbor run -d satbench@1.0 -t 545a7e262a
546
uvx harbor run -d satbench@1.0 -t 546a7e262a
547
uvx harbor run -d satbench@1.0 -t 547a7e262a
548
uvx harbor run -d satbench@1.0 -t 548a7e262a