satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
369
uvx harbor run -d satbench@1.0 -t 369a7e262a
37
uvx harbor run -d satbench@1.0 -t 37a7e262a
370
uvx harbor run -d satbench@1.0 -t 370a7e262a
371
uvx harbor run -d satbench@1.0 -t 371a7e262a
372
uvx harbor run -d satbench@1.0 -t 372a7e262a
373
uvx harbor run -d satbench@1.0 -t 373a7e262a
374
uvx harbor run -d satbench@1.0 -t 374a7e262a
375
uvx harbor run -d satbench@1.0 -t 375a7e262a
376
uvx harbor run -d satbench@1.0 -t 376a7e262a
377
uvx harbor run -d satbench@1.0 -t 377a7e262a
378
uvx harbor run -d satbench@1.0 -t 378a7e262a
379
uvx harbor run -d satbench@1.0 -t 379a7e262a
38
uvx harbor run -d satbench@1.0 -t 38a7e262a
380
uvx harbor run -d satbench@1.0 -t 380a7e262a
381
uvx harbor run -d satbench@1.0 -t 381a7e262a
382
uvx harbor run -d satbench@1.0 -t 382a7e262a
383
uvx harbor run -d satbench@1.0 -t 383a7e262a
384
uvx harbor run -d satbench@1.0 -t 384a7e262a
385
uvx harbor run -d satbench@1.0 -t 385a7e262a
386
uvx harbor run -d satbench@1.0 -t 386a7e262a
387
uvx harbor run -d satbench@1.0 -t 387a7e262a
388
uvx harbor run -d satbench@1.0 -t 388a7e262a
389
uvx harbor run -d satbench@1.0 -t 389a7e262a
39
uvx harbor run -d satbench@1.0 -t 39a7e262a
390
uvx harbor run -d satbench@1.0 -t 390a7e262a
391
uvx harbor run -d satbench@1.0 -t 391a7e262a
392
uvx harbor run -d satbench@1.0 -t 392a7e262a
393
uvx harbor run -d satbench@1.0 -t 393a7e262a
394
uvx harbor run -d satbench@1.0 -t 394a7e262a
395
uvx harbor run -d satbench@1.0 -t 395a7e262a
396
uvx harbor run -d satbench@1.0 -t 396a7e262a
397
uvx harbor run -d satbench@1.0 -t 397a7e262a
398
uvx harbor run -d satbench@1.0 -t 398a7e262a
399
uvx harbor run -d satbench@1.0 -t 399a7e262a
4
uvx harbor run -d satbench@1.0 -t 4a7e262a
40
uvx harbor run -d satbench@1.0 -t 40a7e262a
400
uvx harbor run -d satbench@1.0 -t 400a7e262a
401
uvx harbor run -d satbench@1.0 -t 401a7e262a
402
uvx harbor run -d satbench@1.0 -t 402a7e262a
403
uvx harbor run -d satbench@1.0 -t 403a7e262a
404
uvx harbor run -d satbench@1.0 -t 404a7e262a
405
uvx harbor run -d satbench@1.0 -t 405a7e262a
406
uvx harbor run -d satbench@1.0 -t 406a7e262a
407
uvx harbor run -d satbench@1.0 -t 407a7e262a
408
uvx harbor run -d satbench@1.0 -t 408a7e262a
409
uvx harbor run -d satbench@1.0 -t 409a7e262a
41
uvx harbor run -d satbench@1.0 -t 41a7e262a
410
uvx harbor run -d satbench@1.0 -t 410a7e262a
411
uvx harbor run -d satbench@1.0 -t 411a7e262a
412
uvx harbor run -d satbench@1.0 -t 412a7e262a
413
uvx harbor run -d satbench@1.0 -t 413a7e262a
414
uvx harbor run -d satbench@1.0 -t 414a7e262a
415
uvx harbor run -d satbench@1.0 -t 415a7e262a
416
uvx harbor run -d satbench@1.0 -t 416a7e262a
417
uvx harbor run -d satbench@1.0 -t 417a7e262a
418
uvx harbor run -d satbench@1.0 -t 418a7e262a
419
uvx harbor run -d satbench@1.0 -t 419a7e262a
42
uvx harbor run -d satbench@1.0 -t 42a7e262a
420
uvx harbor run -d satbench@1.0 -t 420a7e262a
421
uvx harbor run -d satbench@1.0 -t 421a7e262a
422
uvx harbor run -d satbench@1.0 -t 422a7e262a
423
uvx harbor run -d satbench@1.0 -t 423a7e262a
424
uvx harbor run -d satbench@1.0 -t 424a7e262a
425
uvx harbor run -d satbench@1.0 -t 425a7e262a
426
uvx harbor run -d satbench@1.0 -t 426a7e262a
427
uvx harbor run -d satbench@1.0 -t 427a7e262a
428
uvx harbor run -d satbench@1.0 -t 428a7e262a
429
uvx harbor run -d satbench@1.0 -t 429a7e262a
43
uvx harbor run -d satbench@1.0 -t 43a7e262a
430
uvx harbor run -d satbench@1.0 -t 430a7e262a
431
uvx harbor run -d satbench@1.0 -t 431a7e262a
432
uvx harbor run -d satbench@1.0 -t 432a7e262a
433
uvx harbor run -d satbench@1.0 -t 433a7e262a
434
uvx harbor run -d satbench@1.0 -t 434a7e262a
435
uvx harbor run -d satbench@1.0 -t 435a7e262a
436
uvx harbor run -d satbench@1.0 -t 436a7e262a
437
uvx harbor run -d satbench@1.0 -t 437a7e262a
438
uvx harbor run -d satbench@1.0 -t 438a7e262a
439
uvx harbor run -d satbench@1.0 -t 439a7e262a
44
uvx harbor run -d satbench@1.0 -t 44a7e262a
440
uvx harbor run -d satbench@1.0 -t 440a7e262a
441
uvx harbor run -d satbench@1.0 -t 441a7e262a
442
uvx harbor run -d satbench@1.0 -t 442a7e262a
443
uvx harbor run -d satbench@1.0 -t 443a7e262a
444
uvx harbor run -d satbench@1.0 -t 444a7e262a
445
uvx harbor run -d satbench@1.0 -t 445a7e262a
446
uvx harbor run -d satbench@1.0 -t 446a7e262a
447
uvx harbor run -d satbench@1.0 -t 447a7e262a
448
uvx harbor run -d satbench@1.0 -t 448a7e262a
449
uvx harbor run -d satbench@1.0 -t 449a7e262a
45
uvx harbor run -d satbench@1.0 -t 45a7e262a
450
uvx harbor run -d satbench@1.0 -t 450a7e262a
451
uvx harbor run -d satbench@1.0 -t 451a7e262a
452
uvx harbor run -d satbench@1.0 -t 452a7e262a
453
uvx harbor run -d satbench@1.0 -t 453a7e262a
454
uvx harbor run -d satbench@1.0 -t 454a7e262a
455
uvx harbor run -d satbench@1.0 -t 455a7e262a
456
uvx harbor run -d satbench@1.0 -t 456a7e262a
457
uvx harbor run -d satbench@1.0 -t 457a7e262a
458
uvx harbor run -d satbench@1.0 -t 458a7e262a