satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
279
uvx harbor run -d satbench@1.0 -t 279a7e262a
28
uvx harbor run -d satbench@1.0 -t 28a7e262a
280
uvx harbor run -d satbench@1.0 -t 280a7e262a
281
uvx harbor run -d satbench@1.0 -t 281a7e262a
282
uvx harbor run -d satbench@1.0 -t 282a7e262a
283
uvx harbor run -d satbench@1.0 -t 283a7e262a
284
uvx harbor run -d satbench@1.0 -t 284a7e262a
285
uvx harbor run -d satbench@1.0 -t 285a7e262a
286
uvx harbor run -d satbench@1.0 -t 286a7e262a
287
uvx harbor run -d satbench@1.0 -t 287a7e262a
288
uvx harbor run -d satbench@1.0 -t 288a7e262a
289
uvx harbor run -d satbench@1.0 -t 289a7e262a
29
uvx harbor run -d satbench@1.0 -t 29a7e262a
290
uvx harbor run -d satbench@1.0 -t 290a7e262a
291
uvx harbor run -d satbench@1.0 -t 291a7e262a
292
uvx harbor run -d satbench@1.0 -t 292a7e262a
293
uvx harbor run -d satbench@1.0 -t 293a7e262a
294
uvx harbor run -d satbench@1.0 -t 294a7e262a
295
uvx harbor run -d satbench@1.0 -t 295a7e262a
296
uvx harbor run -d satbench@1.0 -t 296a7e262a
297
uvx harbor run -d satbench@1.0 -t 297a7e262a
298
uvx harbor run -d satbench@1.0 -t 298a7e262a
299
uvx harbor run -d satbench@1.0 -t 299a7e262a
3
uvx harbor run -d satbench@1.0 -t 3a7e262a
30
uvx harbor run -d satbench@1.0 -t 30a7e262a
300
uvx harbor run -d satbench@1.0 -t 300a7e262a
301
uvx harbor run -d satbench@1.0 -t 301a7e262a
302
uvx harbor run -d satbench@1.0 -t 302a7e262a
303
uvx harbor run -d satbench@1.0 -t 303a7e262a
304
uvx harbor run -d satbench@1.0 -t 304a7e262a
305
uvx harbor run -d satbench@1.0 -t 305a7e262a
306
uvx harbor run -d satbench@1.0 -t 306a7e262a
307
uvx harbor run -d satbench@1.0 -t 307a7e262a
308
uvx harbor run -d satbench@1.0 -t 308a7e262a
309
uvx harbor run -d satbench@1.0 -t 309a7e262a
31
uvx harbor run -d satbench@1.0 -t 31a7e262a
310
uvx harbor run -d satbench@1.0 -t 310a7e262a
311
uvx harbor run -d satbench@1.0 -t 311a7e262a
312
uvx harbor run -d satbench@1.0 -t 312a7e262a
313
uvx harbor run -d satbench@1.0 -t 313a7e262a
314
uvx harbor run -d satbench@1.0 -t 314a7e262a
315
uvx harbor run -d satbench@1.0 -t 315a7e262a
316
uvx harbor run -d satbench@1.0 -t 316a7e262a
317
uvx harbor run -d satbench@1.0 -t 317a7e262a
318
uvx harbor run -d satbench@1.0 -t 318a7e262a
319
uvx harbor run -d satbench@1.0 -t 319a7e262a
32
uvx harbor run -d satbench@1.0 -t 32a7e262a
320
uvx harbor run -d satbench@1.0 -t 320a7e262a
321
uvx harbor run -d satbench@1.0 -t 321a7e262a
322
uvx harbor run -d satbench@1.0 -t 322a7e262a
323
uvx harbor run -d satbench@1.0 -t 323a7e262a
324
uvx harbor run -d satbench@1.0 -t 324a7e262a
325
uvx harbor run -d satbench@1.0 -t 325a7e262a
326
uvx harbor run -d satbench@1.0 -t 326a7e262a
327
uvx harbor run -d satbench@1.0 -t 327a7e262a
328
uvx harbor run -d satbench@1.0 -t 328a7e262a
329
uvx harbor run -d satbench@1.0 -t 329a7e262a
33
uvx harbor run -d satbench@1.0 -t 33a7e262a
330
uvx harbor run -d satbench@1.0 -t 330a7e262a
331
uvx harbor run -d satbench@1.0 -t 331a7e262a
332
uvx harbor run -d satbench@1.0 -t 332a7e262a
333
uvx harbor run -d satbench@1.0 -t 333a7e262a
334
uvx harbor run -d satbench@1.0 -t 334a7e262a
335
uvx harbor run -d satbench@1.0 -t 335a7e262a
336
uvx harbor run -d satbench@1.0 -t 336a7e262a
337
uvx harbor run -d satbench@1.0 -t 337a7e262a
338
uvx harbor run -d satbench@1.0 -t 338a7e262a
339
uvx harbor run -d satbench@1.0 -t 339a7e262a
34
uvx harbor run -d satbench@1.0 -t 34a7e262a
340
uvx harbor run -d satbench@1.0 -t 340a7e262a
341
uvx harbor run -d satbench@1.0 -t 341a7e262a
342
uvx harbor run -d satbench@1.0 -t 342a7e262a
343
uvx harbor run -d satbench@1.0 -t 343a7e262a
344
uvx harbor run -d satbench@1.0 -t 344a7e262a
345
uvx harbor run -d satbench@1.0 -t 345a7e262a
346
uvx harbor run -d satbench@1.0 -t 346a7e262a
347
uvx harbor run -d satbench@1.0 -t 347a7e262a
348
uvx harbor run -d satbench@1.0 -t 348a7e262a
349
uvx harbor run -d satbench@1.0 -t 349a7e262a
35
uvx harbor run -d satbench@1.0 -t 35a7e262a
350
uvx harbor run -d satbench@1.0 -t 350a7e262a
351
uvx harbor run -d satbench@1.0 -t 351a7e262a
352
uvx harbor run -d satbench@1.0 -t 352a7e262a
353
uvx harbor run -d satbench@1.0 -t 353a7e262a
354
uvx harbor run -d satbench@1.0 -t 354a7e262a
355
uvx harbor run -d satbench@1.0 -t 355a7e262a
356
uvx harbor run -d satbench@1.0 -t 356a7e262a
357
uvx harbor run -d satbench@1.0 -t 357a7e262a
358
uvx harbor run -d satbench@1.0 -t 358a7e262a
359
uvx harbor run -d satbench@1.0 -t 359a7e262a
36
uvx harbor run -d satbench@1.0 -t 36a7e262a
360
uvx harbor run -d satbench@1.0 -t 360a7e262a
361
uvx harbor run -d satbench@1.0 -t 361a7e262a
362
uvx harbor run -d satbench@1.0 -t 362a7e262a
363
uvx harbor run -d satbench@1.0 -t 363a7e262a
364
uvx harbor run -d satbench@1.0 -t 364a7e262a
365
uvx harbor run -d satbench@1.0 -t 365a7e262a
366
uvx harbor run -d satbench@1.0 -t 366a7e262a
367
uvx harbor run -d satbench@1.0 -t 367a7e262a
368
uvx harbor run -d satbench@1.0 -t 368a7e262a