satbench
v1.0SATBench is a benchmark for evaluating the logical reasoning capabilities of LLMs through logical puzzles derived from Boolean satisfiability (SAT) problems.
uvx harbor run -d satbench@1.0Tasks (2100)
2078
uvx harbor run -d satbench@1.0 -t 2078a7e262a
2079
uvx harbor run -d satbench@1.0 -t 2079a7e262a
208
uvx harbor run -d satbench@1.0 -t 208a7e262a
2080
uvx harbor run -d satbench@1.0 -t 2080a7e262a
2081
uvx harbor run -d satbench@1.0 -t 2081a7e262a
2082
uvx harbor run -d satbench@1.0 -t 2082a7e262a
2083
uvx harbor run -d satbench@1.0 -t 2083a7e262a
2084
uvx harbor run -d satbench@1.0 -t 2084a7e262a
2085
uvx harbor run -d satbench@1.0 -t 2085a7e262a
2086
uvx harbor run -d satbench@1.0 -t 2086a7e262a
2087
uvx harbor run -d satbench@1.0 -t 2087a7e262a
2088
uvx harbor run -d satbench@1.0 -t 2088a7e262a
2089
uvx harbor run -d satbench@1.0 -t 2089a7e262a
209
uvx harbor run -d satbench@1.0 -t 209a7e262a
2090
uvx harbor run -d satbench@1.0 -t 2090a7e262a
2091
uvx harbor run -d satbench@1.0 -t 2091a7e262a
2092
uvx harbor run -d satbench@1.0 -t 2092a7e262a
2093
uvx harbor run -d satbench@1.0 -t 2093a7e262a
2094
uvx harbor run -d satbench@1.0 -t 2094a7e262a
2095
uvx harbor run -d satbench@1.0 -t 2095a7e262a
2096
uvx harbor run -d satbench@1.0 -t 2096a7e262a
2097
uvx harbor run -d satbench@1.0 -t 2097a7e262a
2098
uvx harbor run -d satbench@1.0 -t 2098a7e262a
2099
uvx harbor run -d satbench@1.0 -t 2099a7e262a
21
uvx harbor run -d satbench@1.0 -t 21a7e262a
210
uvx harbor run -d satbench@1.0 -t 210a7e262a
211
uvx harbor run -d satbench@1.0 -t 211a7e262a
212
uvx harbor run -d satbench@1.0 -t 212a7e262a
213
uvx harbor run -d satbench@1.0 -t 213a7e262a
214
uvx harbor run -d satbench@1.0 -t 214a7e262a
215
uvx harbor run -d satbench@1.0 -t 215a7e262a
216
uvx harbor run -d satbench@1.0 -t 216a7e262a
217
uvx harbor run -d satbench@1.0 -t 217a7e262a
218
uvx harbor run -d satbench@1.0 -t 218a7e262a
219
uvx harbor run -d satbench@1.0 -t 219a7e262a
22
uvx harbor run -d satbench@1.0 -t 22a7e262a
220
uvx harbor run -d satbench@1.0 -t 220a7e262a
221
uvx harbor run -d satbench@1.0 -t 221a7e262a
222
uvx harbor run -d satbench@1.0 -t 222a7e262a
223
uvx harbor run -d satbench@1.0 -t 223a7e262a
224
uvx harbor run -d satbench@1.0 -t 224a7e262a
225
uvx harbor run -d satbench@1.0 -t 225a7e262a
226
uvx harbor run -d satbench@1.0 -t 226a7e262a
227
uvx harbor run -d satbench@1.0 -t 227a7e262a
228
uvx harbor run -d satbench@1.0 -t 228a7e262a
229
uvx harbor run -d satbench@1.0 -t 229a7e262a
23
uvx harbor run -d satbench@1.0 -t 23a7e262a
230
uvx harbor run -d satbench@1.0 -t 230a7e262a
231
uvx harbor run -d satbench@1.0 -t 231a7e262a
232
uvx harbor run -d satbench@1.0 -t 232a7e262a
233
uvx harbor run -d satbench@1.0 -t 233a7e262a
234
uvx harbor run -d satbench@1.0 -t 234a7e262a
235
uvx harbor run -d satbench@1.0 -t 235a7e262a
236
uvx harbor run -d satbench@1.0 -t 236a7e262a
237
uvx harbor run -d satbench@1.0 -t 237a7e262a
238
uvx harbor run -d satbench@1.0 -t 238a7e262a
239
uvx harbor run -d satbench@1.0 -t 239a7e262a
24
uvx harbor run -d satbench@1.0 -t 24a7e262a
240
uvx harbor run -d satbench@1.0 -t 240a7e262a
241
uvx harbor run -d satbench@1.0 -t 241a7e262a
242
uvx harbor run -d satbench@1.0 -t 242a7e262a
243
uvx harbor run -d satbench@1.0 -t 243a7e262a
244
uvx harbor run -d satbench@1.0 -t 244a7e262a
245
uvx harbor run -d satbench@1.0 -t 245a7e262a
246
uvx harbor run -d satbench@1.0 -t 246a7e262a
247
uvx harbor run -d satbench@1.0 -t 247a7e262a
248
uvx harbor run -d satbench@1.0 -t 248a7e262a
249
uvx harbor run -d satbench@1.0 -t 249a7e262a
25
uvx harbor run -d satbench@1.0 -t 25a7e262a
250
uvx harbor run -d satbench@1.0 -t 250a7e262a
251
uvx harbor run -d satbench@1.0 -t 251a7e262a
252
uvx harbor run -d satbench@1.0 -t 252a7e262a
253
uvx harbor run -d satbench@1.0 -t 253a7e262a
254
uvx harbor run -d satbench@1.0 -t 254a7e262a
255
uvx harbor run -d satbench@1.0 -t 255a7e262a
256
uvx harbor run -d satbench@1.0 -t 256a7e262a
257
uvx harbor run -d satbench@1.0 -t 257a7e262a
258
uvx harbor run -d satbench@1.0 -t 258a7e262a
259
uvx harbor run -d satbench@1.0 -t 259a7e262a
26
uvx harbor run -d satbench@1.0 -t 26a7e262a
260
uvx harbor run -d satbench@1.0 -t 260a7e262a
261
uvx harbor run -d satbench@1.0 -t 261a7e262a
262
uvx harbor run -d satbench@1.0 -t 262a7e262a
263
uvx harbor run -d satbench@1.0 -t 263a7e262a
264
uvx harbor run -d satbench@1.0 -t 264a7e262a
265
uvx harbor run -d satbench@1.0 -t 265a7e262a
266
uvx harbor run -d satbench@1.0 -t 266a7e262a
267
uvx harbor run -d satbench@1.0 -t 267a7e262a
268
uvx harbor run -d satbench@1.0 -t 268a7e262a
269
uvx harbor run -d satbench@1.0 -t 269a7e262a
27
uvx harbor run -d satbench@1.0 -t 27a7e262a
270
uvx harbor run -d satbench@1.0 -t 270a7e262a
271
uvx harbor run -d satbench@1.0 -t 271a7e262a
272
uvx harbor run -d satbench@1.0 -t 272a7e262a
273
uvx harbor run -d satbench@1.0 -t 273a7e262a
274
uvx harbor run -d satbench@1.0 -t 274a7e262a
275
uvx harbor run -d satbench@1.0 -t 275a7e262a
276
uvx harbor run -d satbench@1.0 -t 276a7e262a
277
uvx harbor run -d satbench@1.0 -t 277a7e262a
278
uvx harbor run -d satbench@1.0 -t 278a7e262a