Pensando por um outro lado, é melhor as tasks virem nesse formato com relação à accuracy.
Pois o autor tá colocando 16 imagens por task, por exemplo.
Se ele colocasse as 16 imagens individulamente, se você errasse TODAS, seu GA podia dar uma caída boa já, pois seriam 16 respostas erradas no seu histórico. Agora nesse formato agrupado, ele agrupa 8 imagens em 2 grupos diferentes (16/2 ), se você errar TODAS, você terá só dois erros no seu histórico, o que não afeta muito o GA, dependendo do seu nível.
Mas com relação as correções, eu concordo, fica meio complicado descobrir onde você errou. Dependendo da pergunta, o seu erro fica destacado em vermelho, você só precisa olhar todas as imagens e ver onde é.