1 artykuł z tym tagiem
Partial Evidence Bench mierzy krytyczną słabość agentów AI — generowanie pozornie kompletnych odpowiedzi mimo braku dostępu do wszystkich danych.