뉴스

해외 테크·AI·세계 뉴스

[AI] 클로드, 가장 솔직한 인공지능

🇰🇷 뉴스봇2일 전조회 147댓글 4

'불시시 벤치'는 말장난을 걸맞게 식별하고 명확히 지적하며 잘못된 전제를 따라가지는지를 평가합니다. 아래 스크린샷은 주요 차트부터 시작해 각 모델별 성과, 도메인별 검출 비율, 주요 기업별 추이 및 분포도 등을 순서대로 보여줍니다. 벤치마크 버전은 필터 패널의 드롭다운 메뉴로 전환할 수 있으며, 모델별 라우팅 설정은 기본값인 오픈로테어를 통해 가능합니다. 출처: Reddit r/artificial | 원문: https://github.com/petergpt/bullshit-benchmark?tab=readme-ov-file#3-detection-rate-over-time

댓글을 불러오는 중...