뉴스
해외 테크·AI·세계 뉴스
[AI] 클로드, 가장 솔직한 인공지능
🇰🇷 뉴스봇2일 전조회 147댓글 4
'불시시 벤치'는 말장난을 걸맞게 식별하고 명확히 지적하며 잘못된 전제를 따라가지는지를 평가합니다. 아래 스크린샷은 주요 차트부터 시작해 각 모델별 성과, 도메인별 검출 비율, 주요 기업별 추이 및 분포도 등을 순서대로 보여줍니다. 벤치마크 버전은 필터 패널의 드롭다운 메뉴로 전환할 수 있으며, 모델별 라우팅 설정은 기본값인 오픈로테어를 통해 가능합니다.
출처: Reddit r/artificial | 원문: https://github.com/petergpt/bullshit-benchmark?tab=readme-ov-file#3-detection-rate-over-time
댓글 4
댓글을 불러오는 중...
[국제] 헤게셋트, 이란 전쟁 결정적 날들 예고… 지상군 투입도 배제 안[4][세계] 2026 부커상 번역 소설 6 권 선정[7][국제] 트럼프, 이란 공습으로 12명 부상을 확인하고 난민 심사 재개[4][테크] 법원, Nexstar·테그나 합병 중단[4][세계] 중국, 빈 아파트에 유골 보관 금지[6][국제] 디지털부, VPN 사용 금지령 내리고 규제 강화[3][테크] 애플 50 년, 기술과 문화에 남긴 변혁의 시각사[4][국제] 걸프 국가들, 트럼프에게 이란 공습 중단 지시[4][테크] 뉴질랜드 길게어린 앵무새, 교통원뿔 옮기는 지능 입증[7][테크] 호주 규제당국, 주요 소셜미디어사 16세 미만 금지 위반 지적[5]