olmo-eval: LLM 개발 루프를 위한 평가 워크벤치 공개
Allen AI가 LLM 개발 과정에서 반복되는 평가 작업을 간소화하기 위해 olmo-eval을 공개했다. 기존 OLMES 표준 위에 에이전트·멀티턴 평가, 모듈식 런타임 교체, 체크포인트 간 문항별 비교 기능을 추가한 도구다.
Hugging Face의 최신 릴리스, 보안 패치, 기능 업데이트 소식을 확인하세요.
Allen AI가 LLM 개발 과정에서 반복되는 평가 작업을 간소화하기 위해 olmo-eval을 공개했다. 기존 OLMES 표준 위에 에이전트·멀티턴 평가, 모듈식 런타임 교체, 체크포인트 간 문항별 비교 기능을 추가한 도구다.
ServiceNow AI 팀이 이중 언어 코드스위칭 음성에 대해 7개 ASR 모델을 벤치마크한 결과를 Hugging Face Blog를 통해 공개했다. ElevenLabs Scribe V2, Gemini 3 Flash, AssemblyAI Universal 3-Pro가 상위권을 차지했다.
Hugging Face의 Build Small 해커톤 참가자가 LLM으로 Three.js 게임을 자동 생성하려다 실패한 과정을 솔직하게 공유한 글이다. 최종 결과물은 간단한 HTML 토이 메이커로 축소되었다.
Build Small Hackathon 참가작 'Thousand Token Wood v2'의 엔지니어링 후기. 네 개 연구소의 소형 모델을 에이전트별로 다르게 배치하고, 내부자 정보 방화벽·감정 메모리 등 구조적 장치로 신뢰성을 확보한 과정을 정리한다.
Qwen2.5-3B 기반 에이전트 다섯 개로 실시간 경제 시뮬레이션을 구축한 Build Small Hackathon 프로젝트의 엔지니어링 후기. 소형 모델의 포맷 생성 능력과 추론 한계를 구조·프롬프트로 메꾼 사례 보고다.
NVIDIA가 Nemotron 3.5 Content Safety를 공개했다. 멀티모달 입력, 다국어 지원, 커스텀 정책 적용, 추론 추적을 단일 모델에 통합한 안전 분류 모델이다.
H Company가 Holo3.1 모델 패밀리를 공개했다. 웹·데스크톱·모바일 환경을 아우르는 컴퓨터 사용 에이전트로, 양자화 체크포인트를 통한 로컬 추론을 처음으로 공식 지원한다.
JetBrains가 텍스트·코드 겸용 12B Mixture-of-Experts 모델 Mellum2를 Apache 2.0 라이선스로 공개했다. 토큰당 활성 파라미터가 2.5B로 제한되어 저지연·고처리량 추론에 초점을 맞춘 모델이다.
Artificial Analysis와 IBM이 Kubernetes 장애 대응 중심의 SRE 에이전트 벤치마크 ITBench-AA를 공개했으며, 현재 최상위 모델 어느 것도 정확도 50%를 넘지 못했다.