ConfigDeck

Hugging Face 업데이트

Hugging Face의 최신 릴리스, 보안 패치, 기능 업데이트 소식을 확인하세요.

Hugging Face 최신 소식

Hugging Face

olmo-eval: LLM 개발 루프를 위한 평가 워크벤치 공개

Allen AI가 LLM 개발 과정에서 반복되는 평가 작업을 간소화하기 위해 olmo-eval을 공개했다. 기존 OLMES 표준 위에 에이전트·멀티턴 평가, 모듈식 런타임 교체, 체크포인트 간 문항별 비교 기능을 추가한 도구다.

Hugging Face

음성 에이전트는 이중 언어 고객을 처리할 수 있는가? 코드스위칭 음성에 대한 최신 ASR 벤치마크

ServiceNow AI 팀이 이중 언어 코드스위칭 음성에 대해 7개 ASR 모델을 벤치마크한 결과를 Hugging Face Blog를 통해 공개했다. ElevenLabs Scribe V2, Gemini 3 Flash, AssemblyAI Universal 3-Pro가 상위권을 차지했다.

Hugging Face

Amazing Digital Dentures — 실패한 프로젝트 회고

Hugging Face의 Build Small 해커톤 참가자가 LLM으로 Three.js 게임을 자동 생성하려다 실패한 과정을 솔직하게 공유한 글이다. 최종 결과물은 간단한 HTML 토이 메이커로 축소되었다.

Hugging Face

다섯 연구소, 다섯 모델: 소형 모델로 만든 멀티모델 금융 시뮬레이션 후기

Build Small Hackathon 참가작 'Thousand Token Wood v2'의 엔지니어링 후기. 네 개 연구소의 소형 모델을 에이전트별로 다르게 배치하고, 내부자 정보 방화벽·감정 메모리 등 구조적 장치로 신뢰성을 확보한 과정을 정리한다.

Hugging Face

Thousand Token Wood: 3B 모델 위에 멀티 에이전트 경제 시뮬레이션 올리기

Qwen2.5-3B 기반 에이전트 다섯 개로 실시간 경제 시뮬레이션을 구축한 Build Small Hackathon 프로젝트의 엔지니어링 후기. 소형 모델의 포맷 생성 능력과 추론 한계를 구조·프롬프트로 메꾼 사례 보고다.

Hugging Face

Nemotron 3.5 Content Safety: 엔터프라이즈 AI를 위한 커스터마이즈 가능한 멀티모달 안전 모델

NVIDIA가 Nemotron 3.5 Content Safety를 공개했다. 멀티모달 입력, 다국어 지원, 커스텀 정책 적용, 추론 추적을 단일 모델에 통합한 안전 분류 모델이다.

Hugging Face

Holo3.1: 빠르고 로컬에서 동작하는 컴퓨터 사용 에이전트

H Company가 Holo3.1 모델 패밀리를 공개했다. 웹·데스크톱·모바일 환경을 아우르는 컴퓨터 사용 에이전트로, 양자화 체크포인트를 통한 로컬 추론을 처음으로 공식 지원한다.

Hugging Face

JetBrains가 만든 12B MoE 모델 Mellum2 공개

JetBrains가 텍스트·코드 겸용 12B Mixture-of-Experts 모델 Mellum2를 Apache 2.0 라이선스로 공개했다. 토큰당 활성 파라미터가 2.5B로 제한되어 저지연·고처리량 추론에 초점을 맞춘 모델이다.

Hugging Face

ITBench-AA: 최초의 에이전트 기반 엔터프라이즈 IT 벤치마크에서 최상위 모델들이 50% 미만 기록

Artificial Analysis와 IBM이 Kubernetes 장애 대응 중심의 SRE 에이전트 벤치마크 ITBench-AA를 공개했으며, 현재 최상위 모델 어느 것도 정확도 50%를 넘지 못했다.