[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] WideSearch: Benchmarking Agentic Broad Info-Seeking
Yan Gao์ด [arXiv]์ ๊ฒ์ํ โWideSearch: Benchmarking Agentic Broad Info-Seekingโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.
Yan Gao์ด [arXiv]์ ๊ฒ์ํ โWideSearch: Benchmarking Agentic Broad Info-Seekingโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.
Dasol Choi์ด [arXiv]์ ๊ฒ์ํ โWhen Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputsโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.
Tong Yu์ด [arXiv]์ ๊ฒ์ํ โVisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understandingโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.
Jianguo Zhang์ด [arXiv]์ ๊ฒ์ํ โUserBench: An Interactive Gym Environment for User-Centric Agentsโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.
Qiufeng Wang์ด [arXiv]์ ๊ฒ์ํ โTemporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Futureโ ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ์ ๋๋ค.