QIMMA:新排行榜在评估阿拉伯语LLM时将质量置于数量之前
QIMMA是阿联酋TII发布的新阿拉伯语LLM排行榜,在评估模型之前对七个领域超过5.2万个样本进行严格的两阶段质量验证。
10 条新闻
QIMMA是阿联酋TII发布的新阿拉伯语LLM排行榜,在评估模型之前对七个领域超过5.2万个样本进行严格的两阶段质量验证。
Apple ML发布了在2026年4月23日至27日于里约热内卢举办的ICLR 2026会议上展示的研究概览。公司赞助本次会议,并在204号展台展示通过MLX框架在Apple Silicon上进行本地LLM推理以及在iPad Pro上运行SHARP 3D模型。展示了40多个海报和一个口头报告'To Infinity and Beyond——Tool-Use Unlocks Length Generalization'。
IBM与伊利诺伊大学厄巴纳-香槟分校将Discovery Accelerator Institute再延续五年——该合作将IBM量子计算机与NCSA超级计算机整合。共同重点是算法和芯片设计的AI原生范式、下一代分布式推理和量子与AI领域的教育。迄今已启动20个活跃项目并发表超过230篇科学论文。
AAAI-26进行了首次会议规模的AI辅助审稿实验——所有22,977篇投稿都在人工审稿的基础上获得了一份明确标注的AI生成审稿意见。程序委员会成员对AI审稿在技术准确性和研究建议方面的评分高于人工审稿。
Google与MIT在华盛顿共同举办首届AI for the Economy Forum。公布:全球1亿人完成数字技能培训、1.2亿美元AI教育新基金,以及针对医疗、学徒制和制造业的三个新项目。
VictoriaMetrics 的 Diana Todea 从阿姆斯特丹 KubeCon EU 撰文,讨论团队视角多样性如何影响平台工程——从抽象设计到团队留存。
来自北卡罗来纳科学与数学学校的 Avery Yang 是 2026 年阿姆斯特丹 KubeCon EU 最年轻的演讲者之一。她展示了使用 Kubernetes 集群和 vLLM 进行推理的飓风预测海报。
Apple Machine Learning Research 宣布将参加 ACM CHI 2026 大会,该大会于 4 月 13 日至 17 日在巴塞罗那举行。Apple 将展示在人机交互领域的新研究。
Microsoft Research的第五份年度Future of Work研究显示,AI正从根本上改变职场协作,但收益并不均衡:在高度AI暴露岗位中,年轻人(22-25岁)的就业率下降了16%,而40%的美国员工正收到'workslop'——外观精致但内容不准确的AI生成内容。
Google Research发布了ConvApparel——一个包含4,000多条服装购买场景多轮对话的新数据集,旨在衡量基于LLM的用户模拟器的真实程度。研究表明SFT和ICL方法显著优于简单的提示方法,并表现出'卓越的分布外泛化能力'。