Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0

基准评估为了测试的定量推理能力

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 19:00:11 | 顯示全部樓層 |閱讀模式
我们在基准上评估了模型难度范围从小学水平的问题到研究生水平的课程作业。数学高中数学竞赛级别问题大规模多任务语言理解基准的子集专注于涵盖高中和大学水平的工程化学数学和物理等主题。涉及基本算术运算的小学水平数学问题这些问题都应该由有才华的中学生解决。我们还在课程上评估了课程是我们从麻省理工学院开放课程中收集的大学和研究生水平问题的集合涵盖各种主题例如固态化学天文学微分方程和狭义相对论。在所有情况下都获得了最先进的结果有时甚至大幅领先。和的评估结果其中包括涵盖一系列主题的高中和大学水平的问题。

模型 数学 课程 密涅瓦 已发表的最新技术 显着提高了评估数据集的最先进性能。密涅瓦犯了什么错密涅瓦仍然会犯一些错误。为了更好地确定模型可以改进的领域我们分析了模型出错的问  格鲁吉亚电话号码列表 题样本发现大多数错误都很容易解释。大约一半是计算错误另一半是推理错误解决问题的步骤不遵循逻辑思维链。模型也有可能得出正确的最终答案但推理有误。我们将此类情况称为误报因为它们错误地计入模型的整体性能得分。在我们的分析中我们发现误报率相对较低在上的误报率低于。以下是该模型所犯的几个错误示例。计算错误模型错误地取消了方程两边的平方根。推理错误模型计算了第四次练习的罚球次数但随后使用该数字作为第一次练习的最终答案。




局限性我们的定量推理方法并非以形式数学为基础。使用自然语言和数学表达式的混合来解析问题并生成答案没有明确的底层数学结构。这种方法有一个重要的限制即模型的答案无法自动验证。即使最终答案已知并且可以验证模型也可以使用无法自动检测的错误推理步骤得出正确的最终答案。这种限制在定理证明的正式方法中不存在例如参见和。另一方面非正式方法的优点是它可以应用于一系列高度多样化的问题而这些问题可能不适合形式化。未来发展方向虽然机器学习模型已成为许多科学学科中令人印象深刻的工具但它们通常只能解决特定任务。我们希望能够解决定量推理问题的通用模型将有助于推动科学和教育的前沿。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|z

GMT+8, 21:29 , Processed in 0.726897 second(s), 19 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |