爱迪网-谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

近年来,在线文本辨认模型取得了明显进展,但数学表达(ME)辨认作为更为杂乱的使命仍未得到足够关注。
谷歌研讨团队推出了 MathWriting,一个专心于在线手写数学表达的数据集,包含230k 人工编写和400k 组成样本,逾越了类似 IM2LATEX-100K 的离线 HME 数据集。与其他在线数据集兼容,MathWriting 以 InkML 格局共享,并通过栅格化墨迹有效扩展了离线 HME 数据集。这一举措为 ME 辨认引入了新的标准,供给了标准化的实在表达以简化练习和强化评估,同时在 GitHub 上供给代码示例以便于使用。
image.png
与 CROHME23比较,MathWriting 样本数量几乎是其近3.9倍,标签数量通过归一化后增加了4.5倍。MathWriting 不仅具有更多人工编写的墨迹,还供给了更广泛的符号范围,包含大部分希腊字母和矩阵等,从而能够代表量子力学、微积分和线性代数等各种科学范畴。
image.png
MathWriting 数据集包含253k 人工编写表达和6k 孤立符号用于练习、验证和测验,同时还有396k 组成表达。发布在常识共享许可下,以 LATEX 标准化注释作为实在标准,根据 MathWriting 的测验部分,使用字符错误率(CER)指标构建手写数学表达辨认基准。各种辨认模型,包含 CTC Transformer 和 OCR,展示了数据集的实用性。(爱迪网)数据搜集涉及人类贡献者通过 Android 使用程序仿制渲染表达式,随后通过最少的后处理和标签归一化以进步模型功能。
MathWriting 数据集比较 CROHME23供给了手写数学表达的详细信息,包含广泛的标签和墨迹计算,为了多样性供给了宝贵信息。虽然存在辨认挑战,但 MathWriting 是练习和评估手写辨认模型的全面资源,为了供给对实在辨认场景的见解。
MathWriting 具有广泛的使用,支持跨科学范畴的辨认练习,并能够生成组成表达式。与 CROHME23等数据集的整合有望进步模型功能和多样性。鸿沟框数据有助于生成组成墨迹,可能为更自然的组成改进 LATEX 的严格结构。此外,还供给了用于 UI 功能的字符切割途径。未来的研讨能够专心于优化练习 / 验证 / 测验切割以及开发针对数学表达的言语模型。