华中科技大学发布高质量甲骨文数据集,助力团队摘冠ACL最佳论文

前沿也要数据派 2024-09-19 13:56:43

本文约2500字,建议阅读8分钟当 AI 浪潮重塑传统科研,白翔教授为代表的研究学者再度成为了 AI 赋能甲骨文研究的拓荒者、探路者。

作者:王鹏杰

编辑:十九,李宝珠

华中科技大学白翔教授研究团队的王鹏杰等人,提出了高质量的 HUST-OBC 甲骨文数据集,从书籍、网站和现有数据集这 3 种不同的来源来收集,最终数据集包含 1,588 个已破译字符的 77,064 张图像和未破译的 62,989 张图像,总共 140,053 张图像。

以史观今,一直以来,人们从未停止对历史史实的探寻,而文字无疑是历代文明存活的最佳印记,更是了解其发展历程的途径。甲骨文 (OBS) 是我国已知最早且成系统的文字形式之一,可以追溯到约 3,000 年前,承载着中华民族一脉相承的文化。

近年来,陆续有甲骨文遗迹出土,其中记录的内容丰富,包括天文学、气象学、畜牧业、宗教和仪式等方面。与其他古代文字类似,许多甲骨文字的含义已随时间流逝而失传。在已出土的 16 万片甲骨中,发现了超过 4,600 个不同的甲骨文字,但只有约 1,500 个甲骨文字的含义和对应的现代汉字得到了确认。

甲骨文字符层面的破译任务由于多种因素而变得复杂。过去的保存及发掘方法欠妥,导致许多甲骨受损,这种损坏通常导致铭文部分模糊或难以辨认,增加了研究人员的破译难度。因此,目前甲骨文研究中使用的大多数图像都是经过去噪和处理的扫描图像或人工转录而来的图像。此外,作为早期文字系统,甲骨文字经历了显著的演变,字符的形式存在很大差异,许多字符虽然外形不尽相同,但对应同一个汉字,这种变异性增加了破译过程的复杂性。

不难发现,诸多因素使得全面理解甲骨文字颇具挑战性,但即便是单个文字的破译都会对历史学研究意义重大,道阻且艰,这也激发了古代中国研究领域学者和历史学家的浓厚兴趣。

考古发现的距今 3,000 年的甲骨文

人工智能的出现为研究人员理解这门古老的语言提供了全新思路,AI 辅助破译甲骨文成为可能。但正如 AI 在其他行业中的应用,全面且高质量的数据集必不可少。目前,甲骨文领域已经出现了 OBI-100、OBI-125、Oracle-20k、HWOBC 等优质数据集,但是仍存在一定的局限性,例如数据来源单一、类别与样本有限;仅含已破译的甲骨文,无法进行破译任务;数据集质量差,噪声多或是形式单一。

针对于此,华中科技大学白翔教授研究团队的王鹏杰等人,提出了高质量的 HUST-OBC 数据集,从 3 种不同的来源收集,包括书籍、网站和现有数据集。该数据集包含两种类型的甲骨文样本图像,其一是从原始甲骨文拓片的处理扫描中获取甲骨文图像,其二是基于原始甲骨的手写甲骨文图像,进一步细分为基于拓片描摹的图像和基于字形的手写图像。

HUST-OBC 与其它数据集对比

该研究以「An open dataset for oracle bone script recognition and decipherment」为题,被 Scientific Data 录用。

论文地址:

https://arxiv.org/abs/2401.15365

数据集直接下载:

https://go.hyper.ai/46AiA

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

多来源收集数据,构建半自动化流水线

为了构建多样化的数据集,研究人员从 3 个不同来源收集甲骨文图像,即书籍、网站和数据集。为了组织和合并这些不同来源的数据,如下图所示,通过一个半自动化的流水线进行数据获取、自动标注、数据整合和数据验证 4 个关键步骤。

构建 HUST-OBC 数据集的流程图

数据获取

甲骨文刻写在龟甲和兽骨上,并被埋藏在地下超过 3,000 年,这些珍贵的文物散落在世界各地的博物馆和私人收藏中,被精心保存,因此直接获取原始甲骨文上的文字相当具有挑战性。为了克服这一困难,研究人员利用了专家转录的甲骨文图像,通过扫描权威书籍、爬取学术网站、引入数据集,获得丰富且多样的甲骨文数据。

数据获取并处理

自动标注

收集到的原始数据需要进一步处理,如裁剪、注释和筛选。对于书籍来源的数据,由于书籍中甲骨文对应的汉字相对偏僻少见,现有 OCR 工具难以精准识别。研究人员训练了近 9 万种汉字 OCR 模型自动识别汉字标签,网站和数据库的图像已经经过预处理,只需进行过滤和代码匹配。

自动标注中文字 OCR 方法

数据整合

不同来源的注释标准可能不同,导致相同的甲骨文字符被归类到不同的类别中,比如注释汉字异体字导致的冗余类别。通过训练无监督的视觉对比学习模型 MOCO,将相似的样本合并到同一类别中,减少冗余类别。

数据整合中对比学习

数据验证

自动数据获取和注释过程中可能存在错误,研究人员邀请甲骨文学者进行人工审查和指导,确保数据的准确性,最终形成 HUST-OBC 数据集。

研究人员最终构建的 HUST-OBC 数据集包含 1,588 个已破译字符的 77,064 张图像和未破译的 62,989 张图像,总共 140,053 张图像。以下是已破译和未破译的部分数据展示。

已破译和未破译的部分甲骨文示例图像

为了评估数据集的质量,使用该数据集训练 AI 模型,将已破译的部分按照 8:1:1 分为训练集、验证集和测试集,使用 ResNet 进行图像分类任务,最终分类准确率为 94.6%,宏平均 F1 分数为 0.914。部分结果如下:

甲骨文示例的分类指标

团队深耕甲骨文,通力合作摘冠 ACL 最佳论文

华中科技大学在甲骨文研究方面一直以来都立于时代的最前沿,是国内最早建设自主甲骨文字库的和高校之一。当 AI 浪潮重塑传统科研,白翔教授为代表的研究学者再度成为了 AI 赋能甲骨文研究的拓荒者、探路者。

白翔教授现任国家杰青、IAPR Fellow,现任华中科技大学软件学院院长、机器视觉与智能系统湖北省工程研究中心主任等职务。日前,白翔教授带领团队发布的「Deciphering Oracle Bone Language with Diffusion Models」荣获 ACL 2024 最佳论文奖。

该研究基于 HUST-OBS 数据集和 EVOBC 数据集,利用基于图像的生成模型,训练出了一种针对甲骨文破译优化的条件扩散模型 Oracle Bone Script Decipher (OBSD),该模型利用甲骨文的不可见类别 (unseen categories) 作为条件输入,以生成对应的现代汉字图像,为自然语言处理难以解决的古文字识别任务提供了一种新颖的方法。

甲骨文译码的条件扩散模型

评估实验结果显示,通过 OBSD 方法输入甲骨文能够产生最准确的现代汉字破译,并且能够辨别甲骨文的复杂细节,这些结果不仅突出了 OSBD 的有效性,还突显了它作为甲骨文语言破译专家工具的潜力。

0 阅读:0

前沿也要数据派

简介:感谢大家的关注