合合信息用AI 抢救古彝文发布业内首个编码数据库

　　据第一财经消息，近日，合合信息联合上海大学、华南理工大学，发布了业内首个古彝文基础编码数据库。该数据库通过人工智能技术，对云贵地区流传的古彝文字符进行数字化编码，编制成类似“大字典”的数据库，以帮助相关人士更便捷地查询古彝文的读音和释义。

　　据介绍，古彝文指民间流传使用的原生态彝文，有87046个字符，远多于汉字。其中，《西南彝志》是目前发现的篇幅最长、内容最丰富的古彝文典籍。但由于古彝文异体字繁多，一个字可有几十种不同写法，给古籍数字化带来巨大挑战。

　　为突破难点，项目组采用智能图像处理、文字识别等人工智能技术，对7万6千余个样本进行训练，建立古彝文统一的数字编码。数据库发布后，相关用户只需输入一串编码，就可查询到字的读音、释义等信息，大大降低了阅读古籍的门槛。

　　合合信息表示，数据库的发布是基础性工作，有助更多人认识、研究古彝文，也为语言文明的保护提供了新路径。当前，数字化已成为文化传承的重要途径。数据库项目表明，人工智能可以发挥重要作用，助力传统文化走向数字化。

合合信息用AI 抢救古彝文 发布业内首个编码数据库