据第一财经消息,近日,合合信息联合上海大学、华南理工大学,发布了业内首个古彝文基础编码数据库。该数据库通过人工智能技术,对云贵地区流传的古彝文字符进行数字化编码,编制成类似“大字典”的数据库,以帮助相关人士更便捷地查询古彝文的读音和释义。
据介绍,古彝文指民间流传使用的原生态彝文,有87046个字符,远多于汉字。其中,《西南彝志》是目前发现的篇幅最长、内容最丰富的古彝文典籍。但由于古彝文异体字繁多,一个字可有几十种不同写法,给古籍数字化带来巨大挑战。
为突破难点,项目组采用智能图像处理、文字识别等人工智能技术,对7万6千余个样本进行训练,建立古彝文统一的数字编码。数据库发布后,相关用户只需输入一串编码,就可查询到字的读音、释义等信息,大大降低了阅读古籍的门槛。
合合信息表示,数据库的发布是基础性工作,有助更多人认识、研究古彝文,也为语言文明的保护提供了新路径。当前,数字化已成为文化传承的重要途径。数据库项目表明,人工智能可以发挥重要作用,助力传统文化走向数字化。