AI无处不在:能识别识别失传已久的文字,比如西夏文 | {$randkws}热点解读 曾记得有一次聊天
导读:AI设计医学、教学乃至是考古领域,随着人类的进展,AI所表现出的必定有若干是超越人类的。
曾记得有一次聊天,有个好友刻画他对AI的张若昀交通出行印象,归纳成三个词:西方的、商业的、前方的。
我当即强调你说的很好,唯一的难题是一条都没说对。
按下我们俩怎么展开斗殴暂且不提,这里期盼破除的是大家对AI的某种固有印象。事实上,AI身为一种很早就进展起来的通用技术,绝不是西方的专利,也绝不只仅是够创造商业价值。
乃至在某些机缘巧合下,AI能够变成我们用认识历史、认识自身民族、揭秘Xbox评论认识祖先与过去的利器。
梁启超说“学术乃天下之公器”,不只是说学术天下人共有,另外也是说学术天下共致。身为一种基础工具的AI,往往能够在意想不到地方发生效用。比如说今日为大家说明的借助AI技术,自动确认西夏文——一个纯粹中国的人文社科领域。
(图 美感奇特的西夏文)
尽管这项技术大多数人永远不会涉足,但这个案例的价值在于可以打破我们对AI的某些偏见。AI不只是集中在那几个领域,也不是欧美寡头的玩具,它乃至或许无处不在。
为什么要确认西夏文?其中隐含着哪些艰难?
我们得知,西夏是与北宋、辽、金先后对峙的党项族全国,曾经统治河西区域超过二百年。与大众认知中各异,春季聚焦系统更新,说到了心坎里西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明,但随着1227年蒙古灭西夏,蒙元不为西夏立史,有关这个政权的记录高效消亡,李元昊立国时创立的西夏文也随之湮灭。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝统辖的今宁夏、甘肃、陕西北部、内蒙古南部区域盛行了约两个世纪。但在西夏灭国后,这种参考汉字创立的奇特文字逐步失传,最后成以便一种死文字。
直到1804年,武威大云寺察觉了著名的预测造型点评专题《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文着手成以便学界的重大岗位。
(图 《重修凉州护国寺感通塔碑》局部)
二百年以来,出土的西夏文文献不断增多,其中大若干都被英、俄探险家带到了境外。但各国学者奋斗下,西夏文的基础文字确认已然达成,现阶段的岗位重点是依据文字列表,去识读众多西夏文文献的具体信息,揭开西夏以及当时中原、西域各国的历史迷雾。
但在这个过程里,探究人员认读西夏文必须经由手工翻阅查找,耗费时间异常辛苦不说,由于西夏文是一种相似度极高的文字,人工确认还或许存在很大的失误率。
所以就有学者提出,运用计算机来自动确认西夏文。这种设想很好,但在具体操控中还是有巨大难题。比如西夏文结构繁琐、组成字符各若干要素高度相似,并且平均笔画达到25画,计算机确认难以入手。
另外,西夏时期尽管已有印刷术,但出土文献还是以手抄本和刻版文字为主,同一个字的在各异文献上的位置不固定、整体布局会发生偏移,都给机器确认带来巨大艰难。
于是有意思的事呈现了,宁夏大学有关探究机构为代表的学术力量,挑选了以AI技术解决西夏文的自动确认。
并且这个岗位很早就已然着手,不断有成果涌现。从时间上看,绝不是赶这波AI热潮的产物。
AI达成西夏文自动确认
早在1996年,日本国立亚非语言文化探究所就制作了西夏文字库和排版操控系统。1997 年中国学者李范文和日本学者中岛干起运用该排版操控系统兴办出版了《计算机处理西夏文〈杂字〉探究》。俄罗斯应该也都有西夏文资料化和计算机处理的项目与探究成果。
而使用弹性联网、神经联网、AI算力以及深度进修来确认西夏文,则是中国领先达成的一个创举。
用AI确认西夏文,首要依托的是计算机字符确认( optical character recognition,OCR) 技术,这种技术上世纪60年代就成以便AI探究的首要领域之一。它的核心技术主张是基于AI运算来确认文字符号的数字影像,并将其转换为对应的数字文本,达到可确认、可记者、可转化的目的。
OCR技术当下在很多领域已然相当成熟,比如我们常常用到的印刷文件文字提取。在OCR确认领域,更多的使用是手写体信息的精准确认,而运用OCR确认考古文献中的非广泛使用文字却基础处于空白。
这里可以结合论文简易说明两种AI确认西夏文的案例。
比如在《基于弹性联网的西夏文确认》当中,探究人员运用弹性联网技术,将西夏文中的笔画特征开展网格化提取。再统计分辨率点在每个网格内的概率分布,形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理,结合资料库对文献开展确认。
依据论文,这种方法平均确认率可达87.99 %。
再比如《基于Mean Shift算力的西夏文字笔形确认》,Mean Shift算力,即偏移均值向量,是机器进修领域的一种基础算力。其基础理论是运用信息密度来达成聚类、图像分割、跟踪任务,可应对相似但界限含混的图像处理使用。运用这种算力,探究人员将原始资料生成概率统计直方图,经由相似度来判断归类具体的西夏文笔形。
(图 西夏文智能确认算力流程)
这里仅仅是两个具体使用案例,运用深度进修等前沿AI技术确认西夏文的使用还在不断进展。
文献与考古领域的AI使用
或许确认西夏文距离我们的日常日常还相对较远,但使用至当全部人文社科领域,AI的使用或许就会从另一个角度无限贴近我们的日常。
从近期来说,AI合作学术效率,或许会作用我们的学科参数、学术训练乃至高等教学体系。从长远来看,AI合作的进一步确认历史与文献的能力,是我们窥探自身过去,知晓“中国”为何是“中国”的全新工具。
在我们沉浸于前方带来的快感时,AI却或许在历史领域高效发挥它的价值。经由西夏文确认的例子,不难察觉在文献与考古这些社科领域当中,AI至少可以发挥以下几种功效:
1、考古图像的确认与归档,比如基于算力的文物确认、文物资料化、考古实地资料化。
2、文献文本的确认与转码,比如原始文献的文字确认读取、文献聚类、文献资料化。
3、文献资料库的知识图谱化与机器进修使用。比如学科文献图谱化、时代文献图谱化、科研项目资料图谱化,以及基于知识图谱训练的人文社科领域智能体。这一点尤其重大,想象力也最为充沛。就像金融、翻译等领域很或许被AI替代一样,文献学与历史探究领域大若干依赖考证、校勘、资料爬梳的岗位,也存在被AI取代的或许性。
相似的人文领域与AI跨界还有很多,有些乃至关乎哲学与伦理层面的技术与人文互搏,以后我们会陆续说明。
曾记得有一次聊天,有个好友刻画他对AI的张若昀交通出行印象,归纳成三个词:西方的、商业的、前方的。
我当即强调你说的很好,唯一的难题是一条都没说对。
按下我们俩怎么展开斗殴暂且不提,这里期盼破除的是大家对AI的某种固有印象。事实上,AI身为一种很早就进展起来的通用技术,绝不是西方的专利,也绝不只仅是够创造商业价值。
乃至在某些机缘巧合下,AI能够变成我们用认识历史、认识自身民族、揭秘Xbox评论认识祖先与过去的利器。
梁启超说“学术乃天下之公器”,不只是说学术天下人共有,另外也是说学术天下共致。身为一种基础工具的AI,往往能够在意想不到地方发生效用。比如说今日为大家说明的借助AI技术,自动确认西夏文——一个纯粹中国的人文社科领域。
(图 美感奇特的西夏文)
尽管这项技术大多数人永远不会涉足,但这个案例的价值在于可以打破我们对AI的某些偏见。AI不只是集中在那几个领域,也不是欧美寡头的玩具,它乃至或许无处不在。
为什么要确认西夏文?其中隐含着哪些艰难?
我们得知,西夏是与北宋、辽、金先后对峙的党项族全国,曾经统治河西区域超过二百年。与大众认知中各异,春季聚焦系统更新,说到了心坎里西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明,但随着1227年蒙古灭西夏,蒙元不为西夏立史,有关这个政权的记录高效消亡,李元昊立国时创立的西夏文也随之湮灭。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝统辖的今宁夏、甘肃、陕西北部、内蒙古南部区域盛行了约两个世纪。但在西夏灭国后,这种参考汉字创立的奇特文字逐步失传,最后成以便一种死文字。
直到1804年,武威大云寺察觉了著名的预测造型点评专题《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文着手成以便学界的重大岗位。
(图 《重修凉州护国寺感通塔碑》局部)
二百年以来,出土的西夏文文献不断增多,其中大若干都被英、俄探险家带到了境外。但各国学者奋斗下,西夏文的基础文字确认已然达成,现阶段的岗位重点是依据文字列表,去识读众多西夏文文献的具体信息,揭开西夏以及当时中原、西域各国的历史迷雾。
但在这个过程里,探究人员认读西夏文必须经由手工翻阅查找,耗费时间异常辛苦不说,由于西夏文是一种相似度极高的文字,人工确认还或许存在很大的失误率。
所以就有学者提出,运用计算机来自动确认西夏文。这种设想很好,但在具体操控中还是有巨大难题。比如西夏文结构繁琐、组成字符各若干要素高度相似,并且平均笔画达到25画,计算机确认难以入手。
另外,西夏时期尽管已有印刷术,但出土文献还是以手抄本和刻版文字为主,同一个字的在各异文献上的位置不固定、整体布局会发生偏移,都给机器确认带来巨大艰难。
于是有意思的事呈现了,宁夏大学有关探究机构为代表的学术力量,挑选了以AI技术解决西夏文的自动确认。
并且这个岗位很早就已然着手,不断有成果涌现。从时间上看,绝不是赶这波AI热潮的产物。
AI达成西夏文自动确认
早在1996年,日本国立亚非语言文化探究所就制作了西夏文字库和排版操控系统。1997 年中国学者李范文和日本学者中岛干起运用该排版操控系统兴办出版了《计算机处理西夏文〈杂字〉探究》。俄罗斯应该也都有西夏文资料化和计算机处理的项目与探究成果。
而使用弹性联网、神经联网、AI算力以及深度进修来确认西夏文,则是中国领先达成的一个创举。
用AI确认西夏文,首要依托的是计算机字符确认( optical character recognition,OCR) 技术,这种技术上世纪60年代就成以便AI探究的首要领域之一。它的核心技术主张是基于AI运算来确认文字符号的数字影像,并将其转换为对应的数字文本,达到可确认、可记者、可转化的目的。
OCR技术当下在很多领域已然相当成熟,比如我们常常用到的印刷文件文字提取。在OCR确认领域,更多的使用是手写体信息的精准确认,而运用OCR确认考古文献中的非广泛使用文字却基础处于空白。
这里可以结合论文简易说明两种AI确认西夏文的案例。
比如在《基于弹性联网的西夏文确认》当中,探究人员运用弹性联网技术,将西夏文中的笔画特征开展网格化提取。再统计分辨率点在每个网格内的概率分布,形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理,结合资料库对文献开展确认。
依据论文,这种方法平均确认率可达87.99 %。
再比如《基于Mean Shift算力的西夏文字笔形确认》,Mean Shift算力,即偏移均值向量,是机器进修领域的一种基础算力。其基础理论是运用信息密度来达成聚类、图像分割、跟踪任务,可应对相似但界限含混的图像处理使用。运用这种算力,探究人员将原始资料生成概率统计直方图,经由相似度来判断归类具体的西夏文笔形。
(图 西夏文智能确认算力流程)
这里仅仅是两个具体使用案例,运用深度进修等前沿AI技术确认西夏文的使用还在不断进展。
文献与考古领域的AI使用
或许确认西夏文距离我们的日常日常还相对较远,但使用至当全部人文社科领域,AI的使用或许就会从另一个角度无限贴近我们的日常。
从近期来说,AI合作学术效率,或许会作用我们的学科参数、学术训练乃至高等教学体系。从长远来看,AI合作的进一步确认历史与文献的能力,是我们窥探自身过去,知晓“中国”为何是“中国”的全新工具。
在我们沉浸于前方带来的快感时,AI却或许在历史领域高效发挥它的价值。经由西夏文确认的例子,不难察觉在文献与考古这些社科领域当中,AI至少可以发挥以下几种功效:
1、考古图像的确认与归档,比如基于算力的文物确认、文物资料化、考古实地资料化。
2、文献文本的确认与转码,比如原始文献的文字确认读取、文献聚类、文献资料化。
3、文献资料库的知识图谱化与机器进修使用。比如学科文献图谱化、时代文献图谱化、科研项目资料图谱化,以及基于知识图谱训练的人文社科领域智能体。这一点尤其重大,想象力也最为充沛。就像金融、翻译等领域很或许被AI替代一样,文献学与历史探究领域大若干依赖考证、校勘、资料爬梳的岗位,也存在被AI取代的或许性。
相似的人文领域与AI跨界还有很多,有些乃至关乎哲学与伦理层面的技术与人文互搏,以后我们会陆续说明。