米兰·(milan)中国官方网站-AI 与人文共舞!DeepMind 用神经网络修复古希腊铭文,登顶Nature最新封面

作者 | 西西
编纂 | 陈彩娴今天,人工智能领军团 DeepMind 又爆出了一项主要结果:用深度神经收集修复旧希腊受损的石碑铭文,号称「Predicting the Past」(猜测已往),于以Nature为首的科学前言上掀起了一番强烈热闹存眷。
他们以古希腊的岛屿名为该模子定名——「Ithaca」(伊萨卡岛),以表对于古希腊文明的神往。于荷马史诗《奥德赛》中,伊萨卡岛是英雄奥德修斯(Odysseus)的故里。传说风闻,公元前1183年,国王奥德修斯于特洛伊战争中取告捷利后,历经十七年的艰险斗争,战胜无数坚苦,终极回到伊萨卡岛,与妻儿幸福团圆。
「伊萨卡」也从此成为古希腊文明中「家」的意味。这可能也是 DeepMind 迄今为止被付与了最浪漫名义的 AI 模子。
于官方推特中,他们也称,但愿可以或许「帮忙汗青学家,更好地舆解古代汗青」,立刻就收成了过千的点赞:

作为「AI for Science」的闻名代表,显然,DeepMind 祭出的深度神经收集 Ithaca 打破了外界对于它的「纯理工科」曲解。于官方博客中,DeepMind 也注释,此次的结果切合他们「实现智能、促成科学与人文成长」的任务。
Ithaca 是 DeepMind 于「AI for Humanity」(用人工智能研究人文社科)的第一个里程碑。那末,这是否象征着:DeepMind 的野心不仅是「AI for Science」,还有有「AI for Humanity」?
科学与人文从来即是人类文明的两年夜黄金分支。汗青的进步,从来离不开这两个车轮。日后回看,Ithaca 的呈现,也许恰是 AI 进甲士文社科的出发点。
1揭开 Ithaca 的神秘面纱3月9日,Nature最新封面发布,Ithaca登顶。古老的土黄铭文与酷炫的深蓝编码交叉,完善写就了 DeepMind与威尼斯 Ca Foscari 年夜学人文系、牛津年夜学经典学院及雅典经济年夜学信息系学者的研究结果:
用神经收集修复、破解几千年前的古希腊铭文,不仅有汗青的滔滔黄尘,还有有最新的时代印记——人工智能。
相干论文也以“Restoring and attributing ancient texts using deep neural networks”为题发表于了 Nature 上(以下图):

一个字:秀!?
文字是文明的载体。从两千多年前最先,古希腊人便于石头、陶器及金属上书写文字,以记载租约、法令、日历、神谕等社会糊口的内容。但因为年月长远,很多铭文颠末风雨摧残,已经被毁坏,并从本来的位置移走。
于文物修复一块,现代的测年技能(如放射性碳测年)其实不能用在研究刻于石头、陶瓷及金属等质料上的铭文,使患上这些铭文难以解读或者解读十分耗时。是以,DeepMind 的团队最先思索:是否可以用人工智能帮忙汗青学家注释铭文?
在是,他们与汗青学家们互助,推出了 Ithaca——据称,这是第一个可以恢复受损铭文的缺掉文本,辨认铭文于载体上的初始位置、以确定书写年限的深度神经收集。
Ithaca 的架构以下:文本的毁坏部门用破折号“-”暗示;此外,DeepMind 研究团队还有报酬地破解了字符“δημ”。提供输入后,Ithaca 会主动恢复文本,并辨认文本的编写时间及所在。

据先容,Ithaca 于帕卡德人文学院(Packard Humanities Institute)最年夜的希腊铭文数字数据集长进行练习。
凡是来讲,天然语言处置惩罚模子是利用单词举行练习,由于它们于句子中呈现的挨次以和单词之间的瓜葛提供了分外的上下文配景及寄义。但因为很多铭文都处在毁坏状况,而且常常有年夜块的文字丢掉。是以,为了确保模子合用在文字丧失状况,他们利用了单词及单个字符作为输入来练习。模子焦点的稀少自留意力机制会并行评估这两个输入,以更好地评估铭文。

图注:Ithaca 的输出。(a) 雅典铭文 (IG II² 116) 中 6 个缺掉字符(用「-」暗示)的恢复猜测。绿色的顶部修复是准确的(συμμαχία,「同盟」的意思)。留意红色部门的假定(ἐκκλησία,「会议」及 προξενία,「国度与外国人之间的公约」)常呈现于雅典的政治法律中,这也展现了 Ithaca 对于上下文的接管度。(b) Amorgos 铭文的地舆归属 (IG XII 7, 2)。Ithaca 的顶部猜测是准确的,最靠近的猜测是相邻区域。(c) Delos 铭文的日期漫衍 (IG XI 4, 579)。灰色部门是真实日期公元前300-250年,而 Ithaca 的猜测漫衍为黄色,平均值为公元前 273 年(绿色),正确率极高。
为了最年夜限度地阐扬 Ithaca 的价值,DeepMind 团队还有创立了很多视觉辅助东西,以确保 Ithaca 的研究成果轻易被汗青学家解读:
恢复假定:Ithaca 为文本恢复使命天生了几个猜测假定,供汗青学家利用他们的专业常识举行选择。
地舆归因:Ithaca 经由过程为汗青学家提供所有可能猜测的几率漫衍(而不单单是单个输出)来显示其不确定性。它会返回代表其确定性程度的 84 个差别古代区域的几率。它于舆图大将这些成果可视化,以阐明古代世界可能存于的潜于地舆接洽。
年月归属:于对于文本举行年测时,Ithaca 会天生从公元前 800 年到公元 800 年所有十年的猜测日期漫衍。这可使汗青学家对于特定日期规模的置信度可视化,可能会提供有价值的汗青看法。
光鲜明显性映照:为了将成果转达给汗青学家,Ithaca 利用计较机视觉中经常使用的一种技能来辨认哪些输入序列对于猜测的孝敬最年夜。输出以差别颜色强度凸起显示致使 Ithaca 猜测缺掉文本、位置及日期的单词。

图注:这段文字(IG II² 116,Athens 361/0 BCE)记载了雅典人及色萨利人的同盟。经由过程利用光鲜明显映照,他们可以于恢复毁坏的单词「alliance」时将 Ithaca 「存眷」上下文主要的词「Athenians」及「Thessalians」可视化。
据 DeepMind 先容,经评估注解:Ithaca 于恢复受损文本方面的正确率到达了 62%,于辨认其原始位置方面的正确率到达 71%,而且可以将文本的日期确定于其真实日期规模的 30 年内。
DeepMind 还有说:与他们互助的汗青专家于零丁修复旧代文本时正确率只有 25%,但当他们与 Ithaca 互助修复不时,正确率提高到了 72%,跨越了模子的小我私家机能,表现出了人机协作于汗青注释、成立汗青事务的相对于年月上的上风。
经由过程 Ithaca,汗青学家们从头评估了希腊汗青上的多个主要期间。用一个夸张点的说法是:Ithaca 「转变」了汗青;四舍五入,人工智能「转变」了汗青。

图注:汗青学家们用 Ithaca 修复了记载雅典卫城法律的铭文 (IG I3 4B) ,日期为公元前 485/4 年
今朝,Ithaca已经开源,供汗青学家们按需利用。
2进一步会商DeepMind 认为,Ithaca 的呈现有助在汗青学家对于汗青事实的辩说。
今朝汗青学家们于苏格拉底等人物糊口的时代制订的一系列主要的雅典法律的日期上有争议。持久以来,人们一直认为这些法律是于公元前 446/445 年以前制订的,但新的证据注解其日期是公元前 420 年月。虽然这些差异看起来很小,但对于人类理解古典雅典的政治史至关主要。

图注:Ithaca 的猜测与帕卡德人文学院(PHI)数据集的基本领实与近来的汗青从头评估比拟。PHI 标签平均间隔从头评估的日期是 27 年,而 Ithaca 的猜测平均间隔新提出的日期是 5 年,正确率更高。
不外,也有网友指出:Ithaca 的机能指标好像单单聚焦于「正确率」上,其实不足以测出有说服力的年份。

事实上,「AI for Humanity」也其实不是一个新鲜的话题。中国人平易近年夜学的高瓴人工智能研究院自建立之初,就将「用人工智能促成人文学科研究」作为重要的标的目的之一,此前 AI 科技评论就报导过《人年夜:及清、北做纷歧样的 AI》。
对于在 DeepMind 来讲,AI 进甲士文社科是第一次,但此前已经有很多学者用神经收集举行文字修复。这次登 Nature 封面,毕竟是事情够强,还有是 DeepMind 的 IP 招呼力够年夜,仍有待商议。
不外,不成否定,用 AI 帮忙人文学科研究,总归利年夜在弊!值患上喝采!
参考链接:1.https://deepmind.com/blog/article/Predicting-the-past-with-Ithaca
2.https://www.nature.com/articles/s41586-022-04448-z
3.https://github.com/deepmind/ithaca

雷峰网雷峰网(公家号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





