Ten months ago, we launched the Vesuvius Challenge to solve the ancient problem of the Herculaneum Papyri, a library of scrolls that were flash-fried by the eruption of Mount Vesuvius in 79 AD.
Ten months ago, we launched the Vesuvius Challenge to solve the ancient problem of the Herculaneum Papyri, a library of scrolls that were flash-fried by the eruption of Mount Vesuvius in 79 AD.
https://www.bloomberg.com/features/2024-ai-unlock-ancient-world-secrets/?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTcwNzE0MTc1MCwiZXhwIjoxNzA3NzQ2NTUwLCJhcnRpY2xlSWQiOiJTOERZV0lUMEFGQjQwMCIsImJjb25uZWN0SWQiOiI0Q0RGQzk1QkQ5NjI0RjAyOEYwREMxOTNDRDM2RDBGMiJ9.1FLLhYSi9d9XWAt6vzeuo9zV0hxAsheISAImpNGdfLA 原来这个给火山灰掩埋的 Villa dei Papiri 是洛杉矶 Getty Villa 的原型。Villa dei Papiri 之所以出名是因为这是恺撒大帝老丈人的豪宅,里面包括一个古罗马时代的图书馆。当年的书以莎草纸卷保存,结果房子给炙热的火山灰覆盖,里面像个 air fryer,莎草纸卷都给烤焦了 https://www.getty.edu/news/getty-villa-museum-history-50-year-anniversary/ https://en.wikipedia.org/wiki/Villa_of_the_Papyri Artist''s rendering of “Villa dei Papiri” Getty Villa
大部分还没给破译,2023年译出的段子。。。 the scholars believe the text to be another work by Philodemus, one centered on the pleasures of music and food and their effects on the senses
10 多年来,紙莎草卷的 3D 扫描也经历了不小的变化。其实不少 researcher 从 80 年代开始就开始花功夫。下面看看 University of Kentucky 的 CS Professor Brent Seales 所做的: 2009 年,由于意大利人不肯借出紙莎草卷,Prof Seales 专程把一台价值上百万美元的 X-ray micro-CT (Bruker SkyScan 1173) 从比利时运到法国,扫描了两卷意大利送给法国人的紙莎草卷。不过效果不理想,因为古罗马人用的墨水和紙莎草很难给分辨出来,另外紙莎草卷中间有的部分相互靠的太近,仪器根本分不出来。 Bruker SkyScan 1273 长这样 (Model 1173 太老,找不到了) 当年去法国法兰西学院 3D 扫描 (摘自University of Kentucky EduceLab:https://www2.cs.uky.edu/dri/)
系统提示:若遇到视频无法播放请点击下方链接 https://www.youtube.com/embed/PpNq2cFotyY 2013 年,Prof Seales 尝试使用 新的 X-ray phase-contrast tomography,来探测古罗马墨水 和 纸莎草 的密度变化。这样的 X-光 需要一台同步加速器才能产生,教授没能申请到 巴黎 的加速器使用时间,法国人后来独立在 Grenoble 的另一台同步加速器完成了 X-ray CT 扫描,后续研究不仅没有把 Prof Seales 包括进去,法兰西学院也不再愿意把紙莎草卷借给这位教授。虽然有3D 扫描的数据,可是由于相应解析的软件和算法没跟上,法国人的研究最后也没什么进展。 除了法国人,意大利也送了 4 个纸莎草卷给英国。Prof Seales 转向和英国人合作。2019 年,在英国的国家同步加速器中心 (Diamond Light Source: https://en.wikipedia.org/wiki/Diamond_Light_Source),Prof Seales 和英国人完成了对草卷残片最新的 X-光 3D 扫描 Inside the Diamond Light Source (https://phys.org/news/2019-10-uk-particle-reveal-secrets-year-old.html) Prof Seales at UK''s Diamond Light Source national synchrotron light source science facility 在 Diamond 扫描前做的准备工作(Great PR shot) 研究还在继续,最终目标是,要把一个草卷完整的扫描并破译出来 Then belief returned to his wide, hazel eyes. “I refuse to accept that it’s not possible,” he said. “At every turn, there has been something that opened up.” Reading a complete intact scroll at last, he went on, would be “like returning home to your family, who have been waiting all along for you to do the thing you started.” 摘自 https://www.smithsonianmag.com/history/buried-ash-vesuvius-scrolls-are-being-read-new-xray-technique-180969358/
logistics 搞不定,需要意大利开放纸莎草卷 access,租借仪器,开销肯定还有 研究资金 cap 的限制 Seales is still negotiating with curators in Oxford, Naples and Paris for access to intact scrolls. He has surmounted huge technical hurdles, but the complex political challenge of navigating the gatekeepers, winning beam time at particle accelerators and lining up funding can, very occasionally, puncture his optimism. “How does a guy like me make all that stuff happen all at once?” he said in one such moment. He shrugged and looked around him. “It’s more than a computer scientist is really capable of doing.”
the scholars believe the text to be another work by Philodemus, one centered on the “pleasures of music and food and their effects on the senses” 据说破译的文字描述的是:音乐和食物带来的愉悦感
最新通过 X 光 CT 加上 AI/Machine Learning 译出的片段。拿下了 $700K 的 Vesuvius Challenge 头奖
https://youssefnader.com/2024/02/06/the-ink-detection-journey-of-the-vesuvius-challenge/
Vesuvius Challenge 是由 GitHub 前老板资助的,今年还在继续:https://scrollprize.org
怎么知道文字是对的?不是机器忽悠人类?
可是这么多年来只有2006年复旦的一位教授破译了一个字: 蠢,获得了10万人民币的奖金。 甲骨文实在太难破译了。
这种方法好像不能用在甲骨文的破译上吧?
如果能,那该多好啊。目前甲骨文只破译了三分之一。
3个人用了3种独立的算法,互相验证,可以去看具体技术文章。
这真的不是段子吗?太好笑了
还真不是段子,只是是在2018年,不是2006年。
2018年,有一人拿到了这奖赏的10万元。他就是复旦大学出土文献与古文字研究中心研究员蒋玉斌。获奖论文是《释甲骨金文的“蠢”——兼论相关问题》他也是目前唯一拿到这笔奖金的人。
经过多年考证,蒋玉斌得出结论:甲骨文、金文中用在某些方国名字前的“屯”字,应该释读为蠢动的“蠢”字。例如,“屯夷方”应解读为“动乱的夷方”。
蒋玉斌说:“当时在商王国的周边,方国林立。有些方国不服商王朝的管治,兴兵作乱,就被称作‘蠢某方’,加以征讨”。经过这样解读,文句一下子读通了,也提高了反映王朝与方国部族关系资料的利用效率。
据学者统计目前已发现的甲骨文单字共4000余个,取得共识的破译字约占三分之一。
“容易的已经被破译了,没能破译的都是‘硬骨头’,大多既复杂,又不成文”,蒋玉斌说。
考释甲骨文字,难在已知信息太有限,难以架起从已知到未知的桥梁,更难的是要坐冷板凳、下大功夫。
“如果缺乏兴趣,缺乏持之以恒的毅力就很难取得新突破”。
感觉把红学索引派 那帮人搞去研究 甲骨文。 短时间内就会有大突破。
没用的。甲骨文年代过于久远了,字形字义都发生了极大的变化,有些变化断代了,没有逻辑。现代科技也似乎帮不上忙。汉字是表意文字,和字母文字还是有很大不同,而且那是发生在书同文之前的,更难破译了。
一卷纸被碳化了两千年,不展开破坏它的情况下,通过x 光从多个角度照射这个卷,要把它三维空间的碳粉分层展开成平面,这不叫高科技那啥叫,就算没有碳化,普通的纸上的笔画卷起来再捏皱了,这些笔画都从二维平面连续可导的线条变成三维不可导的立体图案了,这是很难的复原
不会吧, 前几天刚看到的新闻有人破译了一个字得了奖励20还是30万元。-~~~~ 应该是一个字10万
刚搜了一下, 2023 年11月公示一等奖2项, 二等奖3项, 至少是破译了5个字
这个是看清楚黑白,看清楚笔画,看清楚字的样子。但字的含义是另外一会事。 机器识别的,是草上哪里有被书写了沾了颜料,哪里是没有沾到颜料。
咋觉得那么好笑呢
这个要是破译出来说Jesus结了婚生了孩子,后代在法国叫sophie,怎么办?罗马教廷要解散吗?
https://www.bloomberg.com/features/2024-ai-unlock-ancient-world-secrets/?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTcwNzE0MTc1MCwiZXhwIjoxNzA3NzQ2NTUwLCJhcnRpY2xlSWQiOiJTOERZV0lUMEFGQjQwMCIsImJjb25uZWN0SWQiOiI0Q0RGQzk1QkQ5NjI0RjAyOEYwREMxOTNDRDM2RDBGMiJ9.1FLLhYSi9d9XWAt6vzeuo9zV0hxAsheISAImpNGdfLA
原来这个给火山灰掩埋的 Villa dei Papiri 是洛杉矶 Getty Villa 的原型。Villa dei Papiri 之所以出名是因为这是恺撒大帝老丈人的豪宅,里面包括一个古罗马时代的图书馆。当年的书以莎草纸卷保存,结果房子给炙热的火山灰覆盖,里面像个 air fryer,莎草纸卷都给烤焦了
https://www.getty.edu/news/getty-villa-museum-history-50-year-anniversary/
https://en.wikipedia.org/wiki/Villa_of_the_Papyri
Artist''s rendering of “Villa dei Papiri”
Getty Villa
大部分还没给破译,2023年译出的段子。。。 the scholars believe the text to be another work by Philodemus, one centered on the pleasures of music and food and their effects on the senses
摘自 https://web.archive.org/web/20240205170754/https://www.bloomberg.com/features/2024-ai-unlock-ancient-world-secrets/?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTcwNzE0MTc1MCwiZXhwIjoxNzA3NzQ2NTUwLCJhcnRpY2xlSWQiOiJTOERZV0lUMEFGQjQwMCIsImJjb25uZWN0SWQiOiI0Q0RGQzk1QkQ5NjI0RjAyOEYwREMxOTNDRDM2RDBGMiJ9.1FLLhYSi9d9XWAt6vzeuo9zV0hxAsheISAImpNGdfLA
自1899年王懿荣发现甲骨文以来,学者探查到存世商周甲骨在16万片以上,已发表的8万多片,上面共发现不重复的单字近4000个。其中已识字大约是1160个,不到三分之一;仍有两千多字有待破解,其中大多都是难啃的‘硬骨头’
https://www.whb.cn/commonDetail/914730
2009 年,由于意大利人不肯借出紙莎草卷,Prof Seales 专程把一台价值上百万美元的 X-ray micro-CT (Bruker SkyScan 1173) 从比利时运到法国,扫描了两卷意大利送给法国人的紙莎草卷。不过效果不理想,因为古罗马人用的墨水和紙莎草很难给分辨出来,另外紙莎草卷中间有的部分相互靠的太近,仪器根本分不出来。
Bruker SkyScan 1273 长这样 (Model 1173 太老,找不到了)
当年去法国法兰西学院 3D 扫描 (摘自University of Kentucky EduceLab:https://www2.cs.uky.edu/dri/)
系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/PpNq2cFotyY
2013 年,Prof Seales 尝试使用 新的 X-ray phase-contrast tomography,来探测古罗马墨水 和 纸莎草 的密度变化。这样的 X-光 需要一台同步加速器才能产生,教授没能申请到 巴黎 的加速器使用时间,法国人后来独立在 Grenoble 的另一台同步加速器完成了 X-ray CT 扫描,后续研究不仅没有把 Prof Seales 包括进去,法兰西学院也不再愿意把紙莎草卷借给这位教授。虽然有3D 扫描的数据,可是由于相应解析的软件和算法没跟上,法国人的研究最后也没什么进展。
除了法国人,意大利也送了 4 个纸莎草卷给英国。Prof Seales 转向和英国人合作。2019 年,在英国的国家同步加速器中心 (Diamond Light Source: https://en.wikipedia.org/wiki/Diamond_Light_Source),Prof Seales 和英国人完成了对草卷残片最新的 X-光 3D 扫描
Inside the Diamond Light Source (https://phys.org/news/2019-10-uk-particle-reveal-secrets-year-old.html)
Prof Seales at UK''s Diamond Light Source national synchrotron light source science facility
在 Diamond 扫描前做的准备工作(Great PR shot)
研究还在继续,最终目标是,要把一个草卷完整的扫描并破译出来
Then belief returned to his wide, hazel eyes. “I refuse to accept that it’s not possible,” he said. “At every turn, there has been something that opened up.” Reading a complete intact scroll at last, he went on, would be “like returning home to your family, who have been waiting all along for you to do the thing you started.”
摘自 https://www.smithsonianmag.com/history/buried-ash-vesuvius-scrolls-are-being-read-new-xray-technique-180969358/
为什么不把仪器运到意大利去
logistics 搞不定,需要意大利开放纸莎草卷 access,租借仪器,开销肯定还有 研究资金 cap 的限制
Seales is still negotiating with curators in Oxford, Naples and Paris for access to intact scrolls. He has surmounted huge technical hurdles, but the complex political challenge of navigating the gatekeepers, winning beam time at particle accelerators and lining up funding can, very occasionally, puncture his optimism. “How does a guy like me make all that stuff happen all at once?” he said in one such moment. He shrugged and looked around him. “It’s more than a computer scientist is really capable of doing.”
机器学习最powerful的是supervised learning。得有training data,不好搞
the scholars believe the text to be another work by Philodemus, one centered on the “pleasures of music and food and their effects on the senses”
据说破译的文字描述的是:音乐和食物带来的愉悦感
数据规格可以在这看到:https://scrollprize.org/data
2019 年的扫描:https://arxiv.org/abs/2304.02084
2023 年的扫描:https://drive.google.com/file/d/1I6JNrR6A9pMdANbn6uAuXbcDNwjk8qZ2/view
每个草卷大概可以扫出 25,000 个 slice,每个 slice 厚度相当于 4 micon,每张 slice 文件大小约为 170MB,每个像素大小约 8 micron。
2019 扫描的数据规模稍有不同,差不太多
这些 slice 经过软件叠加,再展开,恢复回 2维 的纸卷
2023 年,3 组来自不同国家的网友通过关注于 2-维 图像上有 “crackle” (a faint pattern of cracks and lines on the page)的地方,用机器学习的方法辨认出了约 15 页 (column)的文字
Fascinating!
也许还会有更多的方法,更有趣的内容,等待被人们发现