简帛网

 找回密碼
 立即注册
樓主: 张宇鑫

[原创] 探索人工智能在簡牘整理與曆史研究中的應用

[複製鏈接]
 樓主| 發表於 2025-3-20 22:20 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-20 22:24 編輯

简帛数据库汇总

1.中国简帛文献综合数字平台(武汉大学简帛研究中心、文化遗产智能计算实验室)
正在建设中,未开放。

2.中国古代简帛字形、辞例数据库(武汉大学简帛研究中心)
http://www.bsm.org.cn/zxcl/login.php
持续建设中。

3.简牍学术资源数据共享平台(西北师范大学)
https://jiandu.nwnu.edu.cn/
针对甘肃省及西北地区出土简牍数字化保护研发国内首个系统的、完整的、公开的简牍学术资源大数据平台。开发了简牍实物库、释文库、字形库、著录库、文献库和专家库,提供简牍学术资源多源数据收录和智能检索。同时,围绕数字简牍:“数据要素×简牍”“人工智能+简牍”“智能设备+简牍”“大模型+简牍”四个方面继续开展相关工作。

4.清华大学藏战国竹简数据库(清华大学出土文献研究与保护中心)
https://qhj.cihai.com.cn/

5.贯联汗青:简牍缀合信息库(西北汉简之部)(复旦大学出土文献与古文字研究中心)
http://www.fdgwz.org.cn/GuanLianHanQing/Home
于2024年3月1日试运行,即日起正式发布,免费供学术界及社会大众使用。

6.先秦甲骨文金文简牍词汇资料库(中研院史语所)
「先秦金文简牍词汇数据库」分为金文和简牍两个子数据库,「金文词汇数据库」包括三个部分:「词汇库查询」、「词汇库索引」以及「词汇库管理」。「词汇库查询」可以自行输入关键词或以《殷周金文集成》青铜器器号进行检索;若无任何金文的先备知识,也可透过「词汇库索引」,以词类和更精确的内容分类找出符合条件的词汇,更可以「时代」和「出土地」相关的时空数据缩小检索范围。

7.汉代简牍数字典藏(中研院史语所)
http://rub.ihp.sinica.edu.tw/%7Ewoodslip/index.htm
历史语言研究所收藏的汉简,其中以1930~1931年瑞典考古学家贝格曼(Folke Bergman)等人在内蒙古与甘肃境内之额济纳河流域发掘的「居延汉简」为主,约11000余枚,另外还包括1930年、1934年黄文弼在新疆盐泽发现的「罗布淖尔汉简」(58枚),以及1944年、1945年夏鼐、阎文儒勘查玉门关、阳关及汉代边防烽燧遗址路线,所发现的「敦煌小方盘城汉简」(76枚)、「武威剌麻湾汉简」(7枚)。

8.史语所文物图象研究室资料库检索系统(中研院史语所)
http://saturn.ihp.sinica.edu.tw/~wenwu/search.htm
包括简帛金石资料库--全文、简帛金石资料库--书目、居延汉简补编图象系统、汉画论文目录检索系统、武氏祠画象检索系统、安丘董家庄汉墓画象等6个资料库。其中简帛金石资料库由史语所“简牍整理小组”制作,有“石刻题跋索引(汉-隋)”“新出石刻关系数据目录”等金石相关内容。

9.简牍字典—史语所藏居延汉简数据库
https://wcd-ihp.ascdc.sinica.edu.tw/woodslip/index.php
收录历年来史语所汉代简牍数位典藏成果及《居延汉简》出版内容。以开放的角度协助用户查询简牍数据、字形图像,是一个能检索字形、书写特征、形态,文字与文字关系、简牍与简牍链接的数字人文工具。

10.郭店楚简数据库(香港中文大学)
内容主要为张光裕教授《郭店楚简研究·第一卷·文字编》一书载录之16篇释文修订本,可按竹简编号、篇目名称、或于内容项下输入有关字词,作全文检索。

11.战国楚文字检索系统(华东师范大学)
https://wjwx.ecnu.edu.cn/wenzidb/Home/Login.aspx
提交申请书后可免费开通使用权限。其早期数字化成果名为《战国楚文字数字化处理系统》(光盘),包括“战国楚文献检索系统”“战国楚文字字库”“楚文字输入法”“楚楷对应转换程序”四大部分。该库标明所据参考资料为《郭店楚墓竹简》。现阶段则有较明显的数据更新,为“中国文字智能检索网络数据库”之一,名为“战国楚简数据库”,安装字体文件后可在线访问,包含“全文检索”(按文献出处检索、字词检索、字形检索、字际关系检索)、“考释检索”(被释字检索、考释论著检索)、“偏旁检索”“通假检索”“字体分类检索”“逐字义类检索”等检索路径,并关联原简、释文及相关考释信息。

12.郭店与马王堆原件选集数据库(Database of SelectedCharacters from Guodian and Mawangdui Manuscripts, 2006)(科罗拉多大学)
https://www.colorado.edu/faculty/richter-matthias/database
该库由李梦涛(MatthiasL. Richter)教授开发,内容包括郭店楚简及马王堆帛书,但因技术问题,该库目前仅能提供Excel文件。除提供文字释文、释音、图版及各家解释外,李梦涛教授还尝试将郭店楚简变成结构化数据,如统计了文字出现频率及组成构件等。其所据参考资料为《郭店楚墓竹简》。

13.竹简帛书出土文献计算机数据库

14.上博楚竹书(一)
http://s21040.xxking.com/sh/index.html

15.长沙走马楼三国吴简•嘉禾吏民田家莂数据库
http://rhorse.lib.cuhk.edu.hk/basisbwdocs/rhorse/rhr_main.html

16.楚简帛字典【清华篇】
http://cjbnet.org/qinghua/

17.天回医简数据库
2018年,成都中医药大学中国出土医学文献与文物研究院研究院启动了出土医学简牍的数字化整理工作,并于2023年11月完成数据库前期开发,进入试用反馈阶段。

18.汉达文库
http://www.chant.org/
内容包括甲骨文,附有标准甲骨文字库,(自1996年起,收录13册《甲骨文合集释文》及《英国所藏甲骨集》等7种海外所藏甲骨卜辞资料)、竹简帛书(自1994年起至1996年完成,共收录出土简帛文献包括《武威汉简》《马王堆汉墓帛书》《银雀山汉简》《睡虎地秦墓竹简》等多种,附释文、图像逐简对照显示)、金文(1999年起,以中国社会科学院考古所编纂《殷周金文集成释文》为据,收录12021铜器数据,约18000张拓本,包括摹本,约近100万字器物数据说明,另140000字隶定释文)等。

19.引得市
https://www.mebag.com/index/
“出土文献”数据库则提供了出土文献著录、释文等信息,包括“甲骨文”“金文”“简牍帛书”“玺印封泥”“砖瓦陶文”“碑碣石刻”等多种类别的出土文献。

20.字统网

21.汉字古文字字体演变
http://web.hku.hk/~jwilam/chinese/change.htm
本数据库整合了甲骨文、金文、楚帛书、小篆、隶书等字形,只需将关键词输入检索,即可得到该字行体之演变过程。

22.瀚堂典藏
http://www.hytung.com.tw/zh-tw/default.aspx
为北京时代瀚堂科技有限公司所制作,其内容包括「小学工具」、「出土文献」、「传世文献」与「专题文献」4大类,可以藉由关键词词的键入,查找到该类别的相关数据。

23.古音小镜
http://www.kaom.net/index.php
其中设有“楚简字形库(工程版)”,但目前部分功能尚未完工,其中郭店简为“初步完成”状态,主要参考资料为荆门市博物馆编《郭店楚墓竹简》(书法大图版)和《楚地出土战国简册合集》两书。该字形库可同时查询简繁、变体,点击单字可直接跳转原简大图。

24.简多多(河南大学计算机与信息工程学院)
张重生教授团队已经投入三年时间,正在研发助力简牍复原的“简多多”工具。

25.秦汉三国简牍经济史料检索程序
未开放,数据集包含《肩水金关汉简(壹—伍)》《居延新简——甲渠候官与第四燧》《里耶秦简牍校释(壹、贰)》《睡虎地秦墓竹简》《香港中文大学文物馆藏简牍》《岳麓书院藏秦简(贰、肆、伍、陆)》《张家山汉墓竹简[二四七号墓](释文修订本)》《长沙五一广场东汉简牍(壹—陆)》《长沙走马楼三国吴简·竹简(壹—捌)》《居延汉简》《银雀山汉墓竹简》《荆州胡家草场西汉简牍选粹》《尹湾汉墓简牍》《沅陵虎溪山一号汉墓·计簿》。

建立完善的简帛数据库,是研发简牍整理研究人工智能大模型的基础。30万余枚简牍的数字化工作任务艰巨,建设完整的数据库有两个更为高效的办法,一是各院校机构联合,利用大量人力大兵团作战或将各自已建立的数据库统一;二是研发全自动整理单简图版、单字字图以及单字释文、整简释文、相关辞例的人工智能应用软件,输入完整出版物的电子扫描件或单页扫描件即可自动整理数据,结合人工核验,形成数据库,目前从技术上看这种方法有待验证,目前不确定其具备可行性。
 樓主| 發表於 2025-3-21 23:25 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-21 23:29 編輯

前沿讲座讯息两则

一、万澍:AI赋能的社会网络分析与世界史研究(已举办)

时间:2025年3月18日(周二)10:00 - 11:30
主讲人:万澍 布法罗大学历史系博士候选人
主持人:张杨 复旦大学历史学系教授
地点:光华楼西辅楼407室
主办:复旦大学历史学系
主讲人介绍:万澍,布法罗大学历史系博士候选人。研究领域为残障史与计算人文。文章见于《光明日报》, Information Technology and Libraries(SSCI), Historical Studies in the Natural Sciences (SSCI),及Sports History Review (SSCI)。

信息来源:复旦大学历史学系

二、郭至汶:当AI遇到历史学

CHC讲座
日期: 2025年4月3号
时期: 13:30 – 15:30
语言:普通话
模式: 混合(线下 & Zoom)
地点: 香港理工大学R1108/ZOOM
讲者介绍:郭至汶,德国海德堡大学汉学系博士,现任嘉义大学应用历史学系专任助理教授,研究领域为晚清传教士与跨文化研究、近代中西交流史、国际汉学以及数位人文学研究。
参与方式:港理大CHC小红书公众号或官网登记注册,请注意,在讲座前三天将会关闭登记入口。注册成功者将会看到页面提示,并于讲座开始前三天陆续收到入校二维码,如果有任何疑问,烦请联系工作人员孔女士:vivian.kong@polyu.edu.hk

信息来源:香港理工大学中国历史及文化学系(港理大CHC
2.jpg
1.jpg
 樓主| 發表於 2025-3-22 10:12 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-22 10:16 編輯

数字人文与AI人文的概念及应用

本帖帖文由DeepSeek-V3模型結合深度思考R1生成。

一、概念

#### **1. 数字人文(Digital Humanities)**
**概念**:  
数字人文是信息技术与人文学科结合的跨学科领域,起源于20世纪中叶的“人文计算”,核心在于通过数字化技术(如数据采集、文本分析、可视化等)辅助人文研究。其发展经历了文本数字化、计算机辅助分析到数据驱动研究的阶段,早期代表性项目如意大利学者罗伯托·布萨(Roberto Busa)与IBM合作的《托马斯著作索引》。

**技术特征**:  
- 数据采集与整理(如文本数字化、数据库构建)。  
- 基于统计的文本分析(如词频统计、社会网络分析)。  
- 可视化工具辅助研究(如时间轴、地图标注)。

#### **2. AI人文(AI Humanities)**
**概念**:  
AI人文是数字人文的智能化延伸,以生成式AI(如GPT、GAN)、深度学习为核心,通过模式识别、数据重组和自动化生成技术,实现更高效和创新的研究。其核心突破在于将人类经验“向量化”,使机器能处理复杂语义与创造性任务。

**技术特征**:  
- 自动化分析(如自然语言处理、图像识别)。  
- 生成能力(如AI生成文本、艺术创作)。  
- 多模态数据融合(如文本、图像、声音的联合分析)。


#### **二者区别**  
| **维度**       | **数字人文**                      | **AI人文**                     
|----------------|-----------------------------------|---------------------------------|
| **技术基础**   | 传统计算技术(数据库、统计工具)  | 生成式AI、深度学习模型   
| **研究范式**   | 定性分析与数据可视化为主        | 数据驱动的定量分析与自动化生成
| **应用深度**   | 辅助工具,需人工干预          | 部分替代人工,具备自主推理能力
| **核心目标**   | 提升效率与数据呈现           | 发现深层模式,推动知识创新   

二、在古文字、文献与历史研究中的应用

#### **1. 数字人文的应用案例**  
- **文化遗产保护**:通过三维扫描与虚拟现实技术,数字化保存文物(如故宫博物院的三维文物复制)。  
- **文献整理**:构建古籍数据库(如《四库全书》电子化),支持文本检索与跨文献关联分析。  
- **历史研究**:弗兰克·莫莱蒂(Franco Moretti)提出的“远读”(Distant Reading)方法,通过大数据分析文学作品的宏观趋势。

**代表性学者**:  
- **罗伯托·布萨**:数字人文先驱,首倡计算机辅助文本分析。  
- **弗兰克·莫莱蒂**:推动“远读”理论,革新文学研究方法。

#### **2. AI人文的应用案例**  
- **古文字解读**:  
  - **甲骨文研究**:莫伯峰教授利用AI自动处理甲骨文影像,实现缀合与分类(如“SikuBERT”模型辅助古文标点)。  
  - **古代语言翻译**:韩国学者用Transformer模型翻译朝鲜王朝档案,效率远超人工。  
- **文献修复与生成**:  
  - **维苏威挑战**:AI解析火山灰覆盖的古希腊莎草纸卷,复原文本内容。  
  - **图像修复**:深度卷积生成对抗网络(DCGAN)修复破损文物图像。  
- **历史分析**:牛津大学开发的Ithaca模型,预测古希腊铭文缺失内容并推断文本年代。

**代表性学者与技术**:  
- **莫伯峰**:推动AI在甲骨文研究中的应用,开发智能化分析工具。  
- **牛津大学团队**:基于Transformer的Ithaca模型,革新古代文本研究。  
- **Pythia模型**:通过RNN填补古希腊铭文缺失字符。

### 挑战与未来方向  
- **技术局限**:AI生成内容的可靠性(如“幻觉”问题)、算法偏见仍需人工校验。  
- **伦理与协作**:需建立“人机协同”模式,结合人类批判性思维与AI效率(如开源数据与跨学科合作)。  
- **文化民主化**:通过开放数字平台(如在线博物馆),让公众参与历史探索。

### 总结  
数字人文与AI人文代表了人文研究从“工具辅助”到“智能共创”的演变。前者奠定数据基础,后者推动范式变革,二者在文化遗产保护、文献分析与历史重构中形成互补。未来,随着技术的深化与伦理框架的完善,人文学科将更高效、更具创新性,同时保持对人类文化的深度反思。

 樓主| 發表於 2025-3-22 13:18 | 顯示全部樓層
数字人文发展简史

本帖帖文由DeepSeek-V3模型結合深度思考R1结合笔者人工修改生成。

数字人文(Digital Humanities, DH)的发展历史可追溯至20世纪中叶,其演变过程融合了技术进步与人文学科研究的交叉创新,大致可分为以下几个阶段:

### 一、起源与早期探索(1940s-1990s)
1. **人文计算的诞生**  
   数字人文的前身是“人文计算”(Humanities Computing),其标志性事件是1949年意大利耶稣会神父罗伯特·布萨(Roberto Busa)与IBM合作,使用计算机耗时30年编纂完成56卷《托马斯·阿奎那著作索引》。这一项目首次将计算机技术应用于大规模文献整理,成为人文计算的里程碑。

2. **技术工具的初步应用**  
   20世纪60-80年代,计算机技术逐步应用于语言学、文学分析等领域。例如,计算语言学开始萌芽,研究者尝试通过算法分析文本的词频、语法结构等。然而,受限于技术水平和硬件条件,研究多集中在文本数字化和简单统计分析上。

### 二、互联网时代的数字人文(1990s-2010s)
1. **数字技术的普及与学科化**  
   随着互联网和数据库技术的普及,数字人文逐步形成独立学科。1990年代,美国高校如弗吉尼亚大学、斯坦福大学等率先成立数字人文研究中心,推动文本挖掘、地理信息系统(GIS)等技术在人文学科的应用。2001年,《数字人文指南》的出版标志着这一领域正式命名。

2. **研究方法的扩展**  
   此阶段的研究重点转向数据可视化和跨学科整合。例如:
   - 历史地理学引入GIS技术,如复旦大学开发的“中国历史地理信息系统(CHGIS)”,实现了历史地图的数字化与空间分析。
   - 文学领域通过文本分析工具(如Voyant Tools)探索文学作品的模式与主题分布。

3. **国际网络的建立**  
   国际数字人文组织联盟(ADHO)的成立(2005年)及欧洲数字人文研究网络(DARIAH、CLARIN)的发展,促进了全球合作与资源共享。

### 三、AI驱动的数字人文(2010s至今)
1. **生成式AI的突破**  
   2017年后,以Transformer架构(如BERT、GPT系列)为代表的预训练模型兴起,极大提升了文本分析与生成能力。例如:
   - 谷歌DeepMind的“伊萨卡(Ithaca)”模型修复古希腊石碑铭文。
   - 中国学者利用AI辅助甲骨文缀合,如清华大学的“知微缀”系统与复旦大学的合作项目,累计发现50余组甲骨新缀合。

2. **多模态与沉浸式技术**  
   - 虚拟现实(VR)和增强现实(AR)技术被用于文化遗产复原,如故宫博物院的“数字故宫”项目。
   - 谷歌的Genie模型通过生成3D环境,支持历史场景的数字化重建。

3. **中国数字人文的特色发展**  
   - **机构建设**:中国已有70余家专门研究机构(如中国人民大学数字人文研究院、复旦大学古文字研究中心)和30余所高校开展交叉研究。
   - **代表性成果**:
     - 浙江大学徐永明团队开发“云四库”智能问答系统,支持古籍智能检索。
     - 云南大学潘威提出“历史地理信息化2.0”,构建黄河流域数字化地名库。

### 四、当前挑战与未来趋势
1. **技术瓶颈**  
   - 数据标准化与互操作性不足,导致“数据孤岛”现象普遍存在。
   - AI生成内容的可信度仍需提升,尤其在古籍校勘和语义解析中需人机协同验证。

2. **学科融合与人才培养**  
   - 跨学科教育成为关键,如北京大学、华中师范大学等开设数字人文本科及博士项目。
   - 需构建统一的知识图谱和伦理框架,平衡技术创新与人文价值。

3. **未来方向**  
   - 从工具辅助转向范式创新,如通过AGI(通用人工智能)深化文化现象的因果推理。
   - 公众参与的文化传播模式,如社交媒体与开源平台推动文化遗产的全民共享。

### 总结
数字人文从早期的人文计算演变为AI驱动的跨学科领域,其发展史既是技术革新史,也是人文学科自我突破的历程。未来,随着AGI技术的深化,数字人文有望在文化遗产保护、历史研究、文化创新等领域实现更深刻的变革,同时需持续解决数据整合、伦理规范等核心问题。
 樓主| 發表於 2025-3-28 23:08 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-28 23:13 編輯

简牍整理研究人工智能化的重要技术进展:
西北师大、甘肃简牍博物馆推出DeepJiandu数据集

简牍是中国古代重要记录媒介,因材料脆弱及埋藏环境影响,字符模糊、缺损、布局复杂,人工识别困难。现有文献数字化技术在甲骨文等领域取得突破,但在简牍字符识别方面缺乏高质量数据集,限制了深度学习应用。

近日,西北师范大学联合甘肃简牍博物馆推出国际首个面向深度学习任务的简牍字符检测与识别大规模数据集——DeepJiandu数据集,这标志着简牍智能计算研究取得重要进展,为简牍文献的智能研究与保护提供基础,推动数字人文领域的创新与发展。该工作由西北师范大学简牍研究院、甘肃省简牍智能计算与数字人文工程研究中心张强教授团队具体开展,上海中西书局、甘肃文化出版社提供相关数据资源,西南大学参与数据验证试验工作,本研究相关论文发表于国际期刊《科学数据》。

DeepJiandu数据集包含7,416张图像,标注99,852个字符,涵盖2,242个类别。团队结合简牍专家释文成果对图像进行字符标注,数据集充分考虑了简牍字符的残损、异形字、多种布局等复杂场景,具备良好的深度学习适应性,可广泛支持目标检测与字符识别等模型的训练和评估

据了解,数据集整合了红外扫描图像,显著增强墨迹清晰度,提高字符对比度,使残损文字更清晰。标注工作由简牍学与计算机专家协作完成,确保专业性和准确性,为推动简牍文献的机器可读性与自动化处理奠定基础。

为保证科学性,数据集按8:1:1比例分为训练集、验证集和测试集。字符类别统计显示,尽管尺寸差异大,数据集仍为多尺度目标检测任务提供良好支持。团队在数据集上测试多种主流字符检测与识别模型,结果表明数据集能有效支持相关任务。现有模型在字符模糊、残缺、长尾分布等挑战下仍有优化空间,DeepJiandu将为简牍文字智能识别提供有力支撑,推动人工智能在简牍文献解析中的深入应用。

DeepJiandu数据集的发布填补了历史文献数字化与人工智能结合的空白,提升考古学者对简牍文献的解读效率,为历史文献OCR技术突破提供数据资源,推动文博机构数字化转型,为多模态文化遗产保护提供技术路径。该数据集不仅是一项数据工程,更是连接传统古籍与现代智能技术的桥梁。

随着数据集推广,预计将吸引更多深度学习和计算机视觉领域研究者加入简牍OCR研究,推动人工智能在历史文献解析、文化遗产保护等多学科交叉领域的应用。未来,团队将继续优化数据集,探索前沿技术,为数字人文研究提供技术支持。团队还在积极推进简牍图像融合、残断简缀合、书写风格识别和简牍大模型等方向研究,进一步拓展简牍智能技术研究边界。

目前,DeepJiandu数据集已开源,研究人员可通过以下链接获取:

信息来源:简牍学研究
 樓主| 發表於 2025-3-30 22:06 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-3-30 22:32 編輯

北京大学人文学科与人工智能相关讲座两则

一、胡明辉:人工智能时代的人文学科研究(2023年已举办)


2023年5月30日上午,“北大文研讲座”第297期在北京大学静园二院208会议室举行,主题为“人工智能时代的人文学科研究”。加州大学圣克鲁斯分校历史系副教授胡明辉主讲,北京大学历史学系副研究馆员史睿主持,中国人民大学国学院副教授华建光、北京大学外国语学院长聘副教授苏祺、北京大学中文系助理教授李林芳、北京大学历史学系助理教授吴靖远、北京大学《儒藏》编纂与研究中心副研究员沙志利、中国人民大学哲学院副教授张雪松、中国社会科学院哲学所副研究馆员胡士颍与谈。本次讲座为“数字人文与社会”系列讲座之一。

讲座伊始,胡明辉老师由科幻作品谈起,分析了科幻作品所反映出的人类面对人工智能的两种情绪。一方面,从《我,机器人》中人工智能自我意识觉醒后反击人类,到《机器人系列》里人类被困在由人工智能制造出的虚拟空间中,这类情节设计均传递出了部分人对迅速发展的人工智能的担忧与恐惧。另一方面,也有人将人工智能视作人类发展的希望,将影响大国博弈、推进科学研究。

情绪之外,也有学者对人工智能,尤其是新近出现的ChatGPT进行了严肃的反思。历史学家尤瓦尔·赫拉利(Yuval Noah Harari)警告,ChatGPT可能改变公共叙事,进而产生许多道德问题。语言学家诺姆·乔姆斯基(Noam Chomsky)指出,ChatGPT生成语言依赖于计算,与人类的思维方式并不相同,故不可能取代人类语言;此外,ChatGPT不具备分辨真伪的能力,若有人有意地向其输入错误信息,后者也将不加分辨地习得。政治学家大卫·帕纳吉亚(Davide Panagia)则与福柯的政治学理论进行对话,认为在人工智能时代,人的行为不再限于被监控,更是在被一个无处不在的程序不断地塑造与改变。

接下来,胡老师介绍了三个人文学科与人工智能,尤其是ChatGPT合作的实例。其一,加州大学为师生提供了免费的超级计算资源(super computer),而人文学者碍于语言模型技术的困难和海量数据的难以取得,对此运用仍很不足。ChatGPT能够帮助人文学者克服上述两大困难。进一步的,不同于以往数据库只能支持关键词检索及在此基础之上的机械统计,ChatGPT能够在理解语义的基础上发现所有类似含义的语汇,进而更好地挖掘数字化史料的价值。其二,ChatGPT可以构建起虚拟的历史时空,并根据输入参数的不同,输出各式各样的模拟状况。这一功能既可用于历史教学使其更加生动,也可用于考古研究与史迹重现。其三,ChatGPT可以改变历史学习的模式。学生自身可以通过控制参数,在ChatGPT中模拟出各式各样的故事,并从中挑选出一个自己认为最符合历史真实的版本。

与谈环节,吴靖远老师首先发言。吴老师认为,在人文研究中使用ChatGPT存在四个风险。首先,ChatGPT不辨真伪,甚至会根据人的需要“伪造”史料,倘若与超级计算资源相连,其产生的错误量则更是不可预测。其次,ChatGPT可以生产研究问题,但对于人文学者而言,倘若没有自己感兴趣的问题,要在人工智能辅助下发现问题,恐怕不是一种理想的状态。再次,利用ChatGPT模拟历史场景,可能使得历史学习变成一种虚拟空间学习。最后,ChatGPT可能让学习者和资料彻底脱节。胡明辉老师作出了回应,针对ChatGPT不辨真伪的问题,胡老师认为应该发挥研究者的主体性,在不断地与ChatGPT互动、纠偏中提高其准确度;此外,ChatGPT只是帮助研究者搜寻材料的工具,不必然导致研究者与资料的脱节,研究者需要教会ChatGPT自己的思考模式,以提高其搜寻材料的效率与准确度。

李林芳老师指出,ChatGPT有其内在运作逻辑,在生成答案的过程中可能存在某种倾向性,进而造成人类认识的系统性偏差。此外,目前尚不存在区分由人写出的文章和ChatGPT生成文本的有效办法。倘若学生利用ChatGPT完成作业,作业的原创性将有所损失、不及预期,这为传统的教学方法带来了挑战。胡明辉老师则认为,即便学生在完成作业的过程中使用了ChatGPT,也能达到训练的效果,因为这要求学生有很好的提问能力、对ChatGPT给出的答案有较高的鉴别能力,并愿意投入时间完善之。此外,在新的技术背景下,传统的教学方法的确存在改变的空间。胡老师以自己的学习经验为例,指出自己过去学到的文献方法,主要是查字典、查索引,而今天的学生则更多地借用数据库等网络资源,查字典也便不再是必备技能。史睿老师也指出,一些创新性的想法是在组合的过程中产生的,如果可以比较快地完成组合工作、得到一个比较正确的有效数据集,当然会提升研究效率。不过,要保证数据集的正确性,必须通过反复训练、提升人工智能的模式识别能力。史睿老师相信,人工智能的引入将推高人文研究的基础,让学者围绕最具原创性的关节点发力,而不单纯满足于资料整理和排比的工作。
张雪松老师将ChatGPT比作一个高度服从的秘书团队。张老师认为,ChatGPT作为一个新出现的技术,势必有优点亦有局限;而其中最值得警惕的一个局限,则是它可能加剧学术霸权主义。它促使研究者问题意识趋同,所有研究者都关注所谓的热点,而只要数据库足够大、数据足够多,无论研究者持什么观点,总能找到支持观点的知识,组成一篇文章。这样的文章看似合理,实际缺乏学术价值。当然,依托ChatGPT的人文研究最终有可能像人类学研究那样,不同的人类学家即便在同一个田野点进行田野调查,也能看到截然不同的内容;但在短期内,它更大概率强化文科内部的学术霸权,摧毁学者的原创性。史睿老师补充道,因为ChatGPT按照众数进行归纳总结、形成答案,而数量上一定是低水平研究更多;ChatGPT不辨真伪,更不懂得区分高下,因此它归纳出来的结果大概率水平不高,可能对后来的研究者造成低水平干扰。

华建光老师首先谈到了ChatGPT可能对原有的学术评价体系带来的冲击。ChatGPT的出现,可能导致着力于实证研究、材料功底深厚的人文学者优势的丧失。老一辈学者完成一本年谱需要花费大量的时间与精力,而倘若清代的资料全部数字化,人工智能也能够将关联性最紧密的数据按照重要性排列、并学习了年谱的一般范式,人工智能势必能在很短的时间内完成年谱的写作。在这种情况下,年谱这类作品是否还能算学术成果,便成了可以进一步讨论的问题。华老师也指出,ChatGPT这一强大技术工具,可能使得一些宏大的人文问题再度进入研究者的视野。考据与阐释是人文学科中最核心的两种素养——考据的核心是发掘史料、关联结构化语义;阐释的核心是发掘文本之外的别的含义。比较而言,考据类研究更容易被人工智能取代,而通过文本间、思想间的关联挖掘出文本的言外之意,可能是人工智能时代更加宝贵的能力。

苏祺老师主要从技术的角度,分享了数字人文学者目前利用ChatGPT进行的一些探索。北京大学数字人文研究中心今年在CCL会议上举办了古籍命名实体识别评测,即让机器自动识别古籍中的人名、书名和官职名。此前数字人文中心用深度学习的方法做过类似的实验,但深度学习方法运作良好的前提是有大量已经标注好的数据来训练算法,因此深度学习方法在识别分布较为广泛的人名类实体时表现较好,而识别比较稀疏的书名、官职名时表现较差。而通过使用ChatGPT抽取信息,目前准确率已经超过95%。也就是说,人工智能虽然在生成信息时可能出现各种错误,但在比较基础的语料处理和知识抽取工作上,能够给予人文学者很多帮助。目前ChatGPT的训练中,英文语料占了98%以上,中文语料极少,因此,ChatGPT处理中文文本的表现可能不及使用了大量中文语料训练的ChatGLM。这为我们带来的启发是,人文学者可以用人文数据训练一个针对学术研究的大模型,并要求这个大模型标明其抓取到的信息的出处,供人文学者甄别。大模型的训练也需要人文学者的帮助,学习人文学者写出的模板(prompt),是模型准确抓取信息的前提。

沙志利老师对人工智能持比较开放的态度,认为它本质上是为人所用的工具,关键是要将其用好。沙老师以自己的研究工作为例,指出人工智能技术可能大幅提高《儒藏》全本的编纂、校对效率。沙老师进一步指出,研究分为资料、方法、目标三个层面,以这三个层面的变与不变为标准,可以推想出人工智能与人文研究合作的三种可能性。一是资料、方法、目标都不变,研究者只是使用人工智能提高从资料中抽取信息的效率,信息抽取出来后,仍使用原来的方法进行研究。二是资料、方法改变,目标不变,即研究者利用人工智能处理过去处理不了的资料、拓宽了资料的边界,而资料的扩大将进一步启发研究者思考新的研究方法。三是目标也发生改变,即研究者在人工智能给出信息的启发下产生新的问题意识。胡明辉老师针对人工智能的属性问题进行补充,指出围绕工具属性,学界存在两种观点:一种正如沙老师所言,认为工具本身是中性的;一种则认为有的工具具有毁灭性,如枪支、原子弹等,这类工具不是中性的。而人工智能是否具有内在的毁灭性,目前还未可知。

胡士颍老师认为,我们不应当要求工具是万能的。数字人文进行的古籍点校工作也并非百分之百准确,同理,我们也不应对ChatGPT吹毛求疵。胡老师认为,ChatGPT就像是研究者的“玩伴”,尽管在一些专业性的问题上,它的回答不尽准确,但研究者亦不应以己之长比彼之短。关于研究者与人工智能的关系,胡老师认为二者应该是相互促进的,套用现在“鸡娃”的说法,研究者“鸡”人工智能,再通过发展了的人工智能“鸡”自己。在这个过程中,可能部分研究者会被淘汰,但这种淘汰不是坏事。正如汽车的发明表面上导致了马车夫的失业,但马车夫可以进入工厂谋生,且汽车产业吸纳就业的能力反而更强。对于学生使用ChatGPT写作业,胡老师也表示欢迎,因为能够学会并很好地使用新工具也是一种能力。不过,在拥抱人工智能这项新技术的同时,人类应该对人工智能给出的各种答案保有判断的主导权。

讲座结尾,与会学者围绕人工智能时代的学术规范、版权、人工智能与数字人文的关系问题展开了热烈的讨论。与会学者普遍赞同人工智能将对现有学术规则造成很大挑战,但具体如何规范,目前还没有一个完善的方案。人工智能与数字人文的侧重有所不同,二者不是相互取代的关系,而是并行不悖,共同助力人文学科的发展。

信息来源:北京大学人文社会科学研究院

二、位通:数字人文视角下的大规模文化遗产图像分析与利用

时 间:2025年4月3日(星期四)19:00
地 点:北京大学静园二院208会议室
主讲人:位通  北京大学信息管理系 助理教授
评议人:韩炳华 山西省古建筑与彩塑壁画保护研究院 研究员
主持人:史睿  北京大学中国古代史研究中心 副研究馆员

内容提要
在考古学、历史学、艺术史和古典文献学等领域,图像作为一种重要的信息载体,承载着丰富的历史和文化信息。这些图像资源不仅包括考古遗址的现场照片、历史事件的绘画、艺术作品的数字化影像,还涵盖了古代手稿、碑刻、青铜器等多种形式的视觉材料。这些图像信息不仅为研究者提供了第一手的视觉资料,也蕴含了大量待解读和分析的潜在价值。然而,由于这些图像资源的数量庞大、种类繁多,且其中包含的信息往往以非结构化形式呈现,如何高效、精准地对其进行标注和分析,成为了当前学术研究和应用中的一大挑战。为此,主讲人研发了格图智能数据化平台,实现数据标注、数据生产、数据分析、图谱生成的完整流程,从而对图像多层次、多维度分析。本报告将以先秦时期青铜鼎的器形演化为例,结合格图智能数据化平台,讨论如何处理大规模文化遗产图像及辅助人文研究,推动基于大规模图像分析的人文研究落地。

主讲人简介
位通
北京大学信息管理系助理教授、北京大学数字人文研究中心研究员,法国格勒诺布尔-阿尔卑斯大学计算机科学博士,2021年国家古籍数字化工程资助项目技术验收专家组成员,全国专业标准化委员会委员(TC86/SC5)。在图情/数字人文等领域权威期刊和会议已发表论文20余篇。参与起草1项中医古籍数字化标引团体标准,专利 1 项。担任 JISHeritage ScienceDSHTOTh 等期刊会议审稿人。主持国家自然科学基金青年基金1项、欧盟国际数字人文资助项目1 项、横向课题3项;作为学术骨干参与国家自然科学基金项目2项、2021年国家古籍数字化工程项目1项。主要从事数字人文、古籍数字化、知识图谱、文化遗产等交叉领域研究。

线上听讲渠道
我们将通过文研院视频号、b站和抖音平台,对本场活动进行线上直播。线上观众应尊重北大文研院及演讲人对本场活动音像内容拥有的版权,请勿录音、录屏或以任何形式在未经许可的媒介传播,侵权必究。

信息来源:北京大学人文社会科学研究院
北大講座.jpg
北大讲座.jpg
 樓主| 發表於 2025-4-6 18:05 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-4-6 18:09 編輯

中国大陆利用人工智能研究甲骨文、金文的主要团队及成果(修改稿)
(本文为笔者人工结合人工智能DeepSeek生成)

一、首都师范大学甲骨文研究中心莫伯峰教授

2019年,莫伯峰教授提出用计算机缀合甲骨作为“甲机会”的实验项目,2020年与河南大学联合研发软件“缀多多”,在甲骨学历史上首次实现了人工智能批量缀合甲骨。莫伯峰教授团队与微软亚洲研究院合作开发了基于自监督学习的甲骨文校重助手Diviner,系统比对了18万幅拓本,辅助甲骨学家在上百个甲骨文数据库中发现了大量甲骨重片,而且经过初步整理,已经发现超过300组未被前人发现的校重新成果。该软件可以让专家彻底摆脱这项繁重的整理工作。

二、清华大学出土文献研究与保护中心李霜洁助理教授

参与研发“JiaguCopilot”专家级甲骨学AI系统,该系统具备多模态能力和全智能化工作流程;研发“支点(LeverX)”古文字文献整理系统,该交互系统具备多种甲骨学新体例,已在甲骨整理实践中产生创新成果;研发了“知微缀(RejoinX)”,利用该人工智能文物拼缀系统,已发现超过50组甲骨新缀成果;研发了“镜界(SymmetryX)”,利用该系统可从计算角度发现甲骨文朝向对称不平衡新规律。

“知微缀(RejoinX)”发现超过50组甲骨新缀成果,参看:
1.李霜洁、蒋玉斌:《人工智能引导人类直觉产生的甲骨新缀第41-50组》(共同通讯作者),复旦大学出土文献与古文字研究中心网站(预印本),2024年10月23日;
2.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第32-40组》,复旦大学出土文献与古文字研究中心网站(预印本),2024年2月19日;
3.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第31组——续补殷墟卜辞中的贞人网络》,复旦大学出土文献与古文字研究中心网站(预印本),2024年2月4日;
4.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第21-30组》,《出土文献》2024年第2期,第17-23页;
5.蒋玉斌、李霜洁、杨熠:《人工智能引导人类直觉产生的甲骨新缀第1-20组》(共同通讯作者),《出土文献与古文字研究》11辑,上海古籍出版社,2024年5月,第162-177页。

三、复旦大学出土文献与古文字研究中心蒋玉斌研究员

蒋玉斌研究员承担了国家社会科学基金重大项目“人机协同的甲骨分类缀合研究”。截至最新统计,甲骨缀合成果已超7000组。其中,蒋玉斌缀合500多组,博士生杨熠缀合400多组,两人缀合总量接近学术界缀合总数的七分之一。

四、华中科技大学人文学院汉籍数字化实验室刘根辉教授团队

研发既掌握古汉语专业知识,又兼备古汉语应用能力,并支持多模态数据处理的多模态古汉语大语言模型——“AI九思2.0”。该模型能够更加高效准确地完成智能句读标点、词法分析、文白翻译、实体识别、通假识别及典故解析等古汉语文本理解任务,同时更加全面而深入地掌握了文字、音韵、训诂、方言学、目录、版本、校勘等古汉语多领域的专业知识,还能够实现对甲骨文、金文文字图片的智能识别与形、音、义释解。数据集已包含超过12亿字的古汉语文本语料、12000余条古汉语知识条目及37万余对古文字图像-释文对

五、华中科技大学软件学院白翔教授团队(联合华南理工大学金连文教授、安阳师范学院刘永革教授)

研发OBSD模型(Oracle Bone Script Decipher)利用扩散模型模拟汉字演变过程,将甲骨文图像转化为现代汉字图像,通过生成未破译甲骨文的现代汉字反推其含义。该模型在ACL2024会议上获最佳论文奖,是历史上第三篇以国内单位为第一单位获此奖项的论文。模型为未破译甲骨文提供字形或图像线索,显著提升破译效率,已应用于高通、Meta、华为等企业的系统。

六、厦门大学信息学院自然语言处理实验室史晓东教授团队

研发多元信息甲骨文辅助考释模型,基于多模态大模型(融合CNN、VAE、GAN等技术),整合甲骨文的音、形、义、用等多元信息,设计跨字体图像映射、甲骨字与现代汉字对译等任务,提升考释效率和准确性。构建了高质量多模态甲骨文数据集,解决数据稀缺和图像质量参差问题。研发轻量化考释系统,针对资源有限场景,开发端到端综合考释模型,结合字形结构分析、语义关联判断等技术,适用于实际考古与教育场景。入选“探元计划2024”:该项目获国家文物局支持,成为创新探索型项目TOP10,推动甲骨文研究的现代化转型。

七、吉林大学古文字古文物人工智能重点实验室李春桃教授团队

研发“吉金识辨·青铜器智能断代与辨类”程序,整理了大量青铜器数据,并对器物特征进行了详细标注,为智能模型提供了断代依据。实现两大主要功能:一是青铜器智能断代与分类,用户可上传青铜器图片,系统将自动判断出其类别、时代,并推荐五件相似器物作为参考,每一参考器物下会根据实际情况列出器物名称、著录出处、出土地、时代及现藏地等相关信息,方便使用者进行比较分析;二是青铜器数据库,用户可按照器类或时代浏览库中的青铜器,随时随地进行查看或学习。

参看:
1.李春桃、张骞、徐昊、高嘉英:《基于人工智能技术的古文字研究》,《吉林大学社会科学学报》2023年第2期。
2.李春桃、戚睿华、杨溪、周日鑫:《基于深度学习技术的青铜鼎分期断代研究》,《出土文献》2023年第3期。

八、河南大学计算机与信息工程学院张重生教授团队、古汉字研究所门艺研究员

研发缀多多甲骨缀合工具,通过AI匹配甲骨碎片,修复残缺文字。研发重多多甲骨校重软件,从海量拓片中识别重复甲骨,发现45组新重片,提升数据整理效率。技术方案获德国汉堡大学、慕尼黑大学关注,未来计划拓展至敦煌遗书、简牍复原等领域。

九、安阳师范学院甲骨文信息处理教育部重点实验室刘永革教授团队

研发殷契文渊平台,是全球最大甲骨文数字化平台,对16万片甲骨进行三维建模和微痕增强处理,AI自动筛选可缀合碎片,已成功缀合105组甲骨。推进甲骨文全球数字化回归计划,联合腾讯SSV等机构,推动跨国甲骨数字化采集与共享,目标5-8年内实现全球甲骨数字化回归。
 樓主| 發表於 2025-4-7 14:02 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-4-7 14:10 編輯

首届中国人文学科发展大会青年分论坛暨研究生东吴论坛:
人文学科的想象力:AI纪元青年跨界对谈

为推进全国人文学科建设发展和拔尖人才培养实践交流互鉴,中国人民大学与苏州大学拟举办首届中国人文学科发展大会——“中国的逻辑:人文学科与现代化”,并特设青年分论坛。分论坛以“人文学科的想象力:AI纪元青年跨界对谈”为题,希望通过搭建历史、哲学、文学、艺术与科技的多维对话场域,探索青年学者如何以专业核心素养为根基,利用AI实现跨界突围,构建跨学科方法论工具箱,重塑人机共生时代的价值体系,培育具有未来指向性的批判性思维,推动人文学科新发展。

青年分论坛由中国人民大学清风学社与苏州大学研究生会承办,大会时间5月17日-18日青年分论坛时间5月18日下午,地点苏州大学独墅湖校区。论坛设置对谈、圆桌环节,现面向海内外高校研究生公开招募,凡有相关研究经验者均欢迎报名,参考议题如下:

圆桌一 如何认知——文本远读与未来叙事

在大模型的帮助下,研究者将在文本挖掘、数据处理、情感分析、社会网络分析构建等方面获得突破性的进步,呈现出一幅新的时空图景,揭示深藏在纷乱文本中的隐秘联系。本圆桌旨在讨论人工智能如何改变我们的认知范式、AI生成技术对叙事的解构与重构、跨媒介叙事中的时空维度突破等议题。

圆桌二 如何跨界——全能技术与器道相生

在多语种、图像识别与修复、虚拟现实重建、音视频转换等多方面,人工智能具有高效、高质等多重优势。本圆桌旨在讨论文本翻译如何打破语种界限、古籍智能校勘的认知冲突与调和、文化遗产活化实验、历史事件的多模态重构、具身智能、数字档案伦理与集体记忆塑造、口述史研究的技术介入边界等议题。


圆桌三 如何创作——生成艺术与诗学革命

生成式人工智能的写作、创新能力对人文学科构成前所未有的挑战,从诗歌、小说到艺术创作,情感表达是否仍是人类灵性所绽放的独特花朵?本圆桌旨在讨论神经网络写作对抒情传统的冲击、文学风格迁移技术的著作权困境、跨文化符号数据库的构建路径、多维文本实验、AI人格化争议、非人类中心的创作生态构建等议题。

圆桌四 如何共生——算法伦理与人机协作

人工智能的设计、利用的过程中存在着多重伦理问题。本圆桌旨在从科技哲学的角度出发,讨论脑机接口、后人类语境下的主体性重构、机器学习中的道德判断建模困境、如何对抗信息茧房/算法偏见等议题。

挂一漏万、未能枚举,有意参会的青年研究生,请结合个人研究,提交至少一份对本学科研究方法/理论开展跨学科改造的方案,形式不限(如学术论文、调研报告、实验设计),回执中可只写摘要或设计思路,并于4月20日24:00填写参会回执发送至联系人邮箱。会议17日晚宴、17-18日住宿由主办方承担,交通费给予一定补助。

会议规模有限,主办方将组织选拔、择优录取。入选名单将在本公众号发布,敬请关注。联系邮箱:ai4h2025@163.com

中国人民大学清风学社
苏州大学研究生会
2025年3月31日


信息来源:中国人民大学清史研究所清风学社  
https://mp.weixin.qq.com/s/GIwBhxvZv4oyoITC7Hp0ew
 樓主| 發表於 2025-4-9 17:51 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-4-9 18:30 編輯

中国大陆古文字研究数智化相关文献、专利简目

数智化指数字化和人工智能化,本文各条总体上按时间倒序排列。

1.黄德宽:《新时代古文字学学科建构》,《历史研究》2024年第12期。
黄德宽先生指出虽然智能技术在古文字学领域运用尚处于摸索阶段,但古文字学交叉学科建设与智能技术的结合则是必然趋势。他认为贯通信息技术与古文字知识的高水平交叉学科人才最为紧缺,古文字学交叉学科人才培养,对古文字研究和学科建设具有决定性影响。他指出再先进的人工智能也只是古文字研究的赋能工具,对古文字研究和学科建设未来起决定作用的,最终还是要依靠具有交叉学科视野和创新能力的古文字学者。

2.付新然:《基于深度学习的甲骨文字检测方法研究》,硕士学位论文,吉林大学人工智能学院,2024年。
证明了将迁移学习的方法应用于古文字检测任务的潜力。

3.莫伯峰、张重生:《以多模态大模型推动中国古文字研究发展》,《中国语言战略》2024年第2期。
莫伯峰、张重生两位先生指出中国古文字研究与人工智能结合需走多模态之路。

4.徐加跃、李春桃:《大语言模型时代古文字研究的机遇与挑战》,《中国语言战略》2024年第2期。

5.李霜洁等:《数智增强的古文字文献新整理:以殷墟花园庄东地甲骨刻辞为例》,杜晓勤主编:《中国古典学》第5卷,北京大学出版社2024年,第67—86页。

6.李霜洁、蒋玉斌:《人工智能引导人类直觉产生的甲骨新缀第41-50组》,复旦大学出土文献与古文字研究中心网站,2024年10月23日。

7.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第32-40组》,复旦大学出土文献与古文字研究中心网站,2024年2月19日。

8.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第31组——续补殷墟卜辞中的贞人网络》,复旦大学出土文献与古文字研究中心网站,2024年2月4日。

9.李霜洁:《人工智能引导人类直觉产生的甲骨新缀第21-30组》,《出土文献》2024年第2期。

10.蒋玉斌、李霜洁、杨熠:《人工智能引导人类直觉产生的甲骨新缀第1-20组》,《出土文献与古文字研究》第11辑,上海古籍出版社2024年。

11.冯志伟、丁晓梅:《数字人文与语言研究》,《汉语研究》2024年第2辑。

12.沈竹士:《破译甲骨文,AI准备好了吗》,《文汇报》2024年7月25日,第7版。

13.赵振杰、代娟、王永乐:《将“模糊”的甲骨信息变“清晰”——访河南师范大学学术委员会副主任、甲骨智能计算文科实验室负责人李雪山》,《河南日报》2024年6月20日,第4版。

14.刘永革:《数字技术赋能甲骨文保护传承》,《河南日报》2024年1月10日,第5版。

15.李春桃、张骞、徐昊、高嘉英:《基于人工智能技术的古文字研究》,《吉林大学社会科学学报》2023年第2期。

16.李春桃、戚睿华、杨溪、周日鑫:《基于深度学习技术的青铜鼎分期断代研究》,《出土文献》2023年第3期。

17.莫伯峰、胡韧奋:《利用人工智能技术进行竹简编联的初步测试———以〈清华简〉为例》,《古文字与出土文献青年学者论坛(2019)论文集》,上海古籍出版社2023年。

18.武智融、莫伯峰、巩诗晨:《人工智能在甲骨文重片整理中的应用》,中国社会科学院先秦史研究室网站,www.xianqin.org,2022年11月30日。

19.微软亚洲研究院:《人工智能开启甲骨文整理研究新范式》,https://www.msra.cn/zh-cn/news/features/oracle-bone-script,2022年11月22日。

20.李春桃:《人工智能如何辅助古文字研究》,《光明日报》2022年10月30日,第5版。

21.莫伯峰:《“计算古文字学”正在路上》,《光明日报》2022年10月30日,第5版。

22.黄德宽:《开创新时代古文字学发展的新局面》,《语言战略研究》2022年第6期。

23.王军、刘成林、金连文等:《系列笔谈之四:智能时代古籍OCR技术》,《数字人文》2022年第3期。

24.耿立波、酆格斐、詹卫东、杨亦鸣:《中国计算语言学研究现状与展望》,《语言科学》2021年第5期。

25.胡韧奋、李绅、诸雨辰:《基于深层语言模型的古汉语知识表示及自动断句研究》,《中文信息学报》2021年第4期。

26.莫伯峰,张展:《计算机辅助缀合研讨一则》,《民俗典籍文字研究》第28辑,商务印书馆2021年。

27.陈双浩:《基于深度学习的甲骨文字检测与提取技术研究》,硕士学位论文,郑州大学信息工程学院,2021年。

28.莫伯峰、邱炜琦、谢泽澄:《人工智能模拟辞例归纳的初步测试》,《汉语言文学研究》2021年第3期。

29.闫升、刘芳、孙岱萌、李华飙:《博物馆基于人工智能的甲骨文知识普及与活化传承》,《中国博物馆》2021年第3期。

30.门艺、张重生:《基于人工智能的甲骨文识别技术与字形数据库构建》,《中国文字研究》第33辑,华东师范大学出版社2021年。

31.林小渝、陈善雄、高未泽、莫伯峰、焦清局:《基于深度学习的甲骨文偏旁与合体字的识别研究》,《南京师大学报(自然科学版)》2021年第2期。

32.莫伯峰、张重生、门艺:《AI缀合中的人机耦合》,《出土文献》2021年第1期。

33.吴振武:《古文字考释与人工智能》,《光明日报》2020年11月7日,第12版。

34.刘国英:《基于深度学习的甲骨文字检测与识别》,《殷都学刊》2020年第3期。

35.徐贵良:《基于语义分析的深度学习的甲骨文部首检测的研究》,硕士学位论文,江西科技师范大学电子科学与技术专业,2020年。

36.刘志基:《简析古文字识别研究的几个认识误区》,《语言研究》2019年第4期。

37.莫伯峰:《利用深度神经网络判别甲骨文字体的初步测试———以字形为依据》,故宫博物院编:《甲骨文入选“世界记忆名录”发布会暨“甲骨收藏与绝学振兴”高峰论坛纪实》,故宫出版社2019年,第151—162页。

38.莫伯峰:《利用深度神经网络进行甲骨文单字识别和检测的初步测试》,《出土文献综合研究集刊》第9辑,巴蜀书社2019年。

39.王慧慧:《大规模甲骨文数据集构建及算法研究》,硕士学位论文,河南大学计算机应用技术专业,2019年。

40.王浩彬:《基于深度学习的甲骨文检测与识别研究》,硕士学位论文,华南理工大学电子信息学院,2019年。

41.陈婷珠,吴少腾,吴江等.基于编码的甲骨文识别技术研究[J].中国文字研究,2019(1).

42.田芙荣,刘静静,陈方苇.基于CNN的文字识别系统设计[J].浙江树人大学学报(自然科学版),2019,19(03):12-17.

43.马海云,张忠林.基于并行遗传算法的古体汉字识别技术研究[J].中央民族大学学报(自然科学版),2019,28(03):9-12.

44.贡嘎顿珠,仁青诺布.基于图像处理的藏文文字识别技术研究[J].电脑知识与技术,2019,15(27):182+189.

45.张敬花,马海云,张忠林.一种多学科交叉的古典文献文字识别技术研究[J].中央民族大学学报(自然科学版),2019,28(03):56-60.

46.陈善雄,王小龙,韩旭等.一种基于深度学习的古彝文识别方法[J].浙江大学 学报(理学版),2019,46(03):4-12.

47.顾绍通.基于分形几何的甲骨文字形识别方法[J].中文信息学报,2018,32(10):138-142.

48.李文英,曹斌,曹春水等.一种基于深度学习的青铜器铭文识别方法[J].自动化学报,2018,44(11):105-112.

49.刘运通,高峰,焦清局等.基于刻辞网络关联度的甲骨字考释难度量化方法[J].科学技术与工程,2018,v.18;No.450(17):80-86.

50.武子毅,刘亮亮,张再跃.基于集成注意力层卷积神经网络的汉字识别[J].计算机技术与发展,2018(8):100-103.

51.张恺天.基于机器学习的文字识别方法[J].电子技术与软件工程,2018,143(21):253.

52.陈珺等.2017.一种古文字识别系统及方法.专利申请号:201710614296.X.

53.刘永革,刘国英:《基于SVM的甲骨文字识别》,《安阳师范学院学报》2017年第2期。

54.刘志伟.基于CNN网络的汉字图像字体识别[J].现代计算机:中旬刊,2017(2):67-70.

55.顾绍通:《基于拓扑配准的甲骨文字形识别方法》,《计算机与数字工程》2016年第10期。

56.李志勇,高峰.基于知网的甲骨文可拓模型建模技术[J].计算机与现代化,2015(5):30-34.

57.熊晶,高峰,吴琴霞.甲骨文大规模基础数据的语义挖掘研究[J].数据分析与知识发现,2015,31(2):7-14.

58.高峰、吴琴霞、刘永革、熊晶:《基于语义构件的甲骨文模糊字形的识别方法》,《科学技术与工程》2014年第10期。

59.陈荣赏,开金宇,冯杰.利用Matlab对甲骨文视频输入材料预处理研究[J].哈尔滨商业大学学报:自然科学版,2014(3):374-377.

60.吴琴霞,高峰,刘永革.基于本体的甲骨文专业文档语义标注方法[J].计算机应用与软件,2013,30(10):60-63.

61.李尚婕等.2013.一种甲骨文自动识别方法.专利申请号:201310480306.7.

62.孙阳光、何坚韧:《联机手写汉字识别系统中特征提取方法研究》,《计算机光盘软件与应用》第24期,2012年。

63.袁冬,熊晶,刘永革.面向甲骨文的实例机器翻译技术研究[J].数据分析与知识发现,2012,28(5):48-54.

64.吴琴霞,栗青生.基于有向笔段甲骨文输入方法的设计与实现[J].计算机应用,2012,32(8):2374-2377.

65.栗青生、杨玉星、王爱民:《甲骨文识别的图同构方法》,《计算机工程与应用》2011年第8期。

66.吕肖庆、李沫楠、蔡凯伟、王晓、唐英敏:《一种基于图形识别的甲骨文分类方法》,《北京信息科技大学学报》2010年第12期。

67.毛建军.甲骨文献全文数据库的建设与思考[J].图书馆学研究,2010(12):37-3.

68.刘永革,李雪山.甲骨文数字化平台建设[EB/OL].http://www.guoxue.com/?p=5338.2009.8.18.

69.陈丹、李宁、李亮:《古文字的联机手写识别研究》,《北京机械工业学院学报》2008年第12期。

70.门艺.甲骨文献的信息化与利用[J].兰台世界,2008.

71.顾绍通,马小虎,杨亦鸣.基于字形拓扑结构的甲骨文输入编码研究[J].中文信息学报,2008,22(4):123-128.

72.张霄军、陈小荷:《古文字自动识别过程及其程序实现》,《中国文字研究》第7辑,广西教育出版社2006年。

73.江铭虎,邓北星,廖盼盼,张博,严峻,丁晔.甲骨文字库与智能知识库的建立[J].计算机工程与应用,2004,(04):45-47+60.

74.肖明,赵慧,甘仲惟.甲骨文象形码编码的模糊数学模型研究[J].计算机工程与设计,2004,25(3):358-361.

75.刘永革,栗青生.可视化甲骨文输入法的设计与实现[J].计算机工程与应用,2004,40(17):139-140.

76.周新伦、李锋、华星城、韦剑:《甲骨文计算机识别方法研究》,《复旦学报(自然科学版)》1996年第10期。

77.周新伦、李锋、华星城等:《甲骨文计算机识别方法研究》,《复旦学报(自然科学版)》1996年第5期。

78.李锋、周新伦:《甲骨文自动识别的图论方法》,《电子科学学刊》1996年第12期。

79.朱敬国:《手写甲骨文在线识别的模糊数学模型》,《第二届中文信息处理国际会议论文集》,清华大学出版社1987年。

80.童恩正、张陞楷、陈景春:《关于使用电子计算机缀合商代卜甲碎片的初步报告》,《四川大学学报》1975年第2期。

(注:不完整待完善,点击下方pdf文件可下载部分论文)

大规模甲骨文数据集构建及算法研究-王慧慧.pdf

8.03 MB, 下載次數: 580

博物馆基于人工智能的甲骨文知识普及与活化传承-闫升.pdf

2.56 MB, 下載次數: 632

AI缀合中的人机耦合-莫伯峰.pdf

1.51 MB, 下載次數: 609

中国计算语言学研究现状与展望-耿立波.pdf

742.78 KB, 下載次數: 713

以多模态大模型推动中国古文字研究发展-莫伯峰.pdf

290.79 KB, 下載次數: 762

新时代古文字学学科建构-黄德宽.pdf

1.74 MB, 下載次數: 592

系列笔谈之四:智能时代古籍OCR技术-王军.pdf

2.48 MB, 下載次數: 597

数字人文与语言研究-冯志伟.pdf

3.57 MB, 下載次數: 612

人工智能在古文字研究中的应用及展望-莫伯峰.pdf

2 MB, 下載次數: 523

人工智能模拟辞例归纳的初步测试-莫伯峰.pdf

455.72 KB, 下載次數: 739

破译甲骨文,AI准备好了吗-沈竹士.pdf

286.62 KB, 下載次數: 777

刘永革:数字技术赋能甲骨文保护传承-谢建晓.pdf

127.39 KB, 下載次數: 865

开创新时代古文字学发展的新局面-黄德宽 (1).pdf

1.11 MB, 下載次數: 610

将“模糊”的甲骨信息变“清晰”-赵振杰.pdf

68.88 KB, 下載次數: 933

简析古文字识别研究的几个认识误区-刘志基.pdf

348.84 KB, 下載次數: 743

基于深度学习的甲骨文字检测与提取技术研究-陈双浩.pdf

5.81 MB, 下載次數: 538

基于深度学习的甲骨文字检测与识别-刘国英.pdf

533.58 KB, 下載次數: 676

基于深度学习的甲骨文字检测方法研究-付新然.pdf

5.28 MB, 下載次數: 551

基于深度学习的甲骨文检测与识别研究-王浩彬.pdf

4.57 MB, 下載次數: 620

基于人工智能技术的古文字研究-李春桃.pdf

2.01 MB, 下載次數: 601

基于人工智能的甲骨文识别技术与字形数据库构建-门艺.pdf

1.11 MB, 下載次數: 681

古文字自动识别过程及其程序实现-张霄军.pdf

538.64 KB, 下載次數: 700

 樓主| 發表於 2025-4-9 18:16 | 顯示全部樓層
本帖最後由 张宇鑫 於 2025-4-9 18:18 編輯

中国大陆古文字研究数字化与人工智能化发展简述

本文由笔者人工结合DeepSeek生成。

#### 一、发展历史与阶段

1. **早期探索(20世纪70年代—2000年)**  
   中国古文字数智化研究始于20世纪70年代,复旦大学周新伦团队率先尝试甲骨文计算机识别技术,提出基于图论的自动识别方法。20世纪90年代,数字化工程逐步展开,如《四库全书》光盘版、《国学宝典》等数据库的推出,初步实现古籍检索功能。

2. **技术应用期(2000—2015年)**  
   随着机器学习技术的兴起,研究转向自动化处理。例如,安阳师范学院刘永革团队开发“殷契文渊”平台,实现甲骨文三维建模和微痕增强处理。吉林大学李春桃团队开始探索青铜器智能断代技术。

3. **智能化突破期(2016年至今)**  
   深度学习技术的引入推动研究进入新阶段。首都师范大学莫伯峰团队与微软亚洲研究院合作开发甲骨校重助手“Diviner”,辅助发现300余组新校重成果。清华大学李霜洁团队研发“知微缀(RejoinX)”系统,实现50组以上甲骨新缀合。多模态大模型(如“AI九思2.0”)和扩散模型(如OBSD)进一步提升了古文字识别与考释能力。

#### 二、技术成就与难点

**主要技术成就**  

1. **智能化处理技术**  
   - **图像识别与分类**:基于卷积神经网络(CNN)的甲骨文识别准确率超80%。  
   - **残片复原**:AI辅助甲骨缀合效率提升30倍,如“知微缀”系统发现50余组新缀合。  
   - **多模态分析**:华中科技大学“AI九思2.0”整合文字、图像、语义信息,支持甲骨文形、音、义释解。

2. **数据平台建设**  
   - 安阳师范学院“殷契文渊”收录16万片甲骨数字化数据;  
   - 北京大学“识典古籍”平台整理古籍超1万部,文字识别准确率96%。

3. **跨学科方法论**  
   - 提出“计算甲骨学”概念,结合考古学、语言学与计算机科学,推动古文字研究范式革新。

**技术难点**  

1. **数据稀缺与标注困难**  
   古文字数据集规模小且异体字繁多,如甲骨文仅释读约1500字,标注成本高昂。  

2. **算法局限性**  
   复杂字形(如青铜器铭文)难以被标准模型识别,需依赖迁移学习和数据增广。  

3. **跨学科人才缺口**  
   黄德宽指出,贯通信息技术与古文字学的高水平人才稀缺,制约技术应用深度。

#### 三、未来方向与技术突破重点

1. **多模态融合**  
   推动文本、图像、语义的多模态大模型研发,如“AI九思2.0”和OBSD模型,实现古文字形义关联分析。

2. **人机协同深化**  
   莫伯峰提出“人机耦合”模式,AI辅助学者完成重复性工作(如校重、缀合),人类专注于创造性考释。

3. **数据共享与标准化**  
   需建立统一的数据标准(如《甲骨文合集》数字化规范),避免重复建设,推动跨国合作(如甲骨文全球数字化回归计划)。

4. **轻量化与场景适配**  
   开发适用于考古现场或教育场景的端到端模型,如厦门大学团队轻量化考释系统,提升技术实用性。

5. **公众参与与文化传播**  
   通过“我是校书官”等众包项目,吸引公众参与古籍整理,结合AI工具降低古文字学习门槛。

#### 五、总结

中国大陆古文字数智化研究已从早期数字化迈入智能化阶段,技术成就显著但挑战犹存。未来需以多模态技术为核心,深化人机协同,培育跨学科人才,推动古文字研究从“冷门绝学”向“数字人文”转型,为中华文明传承提供新动能。
您需要登錄後才可以回帖 登錄 | 立即注册

本版積分規則

簡帛網|手机版|小黑屋|

GMT+8, 2025-6-6 08:55 , Processed in 0.045673 second(s), 14 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表