中央研究院语料库在学界的权威性是毋庸置疑的。它由台湾中央研究院历史语言研究所开发,选材均衡、语料加工严格,在汉语研究领域应用广泛。其古汉语语料库涵盖上古、中古、近代汉语,并且有标记语料库可供检索,为学术研究提供了可靠的数据支持。比如,中央研究院汉语标记语料库被用于古汉语自动分词和词性标注的研究,标签正确率可达到 95%,这充分证明了其数据的可靠性和实用性。
在上古汉语研究平台中,“古音小镜” 是一个值得关注的平台。它由个人创建、运营,是非营利性的历史语言学知识共享网站。该平台囊括了中国传统语言学各领域的重要材料,内容丰富广泛,呈现形式新颖多元,并且提供多种实用工具,如韵书查询、可视化工具等。例如,它推出的《诗经》韵系联、假借字系联、汉语字音时空关联等统计及可视化功能,在众多语言学数据库中独树一帜。此外,“古音小镜” 还在不断更新,如 2022 年 1 月添加了《古字通假會典》的全部假借字,显示其持续扩展和优化的特点。
汉达文库的甲骨文资料库也是一个重要的上古汉语研究平台。它由香港中文大学中国文化研究所古文献数据库中心开发制作,设置多个便捷的检索途径,除提供全文字句、著录号检索外,还支持布尔算符、截词符、位置算符共三种检索算符,并且提供选词检索方式。该数据库还提供甲骨图文对照展示模式,使释文依照原文字体大小显示及所在位置排列,方便用户进行研究。
“殷契文渊” 平台同样具有特色。它是由安阳师范学院甲骨文信息处理教育部重点实验室和中国社会科学院甲骨学殷商史研究中心合作建设的非营利性网站,是专门性质的甲骨文资源大数据平台及数据检索分析技术支撑的一体化网站。该平台整合了甲骨字形库、甲骨著录库、甲骨文献库,利用图像分割技术和文档分析技术整理著录文献内容,并可结合 OCR 技术加以识别。在此基础上,还利用知网的 “知网节” 技术构建了甲骨文知识网络,消除了信息孤岛,实现了三库的链接功能。
“小学堂文字学资料库” 也是一个不可忽视的平台。它由台湾大学中国文学系、中央研究院历史语言研究所等共同开发,是一个形、音、义综合的文字学资料库。该平台收录的字形涵盖甲骨文、金文、战国文字、小篆及楷书,总数超过 22 万字;收录的声韵资料涵盖上古、中古、近代及现代,总数超过 134 万笔。用户可根据文字的形、音等属性先检索出字头,再透过程字头连接到个别形、音、义资料库或字书索引,并且链接了多个外部数据库,如教育部异體字字典和香港中文大学的漢語多功能字庫。
国学大师网则是一个集成古典图书的平台,收录古典图书 2 万种 28 万卷约 24 亿字,支持全文检索和作品名、作者及卷标等多种检索方式。该网站还自带古文字典、康熙字典、新华字典和汉语词典,方便用户阅读古文。
在使用教程方面,中央研究院语料库的检索方法较为多样。以中研院现代汉语标记语料库为例,用户可进行单条件检索和多条件检索。单条件检索包括关键词、重疊词、词类和特徵的检索。关键词检索支持中文字、?(表示一个任意字元)、*(表示零至无限多个任意字元)等符号组合。重疊词检索包括 AAB、ABB、AABB、ABAB 四种类型。词类检索可选择四十六种词类,特徵检索可选择九种特徵。多条件检索包括 and 检索条件和 or 检索条件,用户可同时设定多项条件进行检索。
“小学堂文字学资料库” 的检索流程也较为简便。用户在 “字形” 栏中键入汉字,点击 “確定送出” 提交请求,即可跳转到相关页面。对于研究古文字字形的用户来说,页面中最重要的部分是各类古文字字形的资料库链接,用户可点击小篆、金文、甲骨文、楚系簡帛文字、秦系簡牘文字以跳转到相应资料库做进一步查询。同时,用户还可依照下方给出的 “相關索引”,按图索骥,快速定位到包含该字的文字学著作的相关页面。对于古文字隶定字中的缺字问题,用户可在字形框中用半角括弧 () 包住缺字的部件进行检索。
“古音小镜” 的使用也有其特点。以假借字系联查询功能为例,该功能基于白于藍《簡帛古書通假字大系》和高亨、董治安《古字通假會典》两部作品,收录了大量假借字对。用户可通过该功能检索假借字,程序会在声符之间画出连线,形成声符网络,有助于研究假借字之间的关系。
总之,中央研究院语料库具有较高的权威性,而上古汉语研究平台各有特色,用户可根据自己的研究需求选择适合的平台。在使用过程中,可参考各平台的使用教程,充分利用其功能,提高研究效率。该文章由dudu123.com嘟嘟 ai 导航整理,嘟嘟 AI 导航汇集全网优质网址资源和最新优质 AI 工具。