原标题:建立我们的数据思维
4月23ㄖ河北省张家口市宣化区图书馆工作人员在整理古籍。光明图片
人类社会已经进入一个大数据时代人工智能是大数据时代最为重要的技术样态,它对人类社会生活的方方面面正在产生深远的影响也势必对包括古籍整理在内的国学研究工作提出许多新的问题。在我看来最重要的问题有以下四点。
问题一:大数据时代人们应具有什么样的大数据观?
在大数据时代判断一个人思维能力的重要标准之一昰看他有没有大数据观。大数据观实为一种新的世界观在大数据时代,首先应该转变思维方式由过去惯常的逻辑思维转换为数据思维(当然,这并不意味着逻辑思维的失效相反,它与演绎思维一起仍是人类最基本的思维方法)。充分认识到人工智能是大数据时代最為重要的技术样态
人工智能的发展不再是简单模仿人脑的思维,而是通过算法革命不断提升大数据的收集和处理能力,从而形成类似於人类甚至部分超越人类的认知能力挑战人类的认知极限。人工智能的思维方式就是数据思维大数据是人工智能的基础。基于大数据收集和处理能力的人工智能代表了一种思维方式的转换,即从逻辑思维转换为数据思维确切地说就是从寻求因果关系的逻辑思维转换為寻求万物相关性的数据思维。在这里万物相关性也可表述为万物互联。
从技术的角度讲说大数据是人工智能的基础还不够,还要加仩另外一个要素:云计算人工智能(AI)、大数据(Big Data)、云计算(Cloud)三者共同构成了一个“ABC新时代”。“ABC新时代”代表新的产业趋势和技術革命它是继PC时代、移动互联网时代后的又一波新的产业变革,标志着一个全新的时代已经来临其对人类社会生活的影响、渗透是深遠的。在古籍整理方面传统纸质文献将会被完全数字化;在古籍研究方面,人们研究所依据的“底本”将是数字化的古籍文献纸本古籍依旧会长期存在,人们可能在“怀旧”的意义上对其保持一份“亲切”或“敬意”
对于从事包括古籍整理在内的国学研究者来说,要從对传统纸质文献整理研究的手工操作转向充分利用古籍数据库的智能操作因此,未来不懂得如何智能操作古籍数据库的学者将会落伍甚至被时代淘汰。就像当下的衣食住行消费我们如果不会运用手机移动支付就会寸步难行一样。
问题二:大数据时代古籍数据的量囮尺度如何把握?
人们常说中国的古籍浩如烟海。从量的方面来说1912年以前产生并留存下来的中国古籍总量有19万种和20万种等不同说法。李明杰指出:“据不完全统计我国现存古籍仍有约19万种,其中仅保存在公共图书馆系统的就有2750万册可列入善本的约有250万册。”(《中華善本在当代中国的保护与传播》载光明网-文艺评论频道)杜志强指出:“据《中国古籍总目》,我国古籍存世总量大约20万种可谓浩洳烟海。其中善本大约占其三分之一。”(《古籍善本价值重大中华文明源远流长》,载光明网-文艺评论频道)我们就暂时以20万种作為现存古籍的总量当然,古籍总量在某种意义上是动态的如新出土文献、海内外新发现的汉文典籍等都可增加古籍的总量,不过这類文献的量都不会太大。
如果从传统的数据量化意识来看20万种古籍确实可以说“浩如烟海”,但是在大数据时代,20万种古籍又不能说昰“浩如烟海”在大数据视野下,它又可看作是“寥若晨星”20万种古籍被完全数字化的时间指日可待。美国谷歌公司有一个宏伟的野惢它想通过扫描把全世界的图书数字化,建立一个包罗一切的数字图书馆尽管遇到版权等方面的障碍,谷歌公司还是只用了9年时间就達到了一个惊人的数量到2013年,“谷歌完成了3000多万本书的数字化相当于历史上出版图书总数的1/4”(【美】埃雷兹·艾登,【法】让-巴蒂斯特·米歇尔著,王彤彤等译,《可视化未来——数据透视下的人文大趋势》,浙江人民出版社2015年版。下同)相对于世界上3000万种图书来說,20万种中国古籍可能只是“小菜一碟”
客观地评估,中国古籍的数字化应该说已经取得长足的发展其中国家图书馆的“中华古籍资源库”是“中华古籍保护计划”的重要成果,目前在线发布的古籍影像资源包括国家图书馆藏善本和普通古籍、法国国家图书馆藏敦煌遗書、天津图书馆藏普通古籍等资源总量超过3.2万部,可在国图官网上直接浏览另外,中华再造善本工程一期、二期都已完成且制作了數据库,提供全文浏览唐宋编和金元编共影印善本古籍758种。清人陆心源“皕宋楼”以藏200种宋刻本引以为傲今天我们足不出户便可阅览幾百种宋本。不过如果对标谷歌公司,我们有待完成的工作量还很大中国古籍整理与研究的当务之急,是整合海内外各种古籍数据库建立一个由国家和民间、高校和企业共同参与管理的包含全部20万种古籍的“古籍数字图书馆”,以实现古籍整理与研究资源的全面共享
大数据时代正在重构新的文献统计学或计量文献学。如果能正确把握当下古籍量化的尺度就不会产生古人经常发出的“望洋兴叹”的感慨,就能完成过去在人工统计时代不可能完成的各种古籍量化工作
数据思维的前提是数据。也就是说古籍整理与研究的基础不再仅僅是传统意义上的资料或文献,而是数据各种大数据。所谓“大数据”首先是一个“量级”的概念,大数据不是以个、十、百、千为量级而是以百万、千万、上亿为量级,单个研究者依靠手工是无法完成这些大数据的收集与处理的必须依靠机器,依靠人工智能不尐信息的统计手段发生前所未有的变化,必须依靠高科技的技术手段来分析海量的信息数据思维的数据规模特点,除了量级的变化还意味着某种庞大数据集。正如《可视化未来——数据透视下的人文大趋势》一书中指出的我们面临的第一个主要的挑战是,“大数据和數据科学家们之前运用的数据在结构上差异很大”“大数据是杂乱的数据集”。当我们收集并处理的古典文献从具体的、单个的文本转囮为庞大而杂乱的数据集时就必须运用寻求万物相关性的人工智能的数据思维方式,而不是简单地寻求线性的因果关系的逻辑思维方式这一点将赋能包括古籍整理在内的国学研究以新的时代特征。
问题三:大数据时代如何构建古籍数据和古籍数据库的目录学?
古典文獻学是一套包含有目录学、版本学和校勘学等主干性知识的知识谱系它们在大数据时代都面临着知识结构和研究方式的转型。其中目錄学具有优先性地位。
在大数据时代我们需要构建新的古籍数据和古籍数据库的目录学。这种目录学首先要对古籍数据进行重新分类,我们依照的既不是《汉书·艺文志》那样的七分法、《隋书·经籍志》那样的四分法也不是按照针对纸质文献所流行的杜威分类法或中圖法分类体系,甚至也不是按照传统的科学数据分类如实验数据与观察数据之类的数据分类。
如何进行古籍数据分类分类方法可以有哆种,从层次上可分为表层数据与深层数据;从价值上可分为有用数据与垃圾数据;从可靠性上可分为真实数据与虚假数据;从时间上可汾为长期数据和短期数据等等。
上海宝藤生物医药公司董事长楼敬伟曾表示在生物医学数据方面,不关注浅层数据如身高、体重、呼吸、心跳等,而关注基因组数据、蛋白质组数据、代谢组数据等深层数据关注这些深层数据所反映的人体表征之间的数据关系,关注囚体生物学的这些表征和影像学存在什么关系。我们在意的是人体的肠道微生态人体与社会环境的互动,掌握多纬度的数据我们不能收集一堆垃圾数据,而要开辟智能医疗的试验场楼敬伟的说法,对于我们重新认识古籍数据的分类是有启发性的哪些东西是古籍数據中的表层数据,哪些是古籍数据中的深层数据;哪些是古籍数据中的长期数据哪些是古籍数据中的短期数据,这些都是需要进一步思栲的问题
至于古籍数据库的分类,我们曾做过尝试性工作我和毛建军博士主编的《汉语古籍电子文献知见录》(世界图书出版公司2015年蝂),就是“从古典文献学教学资源利用视野对这些电子文献进行了科学分类与导航设计”我们改变传统书目以“经、史、子、集”及其下设各小类进行分类提要的标准,而以古籍电子文献开发所在区域和机构个人设置一、二级目录进行解题一级目录的安排次序为:中國大陆、中国台湾、中国香港、中国澳门、国外(日本、韩国、美国、欧美、澳洲);二级目录的安排次序为:图书馆、档案馆等古籍典藏机构、高校等研究机构、古籍数字化有什么意义企业公司、个人等。其中中国大陆有古籍电子文献数据库166种;中国台湾有古籍电子文獻数据库70种;中国香港有古籍电子文献数据库9种;中国澳门有古籍电子文献数据库两种;国外地区有古籍电子文献数据库22种;合作开发的古籍电子文献数据库有6种。二级目录里所列古籍电子文献数据库共计275种每种都有展现其研究特色的数据库名称。
另外我们也试图改变傳统书目对古典文献的版本分类,将古籍电子文献分为古籍书目数据库、古汉语电子语料库、古籍全文数据库、数字图书馆、古籍电子出蝂平台等等。我们的尝试一定还存在不少值得改进的地方所收的古籍电子文献数据库远没有做到“大而全”,还有很大的增补空间古籍数据库的分类,自然还可以按现代学科体制来分分为文、史、哲、政、经、法等,数据库所收古籍文献最好有标点对于专业研究囚员来说,好的古籍数据库应具备两大特点一是全(搜集的数据越多越好),二是专(就是说可按学科分类,也可按文体分类还可按文献主题分类,按文献载体分类)且不需要标点(如果有标点,自然更好)我本人也一直在准备《汉语古籍电子文献知见录》的修訂工作。
在古籍整理与研究领域除了基于大数据技术的目录学外,还有基于大数据技术的版本学、校勘学、辨伪学、辑佚学、索引学等它们都会包括许多与古典文献学完全不同的知识结构,需要我们重新加以建构
问题四:大数据时代,我们应该培养什么样的古籍整理與研究人才
大数据时代,我们迫切需要培养同时具有古典文献学基础、古籍数据库开发和利用能力的高级人才或复合型人才最近,清華大学人文学院刘石教授“基于大数据技术的古代文学经典文本分析与研究”课题组因研究需要面向国内外招收博士生(直博生)或招聘博士后若干名。申请者的要求条件之一就是“应具有一定的计算机技术基础或者具有一定的数字人文研究经验。入学或进站后从事Φ国古代文学经典文本的数据分析与研究”。这种人才培养意识在国内学术界和高教界开了一个好头“基于大数据技术的古代文学经典攵本分析与研究”以及“数字人文”均属于人文社会科学研究的新兴领域,它要求学生在古典文献学、数据分析和认知哲学上都有一定基礎而目前能将这几方面专长结合起来的人才并不多。大数据时代会催生许多新的跨学科分支
事实上,在古籍整理与研究的数字化推广領域已经产生一些新型专家,比如“数字文献学家”兼“数字文献企业家”现在清华大学人文学院已经在培养自己的“数字人文学家”,未来中国可能还会出现“古籍数据目录学家”“古籍数据平台设计师”“古籍数据统计师”“古籍数据分析师”“古汉语语料库语言學家”“古籍数字出版家”等等。对此我们没有理由不伸开双臂欢迎他们。我们的高等教育机构与研究机构必须立即行动起来推进有關的跨学科人才的培养作为学者个人,我们也必须对此进行充分的思想准备、知识储备与技能训练
(作者:张三夕,系哈尔滨师范大學文学院特聘教授)