瞿卫军 邓仪友(原文刊载于:《竞争情报》2006年秋季刊)
摘要:专利信息学(Patinformation)是专利与信息学相融合而发展起来的一个新概念。本文对这一概念做出了明确的定义,并简要叙述了其原理。此外,文中还对专利信息分析的一般规则和基本流程进行了阐述。
关键词:专利信息学 定义 原理 专利分析
计算机和网络等信息技术的进步,对当今的社会发展产生了深刻影响。自然科学与信息学的融合,大大拓展了人们的认知和研究领域。例如生命科学与信息技术的碰撞,产生了以计算机为工具对大量生物学数据进行检索、储存、加工和分析为主要内容的生物信息学。该学科正逐步成为21世纪自然科学的核心领域之一。与此类似,随着以专利为核心的知识产权在科技创新和经济社会发展中的作用日益显著,由专利与信息学相融合而产生的“专利信息学”(Patinformation)的概念应运而生。本文即在时任Vertex制药公司高级研究员的安东尼•特里普(Anthony J. Trippe)发表于《检索员》(Searcher)2002年第9期上的文章:“专利信息学:从无到有的寻觅”(Patinformatics: Identifying Haystacks from Space)的基础上编译而成。该文首次对这一新的概念做出了明确而详细的定义。
一、专利信息学的定义
专利信息学,指的是利用计算机方法对专利信息进行分析,从而发现若用一篇一篇专利文献分析可能难以看出的那些关系和趋势的科学。这个术语的含义包括了以下各种形式的专利信息分析:
专利情报——利用专利信息来确定某机构的技术能力,并利用该情报来制定技术发展战略中的策略;
专利地图——有时也称之为空白区域图,它是利用已公开的专利数据绘制出与特定主题或新发明相关领域的形象化图表等;
专利引证分析——在相同或完全不同的市场空间内,基于某机构的专利被另一家公司引证的情况进行的专利引证关系研究,其目的是为了大致确定专利的价值,或者更确切地说,确定潜在的许可伙伴或线索。
此外,专利信息学还包括对所获取的各种专利信息、专利情报等的深入分析和应用。
从上面的定义可以看出,这一概念至少包括了两层含义:一是对海量信息的收集和整理,也就是要管理好这些数据;二是要通过分析发现在表象掩盖下的事实和规律,也就是要用好这些数据。
二、专利信息学原理
当我们对专利信息学进行更详细的探讨时,可以将不同的分析方式划分为两大类,即:数据挖掘(data mining)和文本挖掘(text mining)。
数据挖掘,是指从指定域内的数据中抽取出有用的信息并对其进行分析。通常,这意味着对专利中所包含的著录项目信息进行分析。比如说,有人可能想考察某一特定技术领域专利权人和国际专利分类号(IPC)之间的关系。挖掘或描绘该信息可得知这一技术领域内的主要参与者以及他们通常所关注的具体技术内容。如果使用德温特数据的话,还可以用德温特手工代码代替IPC来进行类似分析。
文本挖掘或绘图,一般涉及在所包含的主要技术构思的基础上将文件分类。其数据源是未经过组织的文本,它没有被域化,这些材料唯一的结构来自于作者撰写它们时所采用的方式,以及他们在不同的构思和概念之间如何建立起一种联系。比如说,你可以收集某一特定专利权人的所有专利文献,并对这些文献的文本进行分析。在一幅聚类图中,借助计算机软件可以从这些文献中提取出主要的构思,并根据这些构思将文献分类。之后,计算机软件还可以通过某种方式将这些聚类形象化,绘制成图。通过观察这些聚类(以及随后考察涉及的文献本身,当然这时文献是以某种方式组织过的),可以很快得知某机构所从事的工作的概况,以及这些工作在内部是如何关联的。
进行数据挖掘或文本挖掘的效果如何,通常取决于分析员对所分析的数据源的熟悉程度,例如对数据的结构、内容、具体项目的含义等的了解,以及制作和分析这些数据的方法。数据挖掘或文本挖掘得越成功,所获得的有用信息和情报就越多。
三、专利信息分析的一般规则
专利检索是专利信息分析过程中的一个重要且必不可少的步骤。作为相关领域工作人员的一项基本技能,许多人对专利检索的方法和过程都有比较清楚的了解。一般人可能想象用于进行专利检索的规则同样也适用于专利信息分析,但情况完全不是这样。就象在物理学中,量子力学描绘的原理可以用于理解微观世界,而牛顿力学原理适用于大分子世界的大运动物体。我们可以类似地区分处理专利信息的两种不同方法。传统的专利检索针对的是微观水平,其中即使非常小的变化也会变得极其重要,详尽和精确是必须的。而专利信息学处理的是成千上万篇文献,在这样一幅大图象中,小的细节将被忽略,受关注的是更为宏观的数据信息。
专利检索员和专利分析员之间存在明显的差别:检索员被训练成要在大海中捞针,而分析员则是希望从广阔空间中找到有用的东西。对于专利信息分析的一般规则,通过专利检索和专利分析这两种方法的对比,可以展示得更为清晰。
1. 专利分析的检索结果表现为一组数据,而不是一个精确的点。
专利分析员也必须进行专利检索,但其采用的方法与专利检索员有很大的不同。专利检索员通常关注的是绝对精确,有时甚至要进行复检,尤其是对于与检索主题不大相关的数据。专利检索员将花费巨大的努力找出他们的客户需要的准确的参考文献。有时他们检索的目标可能就是要确定一篇文献。事实上,压根没有发现任何相关文献也可能是一个令人满意的结果。检索员在一项检索任务上花费数天、数周、甚至数月的时间以寻找一篇特定结果的情形并不少见。他们的检索策略常常是极其复杂的,会涉及很大的关键词检索式,还会广泛使用到数据库的特定索引代码。检索员将从大量的数据开始,逐渐加入更详细的限定条件,从而将数据组缩窄到最有可能引起其客户兴趣的那些目标上。
比较起来,专利分析员也可以使用复杂的检索策略,并尽可能定向检索。但一般他们都希望创建一个全面的数据组,以用作随后的分析步骤的基础。分析员也会使用大量关键词和特定数据库索引,但他们更可能采用一个使检索结果较为宽泛的策略,而不是将结果锁定到一个精确的点。只要检索出的数据或多或少与目标有关,数据组中留有一些不相关的内容不会造成什么妨碍,因为基线上面的小的偏差不会被看到。从统计学上讲,进行分析时要求有足够的数据来揭示趋势和关系,因此专利分析员宁愿看到过多的数据,而不是缺乏数据。检索结果过于具体可能导致数据误差。重要的是要让数据自己说话,而不能让检索员构建数据组时已先入为主的想法来指导分析。
当检索员开始进行专利分析时,需要克服的最困难的事情就是要学会调整他们不自主地试图进行定向、具体检索的习惯,以便得到不带偏差和主观性的数据组。在这种情况下,数据组可能膨胀到包含数千条记录。检索员平常不会保留这么大的数据组,因为在以前要处理这么多的信息对于终端用户来说是非常困难的。不过能处理大数据组的计算机分析工具的使用已经使得这项工作不再那么复杂,也不必再以此阻止使用积极的检索策略。
2. 专利分析过程中的综述是一个构建数据仓库的过程,目的是为下一步的数据分析工作奠定良好基础。
专利检索员和专利分析员在数据综述以及随后的分析阶段里的差异不象在检索阶段那么引人注目。检索员在将数据打包并将信息发送给终端用户之前,通常都会对他们所创建的文件组作一个综述。检索员可以简单地快速浏览一下数据,找出能删除的明显有误的数据而不必担心客户会遗漏它们。以同样的方式还可以从剩余的数据组中摘出绝对切中目的的数据,将它们放置到检索报告不同部分的突出位置上。对于较大的文件组,例如100-500条记录的,检索员可以手动浏览一下标题列表,标出他们认为与客户需求相关的文件。检索员所进行的分析主要看其对主题的熟悉程度以及他们理解客户需求的水平。
在这种情况下,重要的是检索员已经花费一定时间与研究队伍进行交流,并且对于该检索项目的技术内容有清楚的理解。检索员对于客户的需求和项目的技术特点越熟悉,筛选出合适文件的工作就能做得越好。这种情形下的分析是检索员站在他的角度评估终端用户可能认为的更相关信息时作出的一种判断。根据该项目的敏感性,检索员在作出他们的判断时可以有一定的弹性。有些客户会只要求检索员将结果发送给他们而不需要任何综述,另一些客户则会期望检索员筛选出所占比例较高的结果,并只把排在前面的一些结果送给他们仔细阅读。对于检索员来说,分析和综述通常被作为一个步骤。
另一方面,专利分析员则把综述和分析看作是目的和方法不同的两个步骤。分析员必须将综述步骤当作是构建一个数据仓库,要检查其中数据的完整性,并确定它是准确明了的。实际上,这项工作的第一部分可能涉及与检索员所进行的没什么两样的综述工作,只是不会那么详细,也不用排除与主题相差较远的那些结果。此时精确性并不是关键,因此综述过程可以相当快速地完成。当分析员多少确信他们已得到了基本与主题相关的数据后,就可开始构建数据库的过程。通常这包括将数据导入到一个软件工具中,并进行检查以确保该过程平稳进行,数据可以为随后的分析阶段所用了。
分析员将浏览该数据库,偶尔取出几个数据样本看一下,确定信息是在正确的域里,且格式是正确的。根据数据组的大小,这个过程可能要花费相当一段时间。几百个文件可以很快地看过去,但是当数据组扩充到包括数千个文件时,这就可能变得非常耗时了。构建完数据库后就完成了综述过程,可以开始数据分析了。关于进行专利分析的具体细节将在随后的部分中讨论。
3. 专利分析完成后所展示的工作成果是可以作为决策依据的各类情报。
最后,检索员和专利分析员将以非常不同的方式把结果呈现给他们的客户。检索员的主要工作成果是一些参考文献或专利文件。他们的检索报告中一般会包括对检索目的的概述,进行检索的方法,所使用的数据库,这些数据库所覆盖的时间范围,以及参考文献本身。该报告可以根据相关程度、文件类型或出版日期等将结果分类列在不同部分。根据检索员能提供的关联性分析的程度,该报告将反映出其创作者的专业技能。
当专利检索员呈现的是大量结果时,有时报告看起来就象是原始数据的堆积。最终用户不得不逐篇阅读按照反向年代顺序排列的上百、甚至可能是上千篇文件,根本无法区分第5条结果与第535条结果。他们会发现很难看出数据反映出的趋势或模式,看第100条记录时和看第4条记录时会得出不同的观点。人脑也很难在查看上百篇文件时发现其中的若干变量。然而,计算机则可以客观地衡量一组变量,而不管它们来自哪篇文件,并且可以鉴别出数据反映出的模式。
分析员一般会拥有许多能帮助他们确定模式和趋势的计算工具。经过分析后,信息变为了情报。情报是分析员的主要工作成果。与交付信息不同的是,专利分析员将用所提供的数据展开工作,在分析的基础上得出结论,并把这些结论提供给企业决策人员。分析员一般会相当深入地涉入决策制定过程,并被看作是顾问而不是中间人。在大多数情况下,企业决策人员并不希望获得大量的数据。他们希望数据能经过编辑和分析,列出不同的情况,显示出它们相应的优势和挑战所在,以便决策者能够迅速地得出结论并采取行动。因此,分析员的结果通常是几张幻灯片而已,其中概略地描述了商业需要,在调研基础上的假设,分析的结果,以及最终对于采取不同行动可能产生的不同结论的一些看法。
四、专利信息分析的基本流程
一项完整的专利信息分析工作,通常需要经历从了解需求、准备工具到采集信息、综合分析等一系列过程。该过程中的每一个步骤都有不同的目的,每一个步骤完成的好坏,都会对最终结果产生重要影响。
1. 创建一套专利信息分析的工具
如前所述,专利信息分析可包括专利地图、引证分析、同族专利分析、主题分析、时间序列分析等各种分析技术。很明显,没有任何一项分析工具能够完成上述所有的分析课题。为了成功完成专利信息分析的全部工作,实践者需要根据商业上的需求最大限度地提出各种问题。因此,专利信息分析人员应当购置大量工具和资源。这种方案是迅捷的,同时也是昂贵的。所以,分析者必须理解可能提出的各类问题,并准备好能满足相应分析需要的工具。
2. 理解商业上的需求以及隐藏在需求背后的因素
当开始一项分析课题时,分析员通常需要从尽可能多地理解分析意图着手。正如专业信息人员所熟知的,客户在提出信息要求时常常很难准确表达出他们的真实意图。客户经常会提出:“我们需要知道Y公司的每一项事情。”与这一论调同样奇怪的是,针对上述要求的回答可能是:“不,你不能。如果你那样做的话,恐怕需要动用一辆铲车来运送所有数据,而且将花费6个月的时间来处理这件事情。并且,最后你对于试图了解的东西可能还是同开始时一样不甚了了。”
在专利信息分析中,开始任何事情之前充分理解商业上的需求是绝对必要的。了解该需求背后的其他各种因素同样非常关键。分析者需要知道如何使用这些数据以及谁将使用这些数据。分析者应该做到,当客户收到他们的工作成果时能够理解得了它,并且将它们应用到商业实践中时能够带来最大的商业机会,因此分析者需要以符合上述要求的方式来描述他们的成果。与所有专业信息人员一样,上述原则对于分析者来说是绝对重要的。对分析范围以及分析目的的不正确假设,可能导致分析误入歧途,并产生不正确的、极端情况下甚至会误导商业决策的信息。分析者在分析过程中应当扮演一个值得信赖的建议者的角色,并且需要尽可能地接近决策过程,这样他就可以将对商业需求的充分理解融入到自己的分析工作中。
3. 根据需求设定问题
分析员一旦很好地理解了商业上的需求,他就可以和客户一道去组织各种各样的问题,以提供将影响企业决策的情报。比如说,某企业可能需要更多地了解一家特定公司(再次以Y公司为例)的研发进展情况。这时,了解Y公司在美国的十个不同研究机构的研发项目就是一件很有意义的事情。更进一步可提出的问题可能还包括:作出这些美国专利的发明人现在住在哪儿?哪些专利题目更接近基础科学?哪一个机构提交了更多的方法发明?通过提出许多建设性的问题,并在这些问题上面花费一番功夫,分析员可以开始绘制出一幅与商业上的需求相关的动态图像。通过考察这些动态图像,他就能得出自己的结论。
4. 根据问题筛选数据
一旦分析者确定了需要回答的问题,下一步就必须开始收集相关的数据,就象科学家研究一个科学问题一样。这里我们可以参考一下科学研究的方法,这个过程包括形成假设、进行实验以确定假设的有效性、验证实验的有效性以及在实验结果基础上得出结论。在专利信息学领域,收集数据就类似于准备一项试验去支持或者是推翻一个假设。这个过程中,选择合适的工具是非常重要的。
5. 根据数据选择工具
要回答某些问题可能需要非常特殊种类的数据。在这种情况下,所选用的工具不仅必须满足分析的需要,同时还必须符合用于回答这些问题的最佳数据的要求。还是以前面的例子为例,如果提出的问题是Y公司的美国专利的发明人住在哪儿,那么用于分析的数据就应该包括出现在所有美国专利文献首页上的发明人的地址信息。也许更加重要的是,这些数据必须以电子版本形式获得,以便能导入到合适的分析工具中。如果一个工具不能处理包含了发明人地址信息的数据格式文档,那么它就不能用于回答上面的问题。
而且,由于分析步骤是以一种线性方式进行的,那么分析者所采用的工具可能使得对某一路径的偏离导致对所需回答的问题的偏离。如果某机构集中使用某一种分析工具,那么后来的所有分析就可能受到该分析工具的长处或缺陷的影响。正如一句古谚所说的:“如果锤子就是你拥有的一切,那么每样东西看起来都会像是钉子。”
在专利信息分析中,应当坚持的一项原则是分析结果的实用性。这是指如果将分析结果用于解决商业问题,特别是用于作出商业决策时,它应当是有用的。专利分析不能是为了分析而分析。如果一份报告只是被放在决策者的办公桌上落满灰尘,那它一开始就不值得去做。分析者不能陷入在他们的工作中进行创新和展现自己的聪明的陷阱中。分析者必须将他们的工作集中于使得决策者能够清楚地看到他所能够采取的各种方案,并且在这些可选择的方案中投入足够的精力,以支持一个清晰、明确的决策。如果分析结果可以很好地被用于商业决策,那它就是实用的。