站内检索

研究者社会网络搜索与挖掘系统ArnetMiner
作者:余有成 发表时间:2014年09月26日

  ArnetMiner(简称AMiner,http://aminer.org)是我国自主知识产权、具有国际影响、以人为中心的研究者社会网络搜索与挖掘系统。系统采用自然语言处理和社会网络分析与语义搜索等技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现与趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐等众多功能,为研究者提供更全面的领域知识和更具针对性的研究话题与合作者信息,为研究者提供全面的学术信息获取及交流服务。

  AMiner系统是国内最早研发、也是至今访问量最大的研究者社会网络搜索与挖掘系统,自2006年开始在线运行,已收集了400多万论文、200多万研究者数据,吸引了全球220多个国家和地区的400多万独立IP的访问,累计访问量已超过1亿3千万次,并且还在持续以平均每月10%的速度增长。

  在系统的理论基础方面,AMiner课题组对学术社交网络发展面临的挑战展开研究,重点探索学术社交网络中的影响力、社交网络结构的形成机理以及学术创新在社交网络中的传播规律。相关研究成果在国际会议/期刊发表论文数十篇,获得发明专利授权7项。介绍系统核心技术的论文发表在数据挖掘顶级会议SIGKDD’08上。另外,提出异构网络排序学习模型,发表在SIGKDD’09上。

  学术社交网络是社交网络中的重要分支,对科学技术进步和学术发展起着至关重要的作用。目前已有的学术搜索系统,例如Google Scholar、Cite Seer等,主要针对信息内容本身提供服务,搜索与用户需求相似的论文。然而社交网络的迅速发展使得传统的以信息为中心的需求开始向以用户为中心进行转变。近年来出现了一些学术社交网络系统,例如Research Gate、Mendeley等,开始提供学术社交功能,包括用户之间的文档收集和分享,然而仍然没能回答学术社交网络中的核心问题:1)从信息网络空间和社交网络空间的交互来看,创新是如何从信息空间传播到社交空间以及网络用户是如何创造新的内容的;2)从社交网络用户的交互来看,网络社区是如何通过用户交互来形成的以及信息内容是如何在不同社区内以及社区之间传播的。AMiner研发组成员已将相关理论研究成果应用于系统中,通过大规模的在线社交网络,帮助研究者了解研究领域的总体概况,掌握学科研究中的关键技术和面临的挑战,并提供基于个性化需求的全球研究工作最新动态获取服务。

  系统获得国家863项目、自然科学基金、博士点基金、以及多项国际合作项目的支持。系统在多个顶级国际会议上进行演示,得到业界的普遍认可和好评。系统还为全球最大出版社Elsevier及KDD’10-13,IJCAI’13,PKDD’11,ICDM’11-12等20多个国际会议提供论文-审稿人自动分发和专家搜索服务。英国南安普顿大学专注Web科学研究的专家Tiropanis等人撰写的综述文章中多次提到ArnetMiner系统:“Arnet Miner is the most representative example of such tools at the moment…”;爱尔兰著名研究机构DERI资深研究员P.Buitelaar等人在论文中提到:“we now compare Saffron with Arnet Miner,a well-known state of the art academic researcher social network search tool”。系统在国家政府部门、业务部门和相关合作的国际和国内公司得到广泛应用。获得了良好的社会和经济效益。

  AMiner的系统架构如上图所示。总体上,系统包含以下层次:

  数据层:目前,AMiner已从DBLP,ACM等学术论文数据库中收集共400多万论文信息,并从互联网中收集了论文所对应的200多万名研究者的个人信息。

  社交网络提取层:系统从研究者个人首页中提取其相关背景资料,从论文信息中提取研究者合作关系及论文的文本信息,对研究者信息进行同名消歧后,得到一个完整的学术社交网络。这一层的核心技术包括基于条件随机场(Conditional Random Fields)的语义信息抽取方法,以及基于概率图模型(Graphical Probabilistic Model)的同名排歧方法。

  社交网络数据存储层:在这一层中,系统对提取获得的论文文本信息和网络结构信息分别进行处理。在文本信息方面,系统对论文建立话题模型,从中挖掘论文所隐含的话题分布。在网络结构方面,系统利用关系数据库对网络数据进行存储,所得到的知识库为AMiner的上层算法及应用提供高效数据查询与修改的支持。这一层的核心技术包括基于话题模型(Topic Model)的异构网络建模方法。

  学术社交网络建模与分析层:该层包含了支持AMiner上层应用的核心模型与算法,包括:基于迁移学习的异构网络排序(Transfer Ranking)算法,对根据用户给定的查询关键词搜索得到的专家、论文、以及会议进行排序;概率因子图模型(Factor Graph Model),用于识别网络中不同类型的关系(如师生关系,合作关系等)。

  应用层:该层包含了AMiner提供的科研服务,包括:研究者语义信息抽取、面向话题的专家搜索、研究者可视化分析,权威机构搜索、话题发现与趋势分析、学术指标定量分析、基于话题的社会影响力分析、即时社会关系图搜索、文献与审稿人推荐、研究者的线上社交以及交互式文献阅读等。

首页投稿广告关于我们联系我们

版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号

地址:北京市海淀区中关村北四环西路33号 邮编:100080

联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn