看了这么多期参赛队伍的播报~让大家心心念念的大赛非正式访谈终于来了!
今天我们邀请了一位人工智能同名消歧赛道的重量级嘉宾为大家分享他的参赛心得以及一些参赛小建议
受访者介绍
——陈波
中国人民大学信息学院计算机应用技术硕士
主要研究方向为多源知识图谱的融合与实体链接
在IJCAI,CIKM等顶级会议上发表过相关论文
2020.07.06
星期一
科学研究的进展及其日益扩充的领域
将唤起我们的希望——诺贝尔
Q:我们知道同名消歧的研究在学术界和产业界有着诸多应用,本次赛题任务是学术论文的同名消歧,能否请您具体谈一谈同名消歧在学术论文管理中应用的意义与价值?
A:线上学术平台的论文消歧是一个典型同名消歧的应用场景。由于论文数据来源的多样化导致数据内部结构的杂乱,并且庞大的线上作者库使得同名的情景十分复杂。所以现有学术系统内部的论文分配算法具有局限性,论文分配存在着不少的错误。
此外,每天都会有大量新论文进入系统。如何准确快速地将论文分配到系统中已有的作者档案以及维护作者档案的一致性,是线上学术系统亟待解决的难题。而良好的论文消歧结果是确保学术系统中专家知识搜索有效性、数字图书馆的高质量内容管理以及个性化学术服务的重要前提。
Q:本次比赛的数据集由AMiner提供,您也在AMiner从事相关的工作,能谈下在具体工作中同名消歧的效果目前能达到什么样程度?
A:现在AMiner的同名消歧主要有两个方面,一个是找出并清除用户历史论文中的分配错误,以维护用户档案的一致性;第二个是论文的增量消歧,AMiner平均每个月将会有50,000篇新论文入库,需要准确而又快速的论文分配算法。
而这两个方面又相互联系,即只有保证用户档案的一致性,才能更为准确的分配新增论文,不然就会造成错误积累。对于第一个方面,目前主要使用错误检测算法以及给用户提供自我修正的接口来动态维护用户的历史档案。
对于第二个方面,AMiner使用了我们之前一篇增量消歧论文(https://arxiv.org/abs/1910.12202)的类似思想。目前能够分配出去的论文中,90%左右都是正确的。但线上场景较实验场景还是更为复杂,还是需要更加完备的同名消歧算法来提升论文分配效果。
Q:谈一谈本次比赛的数据集,本次比赛发布的OAG-WhoIsWho数据集在同类数据集中有哪些亮点?
A:最大的人工标注同名消歧数据集:现有的大部分相关研究都是利用数字图书馆的论文消歧结果,例如CiteSeerX[1], Web of Science[2]等,由于数字图书馆已有的消歧结果大多是由不完善的论文消歧算法所分配的,所以不可避免的会有分配错误的情景,给数据集带来噪音。
另外一些工作在现有消歧结果的基础上使用人工标注纠错,这样可以大大提升数据的准确度,但是由于这种方法十分耗费人力,所以大多工作只标注了小部分数据用于研究,例如,[3]标注了7528个作者等。
就我们所知:OAG-WhoIsWho是目前为止发布的最大的人工标注同名消歧数据集,第一批发布421个人名, 45,187个相关作者以及404,244篇论文;第二批发布231个人名,13,662个作者以及221,802篇论文,目前为止累计发布超过600,000篇论文。
除此之外,我们计划以增量的方式分批次发布的人工标注的数据集并辅以OAG-WhoIsWho系列竞赛。
[1].B. Zhang and M. Al Hasan. Name disambiguation in anonymized graphs using network embedding. In Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, pages 1239–1248, 2017.
[2].T. Backes. The impact of name-matching and blocking on author disambiguation. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, pages 803–812, 2018.
[3].J. Tang, A. C. Fong, B. Wang, and J. Zhang. A unified probabilistic framework for name disambiguation in digital library. IEEE Transactions on Knowledge and Data Engineering, 24(6):975–987, 2012.[36]
Q:在本次的比赛任务中,有哪些做题技巧和建议给参赛选手们?
A:对于两个赛道,都是需要基于论文的原子属性特征去进行比较,度量。需要注意的是,论文的不同属性是有着不一样的特性的,与其用统一的相似度度量不如去区分不同属性的作用,分别定义度量标准,这样才能取得更好的效果。
此外对于赛道二来说,还加入了NIL的场景,此时将候选作者的排序和NIL的判断分开决策,往往会比端到端的处理取得更好的效果。具体可以参照我们之前的一篇论文(https://arxiv.org/abs/1910.12202)。
《全国高校参赛队伍非正式访谈》#持续报名中#
想要参与访谈的团队扫描海报二维码
联系链想家的商务小姐姐哟
更多精彩阅读