本篇文章4247字,读完约11分钟
目前,事实地图在描述行业事件时空新闻方面是独一无二的,这个逻辑图结构直观地展示了行业知识的链接新闻。 从学术角度看,事件地图与事件提取、事件关系提取、脚本学习、事件链生成、篇章和句子关系识别、地图结构操作等多个研究方向密切相关,具有很强的理论和技术挑战性和研究价值。 与学术界不同,工业界重视事实地图的实施,即抽象技术理论与实际业务场景的结合。 目前,业务地图积累了一定的经验,积累形成了400w规模的全领域业务地图,实现了从行业业务到行业知识地图(企业知识地图、产业链知识地图)的路径。 在此基础上,我们不断地寻求应用场景。 以下是我们正在尝试或将要讨论的应用点。
目前,事故报警是利用事故地图进行应用的尝试,事故报警是面向商品行业的重要新闻报警产品。 通过监控上千个领域的网站,实时收集相关情况,提取和识别新闻事件,将事件与事件地图上的事件联系起来,结合情感分解技术、文案标签技术、文案重要性评价技术来影响新闻。 最后,实现了定制地标的预警新闻过滤和基于预警新闻的影响跟踪搜索。
如图1所示,对收集到的新闻进行评价,对该新闻可能带来的影响产生影响。 为了证明影响最终结果的原因,给出了影响所遵循的原因图链,如显示在页面右侧的原因图的缩略图等。 单击业务图的缩略图可以访问详细的新闻页面
如图2所示,页面表示新闻全文,它影响事件(可以支持全屏点击和扩展显示)。 。 页面的右侧以类似的方式列出了与当前新闻事件的影响相关的历史新闻。 这样,试图将历史事件的影响应用于当前的新闻推荐和风险预警。 事前警告是应用例子之一。 此外,还尝试将事件图应用于其他行业,如复制理解可视化系统。 欢迎继续我们关注的工作
可视化技术是自然语言解决技术在新闻提取和新闻行业中的关键技术,涉及到文案分解、数据挖掘、数据可视化、计算机图形学、人际关系等理论途径。 通过这项技术,人们可以从更大的拷贝中解放出来,更好地理解许多复杂的拷贝、结构和内在规则。 目前,拷贝可视化方法[1]包括基于此产品的可视化(标签云)。 互联网图、后缀树和链接图显示了拷贝的内在联系。 网络图反映了文案之间饮酒等外部关系。 事实地图与拷贝可视化技术相结合,可以为拷贝可视化提供一种新的插入图像描述方法。
其次,比较两种可视化方法。 一是从副本中提取关键词,识别命名实体(人名、地名、机构名),识别事物,形成知识互联网。 如图3所示,该互联网展示模型可以利用知识实体、实体所属的知识类型、实体之间的隶属关系来展示副本的结构化新闻。
另一个是抽出文案的实质性的事情,抽出事情之间的关系,形成事情的链接,图4表示比前者更具有逻辑和时空性。
事实图本身描绘了具有时空属性的关系知识,但在我们的现实生活中,具有时空属性的例子(包括系列、空间系列)很多。
5根据列车网内所有列车的新闻,共有t形头列车564辆、d形头列车3712辆、c形头列车1538辆、g形头列车3011辆、k形头列车2968辆、z形信息事件检测模型头列车354辆、l形头列车418辆、y形头列车55辆、s形头列车30辆 这些列车沿既定路线行驶,形成巨大的有向电路图。 只要标记该有向电路图的相关边,就可以形成以车站为节点的列车旅行区域服务图。 基于这个商业地图,我们可以进行各种有意义的探索。 可以根据一个地方,在理论上的时间,然后在酒店、换乘等其他地方触发动作。 有助于我们的路线计划和推荐。
6其实火车票、公共汽车票、机票、城市新闻等在网上也比较全面,为旅游行业的应用场景提供了数据基础。 目前,我将在旅游行业的知识图谱上尝试这个构想。 参考:
目前时事通信已广泛应用于目前的流媒体中,是事件潮流的一种方式。 新闻稿包括副本的第一个语句、副本摘要和基于特定模板生成的副本。 其中,文案的第一句是截取正文的部分,文案的摘要一般是根据其他方法在文案中找出最重要的句子。 基于特定模板的方法接近于元数据的句型生成,通常需要事先手动进行。 事件地图通过对行业信息报道(主要是叙事性的)的事情进行建模,为时事通信的生成提供了另一种可能性。 例如,体育信息的比赛过程和地震报道的地震救援重建过程。 基于行业办公模式,事情的走向会更好。
连续事件流可以基于连续的语料库,提取特定实体的事件线,形成以实体为中心的连续事件流。 这持续是很重要的,和特定的时间、实体有关,类似于维基百科人物的大事记。 如下图7所示。
7维基百科大事记的显示模式主要有两个缺点。 一是粒度太大,可以进一步细分。是手动方法,自动化不够。 因此,从大规模的历时语料库中提取事物可以实现许多有兴趣的应用。 关于英语,可以采用1851年以来建立的纽约时报和纽约时报的继续语料库。 关于中文,有《人民日报》语料库,从1953年到现在已经有60多年了。 腾讯信息等主要网络信息媒体从2006年至今已有12年的持续语料库,为提取持续事件和事件提供了依据。 图8和图9分别显示了第一次世界大战和第二次世界大战的过程。
8基于这样的技术,我们可以形成历史事物潮流的知识库。 基于这个知识库,我们可以支持百科知识补充、人物事件检索、问答等服务。
图9 摘要事实图谱本身就是学术概念和学术热点,其中相关的技术细节和相关学科方向决定了这个研究问题本身的难度。 在实际研究中,会发现事示、事关系识别、行业事演化模型建模等许多技术问题。 就像现在的知识图谱一样,我们必须承认这一点。 但是,如何结合应用测试事实地图,进一步推动技术进步,可能是一条出路。 为了应对这个问题,本文首先介绍我们目前正在尝试的应用场景,包括信息警告、副本可视化、事物监控、抽象生成、历史事物流程生成等,欢迎大家讨论,并指出大家的批评。 如果有协助请求的话,等待着您的联络。 推进了业务地图相关技术的进步和在实际应用场景中的应用。
唐家瑜、刘致远、孙茂松。 拷贝可视化研究综述[j]。 计算机辅助设计与图形学杂志,25(3):273-285。
二? sa = IRCT = jq = esrc = = ved = = www.tiger moon.com.uk/products /世界一号时间轴=位移144 z 89 c9ion
谷歌. HK/URL? sa = IRCT = JQ = ESRC = s source = images CD = ved =2HukewJBKJN _ PBFAHVS5RwkhevwBMuqhXX6Bagbemurl = ww.creative Ducation .。 全球热线/面板= av VAW 144 z 89 c 9开启_4Wu hlj6z最大值= * * 50928
作者介绍:
中科院软件研究所的刘焕勇主要从事新闻提取、社会计算、知识地图、物联网等的研究与开发。 如果在自然语言解决、知识图谱、物质图谱、社会计算、语言资源建设等方面有问题和合作的话。 可以联系作者:
1 .我的github项目介绍: lihuangyong . github . io
2 .我的csdn博客: blog.csdn/lhy
3 .关于我:刘焕勇,中国科学院软件研究所,lhy_in_blcu@126
头像
虽然现在受欢迎的热点已得到认可,但实际上人们越来越关注如何在大量的副本中找到热点。 这不仅包括对实体事物的提炼,还包括抽象的新闻挖掘和顾客行为的反馈。
热点是什么?
热点是指经常引起关注,广泛参与讨论,引起公众情绪,在社会(或某些行业)引起强烈反响。 一般来说,我知道很多人在讨论这件事。
推荐系统的目的是传播客户感兴趣的信息。 但是,热点是与普通信息不同的数据。 即使对娱乐信息不感兴趣,马蓉和王的爆料出来的时候,他也会去看。 这是出于人们对爆料的好奇心,二是在我们世俗的社会里,谈资的诉求不断积累。
所以,热点的事情来了,垂直方向的有趣追求减少了,可以说热点本身就很有趣。
热门文案的分布不仅反映推荐系统的媒体属性,还能增加推荐的新奇性,防止有趣的统一。
俗话说,及时发现热点,找到和书写与热点相关的文案,然后发给每个人。
为什么要确定热点?
热点跟踪和灵敏度是反映介质介质属性是否较强的标准之一。 优秀的媒体必然对热点有足够的灵敏度,及时发现热点,迅速报道热点,提出有价值的热点深度跟踪,以满足信息顾客对热点的关注。
因此,在机械时代,如何在海量数据中发现热点,及时推送给客户是一大难题。
如果能够主动识别热点并及时推送到客户手中,就能联系到兴趣和客户的广泛传播,了解网络上的大量流量,从而为应用程序带来越来越多的利益。
1 .基于通信的热点发现
简单来说,通过监控大规模人群的新闻传播,一件事在某个时间段从一个节点迅速传播到多个节点,呈现指数级的-level增长,就会发现这个热点。
因为这是基于大的搜索引擎,所以应该很好理解。 时间,在某个地区,搜索更多的人,那个事情的搜索量急剧增加,那个事情也会被发现。
但是,很遗憾,我们不能实现这两点。 一是我们没有顾客的社会属性,没有信息传播途径。 另一个是客户缺乏主动行动。 虽然有搜索界面,但是实际上搜索的客户很少。 因此,采用上述做法是不可靠的。
当然,分解以上的本质是顾客的反馈,可以更好的发现。 我们用自己的数据进行了这样的尝试,利用客户的新闻监视有电涌行为的信息,并对这些信息进行分类,从而发现了可能的热点。 但是,这有很大的技术难题,另一个是信息时间长度特征的丧失,特别是对于热点,必须每分钟努力。 经过这样的计算,热点很可能正在扩大。 其实对我们的信息顾客来说,这个时候发现热点毫无价值,流量被分配。
1 .获得受欢迎的文章
既然不能主动提取热点的事情,就尽量直接获取热点的事情。 第一,我只想到了一件事。 既然热点的事情可以基于搜索和传达及时得到,就发挥“接受主义”吧。 事实上,有很多提供这种实时热点的地方,如百度贴吧、微博热搜、搜狗热搜等。 然后,等你自己发现。
a .夺取
定期抓住这些单词应该很难。 只有非常有限的副本,需要每隔一个获得。 通过与上次的数据进行对照,可以更早地知道那些事件的语言和句子是可用的。 这个做法很简单,得到的热点很多,但效果可能有点差,也有一定的时间延迟。
b .操作
信息敏感的运营商必须手动添加。 这样可以减少热点,但几乎可以忽略延迟。
这里也构建了热点类别、热点老化、热点分类等热点属性。
标签: #信息事件检测模型
标题:“信息事情检测模型”
地址:http://www.hongyupm.com/gnyw/10310.html