首页 > 热点资讯 >新闻内容

终端安全进入自适应数据安全运营时代

2021年06月02日 11:36

2021年,将是数字化转型过程中及其重要的一年!

世间万事万物都存在有规律的节点,这一年不仅将是世界格局的转折点,还将是很多行业生死攸关的转折点,更将是无数普通人逆袭的绝佳之年。

如果一个时代,让你觉得不适、焦虑和充满危机,惶惶不可终日,说明什么呢?说明它是一个正在激变的大时代。

很多人觉得社会已经越来越成熟,大佬割据的格局已定,创业机会已经很少,实际上真正的颠覆才刚刚开始。

机会永远不会消失,只会从一个产业转移到另一个产业,一群人转移到另一群人。总有一些拥有敏锐商业嗅觉的投资人和创业者把握住了机会,并不断刷新着创富神话!

中国经济的上半场结束了,经济的下半场正在开辟,在面临疫情和国际压力的双重背景下,数字化已经成为了的国家战略,数据已经作为生产要素越来越得到重视,这一蓝海市场的发展带来了新的机遇。

在今天所有的不确定性中,数字化趋势是最确定的!数字化趋势中,数据安全就是数字化转型的新基建!

那么,数据作为生产要素后,数据安全领域未来的风口到底在哪里?未来的发展趋势怎样呢?

数据安全早已不是新鲜话题,尤其是进入云时代之后,云架构让传统数据的安全边界崩塌,一切都可能成为渗透到核心数据的安全威胁,这是数据面临的最大安全问题。海量高价值的数据信息,包括个人客户数据资料、财务信息、企业商业机密、核心代码、设计图纸、机密文件等,最容易成为有意和无意泄漏泄密的对象。

很多组织已经开始意识到了数据安全问题,从多方面增加各种防护措施,但依然不容乐观。

目前,网络连接一切,基于大数据和云计算的检测、分析和响应技术成为主流。网络边界的概念完全被打破,安全不再割裂,所有的安全问题都可归结于数字安全问题。一切安全都是数据安全,一切风险都是数据风险。

零信任无边界自适应的数据安全运营就成为了方向!

终端安全发展简史

终端安全是网络安全发展史上浓墨重彩、不可无视的一笔。

终端安全主要包括两个概念:其一是关注内外网边界的安全、其二是关注内网的安全,即所谓的“外部防入侵、内部防泄漏”策略。

终端安全在应用环境中的实际需求如下:

所有组织内部的数据只要存在就有泄密的隐患

任何类型的数据和电子文档内容都有可能泄密

任何数据的接触者都有可能成为泄密源头

任何数据应用过程的全链路全生命周期的环节都可能成为泄密渠道

数据的应用行为都可能引起内容扩散泄露

目前,国内绝大多数组织大多也都仍然依据上图在开展安全防护技术体系的构建,基本上是包括防病毒管理、安全桌面管理、网络准入管理、终端防泄漏管理等多个细分模块。

但是,一方面,由于这些模块相互独立,难以统一管理,无法做好数据安全趋势分析,大多数解决方案也难以做到区分对待和细颗粒度管理,“一刀切”等粗暴的管理逻辑使得企业用户感觉自己的行为受限、受监控,通常会产生抵触情绪。

抵触情绪,使得用户很容易将日常应用中发生的问题一股脑都推到终端安全软件的身上,使得产品在推广过程中阻力重重,不少企业的终端安全因此最终成为了摆设或者干脆弃之不用。

另一方面,为了博用户的眼球,或者为了满足客户的不懂装懂的要求,或者为了控标而有意无意的行为,很多终端安全管理还增加了大量与办公自动化相关的客户化产品功能。

这样的结果是,感觉似乎功能强大,能博得一些客户的眼球,但却造成每一个企业级终端安全产品实施都成为一个“出力不讨好,黄胖炒年糕”的苦差事。过程艰难不说,而且效果不佳。

去年,有客户找到我,说是能否用我们的“自适应数据安全运营平台”帮助他们解决实施了一年未能成功上线的项目?我看了他们的实施实际后发现,他们的失败就是原因主要有二:

一是源于数据安全过多的增加了与其它系统、其它品牌的功能,导致多个不同品牌的产品实施后,为了解决技术冲突或产品融合的问题,项目实施人员殚精竭虑,不知道哪里会出毛病,哪朵云彩会下雨。供应商吃苦不说,用户方也差点因为这原因而导致项目以失败告终。

二是由于采用的供应商的解决方案只能关注边界的安全,无法预知数据在内部的流转引起的不安全问题,等到了边界的时候,常常是文件或者数据已经变得系统无法识别了,基于边界的终端安全防护就形同虚设了。

知道问题的关键后,我们的“自适应数据安全运营平台”在一周内就完成了客户的上线。

再一方面,绝大多数终端安全是基于边界的防护,它们的防护手段相对单一和粗暴一些,它们主要就是在边边界防护进行阻拦或者审计等。但是,目前的数据泄密,来自内部的数据风险急剧的增加,传统基于边界的防护却很难检测或跟踪。

复杂系统的不稳定性,数字世界安全的高度统一性,决定了终端安全的特性将从伴生需求走向内生需求。

终端安全将会从以安全管控、监测为主的事件驱动,即威胁防御模式转变为向威胁与风险驱动的模式,零信任无边界自适应将是主要的安全防护模式。

控制已经不再是目的,动态权限管理、实时风险识别、数据扩散风险态势、数据资产管理、数据安全运营、行为分析等将成为数据风险控制的主要目标,自动化的接入或拒绝终端访问,更细粒度的动态授权,智能化的识别、操作溯源、在数据离开边界前就识别风险的存在、AI智能分级分类、风险态势和扩散态势、加密、沙箱、隔离、远程定位等将会成为终端安全管理的内在需要,并直接嵌入终端设备。

网络安全和终端安全的差别:

终端安全性是关于保护流程、业务数据和通过连接到网络的设备存储或传递的敏感信息的安全。只有在您保护了终端(这是数据最容易泄漏的部分)之后,您才能够或应该致力于保护整个系统,以免网络犯罪分子、恶意泄漏或无意泄漏。

防病毒与终端安全的差别:

防病毒是一个总括术语。它是一个由多个功能组成的程序,每个功能保护终端设备的不同部分(电子邮件、浏览器、文件等)。但是,并不是所有的防病毒产品都能完全保护您的设备,因此可能需要进一步的保护。

终端安全对于终端用户和企业系统/数据中心有什么不同:

终端安全的基础对于他们来说是相同的。但是,受保护数据的类型和结构不同。企业不仅存储自己的数据,还存储有关客户、员工和企业本身的敏感信息。

终端安全管理是什么?

一系列内嵌的规则和策略,包含内嵌的法律、法规等,以及每个用户的权限和角色,他们定义了连接到业务网络的每个设备必须遵守的安全级别、授权范围、操作权限等。这些规则、策略、权限和角色,可能包括数据运营的全链条、数据全生命周期、数据到达的远程地点的全部,发现需要保护的数据、文件、图像,并智能的做好分类分析,然后在不改变原有数据运营流程、业务流程和使用习惯的前提下,自动识别、记录、跟踪、违规告警、阻断等一系列的管理行为。同时对数据扩散风险、数据泄漏风险、操作行为风险、数据资产管理等起到决策和管理辅助作用。

什么是一体化数据资产安全?

在过去,提供商有信心只使用防病毒软件、物理防火墙设备和关注边界的DLP来保护客户数据。传统的解决方案使您的业务客户面临复杂的数据泄漏风险,这使得您的业务、客户数据、组织机密、个人隐私等容易受到数据泄漏的影响,这也包括与超级账户、远程工作者、外包团队、协同工作团队、运维人员等相关的风险。

今天,随着一切都在网上和向云移动,数据安全解决方案必须紧随其后,昨天的体系结构在今天的环境中已经不可持续了。为了实现全面保护,您的客户需要一体化的下一代终端保护和基于云的网络安全解决方案的结合,可以随时随地覆盖用户。网络防泄漏、邮件防泄漏、加密、脱敏、自适应无边界的数据安全运营、关注数据中心本身,也关注终端;关注企业数据边界也关注内部系统、部门、人员等,在安全与业务之间取得良好的平衡。

最匹配安全目标的就是最合适的:

数据安全管理是一个长期的行动,它随组织的发展和变化。因为,对于将要实施终端安全的企业来说,最大的困难就在于产品选型。市场上充斥着各种终端安全产品,其功能和所使用的技术根据其核心使用场景的不同有大量的重复,如果企业没有明确的终端安全管理目标,很容易在产品选型的过程中迷失。

所以,针对组织的数据安全的现状和迫切需要解决的问题,选择能够适合现在需要的产品,同时又能按需扩容、能有效在将来的需求中平滑升级功能模块、能不断升级内嵌的政策和法规知识图谱、开箱即用的大量的安全策略并可根据自身要求任意组合使用、权限策略、分级分类知识库和策略等等,是选择的重要指标。不要被忽悠了而去关心时候有很多跟OA或其他功能雷同的累赘功能上,否则,最后的安全管控肯定不甚理想!

统一身份管理

今天,终端安全的外延和内核均发生了很大的变化,传统的终端安全管理内容已经不能满足企业安全管理的发展和需要。企业安全风险管理的概念已经不再局限于针对终端是否安装防病毒、病毒库是否及时升级、是否违规外联、是否违规内联、是否U盘违规使用等被动防护需求,而是聚焦于主动防御功能,尤其是针对用户在终端操作行为的分析与监控、敏感数据在终端的使用和流转情况等终端安全风险进行管控和全面展现,管理人员需要及时掌握所辖区域终端信息安全的现状,及时进行风险排查和处置。

我们建议,将终端用户纳入企业统一用户身份管理将极大的提高终端数据安全管控精确度,匹配用户所在组织机构、岗位设置,以及企业数据分级分类管理要求,就可以针对特定岗位用户制定和下发明确的管控策略,实施监测与管控,并审计终端操作行为,避免“一刀切”造成该管的没管好,不该管的不好用的情况。可以做到用户无感,减少抵触情绪,有利于项目成功。

创新支撑的自适应数据安全运营平台

2020年4月,在中共中央、国务院印发的《关于构建更加完善的要素市场化配置体制机制的意见》中,“数据”作为新型生产要素,首次被纳入市场化配置的生产要素中。

2020年5月,国家发改委发布“数字化转型伙伴行动”倡议,构建数字化产业链,支撑经济高质量发展。

2020年8月,国资委在《关于加快推进国有企业数字化转型工作的通知》中提出,要加速传统企业全方位、全角度、全链条的数字化转型。

迈入数字化时代,数据运营成为新的价值驱动。开放共享成为数据合理有效利用的前提,数据价值的挖掘利用成为企业创新发展的抓手。企业内部数据运营环境因而发生显著变化,数据量急剧增长、业务流程纷繁复杂、接触数据的用户角色流动频繁,内部数据也因此面临更复杂的暴露风险和扩散滥用风险。这些风险环节也同样容易被恶意用户或病毒木马利用,导致更频繁、更隐蔽的恶意泄露和攻击窃取等风险事件的发生。

而传统安全产品和技术手段的堆叠,一方面会存在安全盲区导致防护效果降低,另一方面会极大影响数据流转效率,牺牲数据价值。

另外,传统的基于边界防护的数据防泄漏产品,他们关注的是在边界的防护上,只在当敏感数据要离开边界的时候告警或采取措施,它们的防护手段相对单一和粗暴一些,主要就是在边界进行阻拦或者审计等。但是,目前数据泄密,来自内部的数据风险急剧的增加,传统解决方案却很难检测或跟踪。

由于传统的数据防泄漏更多是管边界,所以对内部环境下的的恶意行为,例如恶意的数据、一些变形或其他一些恶意手段,它检测效率会很低。等这些数据到了边界处的时候,数据已经发生了很大变化的时候,传统的防泄漏产品可能完全检测不出来,更别说防护了。

站在数据运营的角度思考数据风险发生的原因以及有效的应对思路,基于零信任概念的自适应数据安全运营的防护这一理念越来越得到认可

自适应数据安全运营平台的核心是在数据运营中内嵌数据安全属性,解决数据运营过程中的数据安全问题,以一个平台的方式运行。

其目标是在不影响数据业务流程正常运行的情况下更有效的检测和保护组织内的敏感数据资产,对敏感数据的扩散及滥用风险进行快速响应,将数据安全防护策略传递至参与数据运营的所有人员。

基于该理念,自适应数据安全运营平台,以AI人工智能为核心驱动,对数据业务全流程进行无改造映射,安全防护与数据业务独立运行,互不影响。帮助用户管理跟踪各种类型、各种来源的个人隐私数据及商业数据,建立敏感数据资产全景视图,促进数据快速流转及安全协作共享,防范内部敏感数据违规滥用风险,基于数据角色及用户风险进行自适应的精准动态防护,打造以数据运营为核心的数据安全生态体系。

对数据在内部环境的数据全生命周期和全链路上,围绕数据、人、位置打造三维一体的安全体系,对内部就数据、文件等的活动轨迹有全面的监控,方便溯源,在全链路的监控下,整个数据的变化过程都能够清晰的跟踪,对类似恶意变形的操作行为等,检测率明显更高更准确,更能体现事前、事中、事后的全方位监控、报警、阻断、溯源等需要。

如果您认同我们的营销思想和做事的价值观,希望解决企业自身的经营难题和营销困境,可以联系我们。我们会真诚地为您解决难题,改变困境,合作共赢!帮助企业抓住商业趋势,找到市场“需求点”,让您的每一件事、每一个资源都能创造更大的价值,获益更多!


相关推荐

优联互通:企业建站过程中的四大误区!

随着互联网大潮的兴起,越来越多的企业都开始将视线转移到线上,从线上寻求发展突破,很多企业也因为电商获得了成功,也有一部分消失在了网络大海中,长期的不运营和不更新,导致官网成为“僵尸网站”。其中不乏一些相当知名的网络公司。纵观网络的发展,都离不开电商的影子,每一个新媒体出现的时候就是电商蜂拥而至的时候。引来的流量总得有个落脚的地方,总不能把他们直接引导到现实企业中吧,那么为了打开网上的渠道,企业就得选择网站建设,但在网站建设的过程中还是存在一些误区,正是因为企业忽略了这些问题,导致企业网站发挥不了应有的效果,白白浪费了很多时间精力和财力。优联互通在做网站设计时,还曾遇到过不了解自己需求的客户,只要求设计上的美观,却没有考虑到是否适用于自己的公司:误区一、外行指挥内行很多的企业会一味的按照老板的喜好去做网站,例如仿制老板喜欢的某个网页、给网站增加许多动态特效、flash、把很多无关的信息都堆砌在首页、网页层级过多等,导致用户在进入到网站后将注意力被分散、找半天发现不了想要看的内容,跳出率居高不下。那么这就违背了我们最初的意图,优联互通的宗旨一直是:企业的网站应与现在的趋势保持一致,以大气简洁的图文展示为主,以此来吸引用户游览。所以说企业在进行网站建设的时候一定要明确目的,让用户进入网站就能一目了然的知道这个网站是做什么的,对自己有没有帮助。让访客的落地页就是他想要看的内容就是网站建设的最好境界。误区二、推广意识落后大部分企业都缺乏网络推广意识,认为只要是做了网站就会有用户去去游览你的网站,那么就能获得某部分人的资讯转化,完成交易。其实这种观念是非常错误的,网上的信息量是非常庞大的,那么要想用户找到你的网站,就必须采用一些方法,通过网络上各个渠道推广(竞价、SEO、自媒体等),让用户进入到你的网站。其实你把网络世界想象成一个比现实世界还复杂的空间,你的网站就是刚刚成立的门店,你想要把门店告诉大家就需要做点宣传,线下的门店开张的时候还发一些传单高部分活动呢,更何况是网路这么注重信息传播的地方。误区三、推广路径选择盲目与上个问题一样,还是由于企业不了解网络推广,而现在做推广的方式又很多,导致企业容易被各种推广信息误导,去选择一个不适合的推广方式,花了不少钱,却没有达到应有的效果。正确的作法是多了解下各种渠道的费用和效果,别人觉得好的不一定适合自己的行业,另外推广是很费钱的,精准的选择几种即可,切记不可贪多,面铺的太广反而因为照顾不过来导致浪费时间和金钱。误区四、缺乏网站运营知识网站建设是一个阶段性的过程,可能不到1个月就建设完成了,建设完成后在一定时间内也不会有大的改动,网站运营就成为重点,包括网站内容填充、产品填充、客户接待等一些列的问题都会开始,甚至从网站建设开始前网站运营就会介入,把自己的想法和需求说明白,在后面运营中减少不必要的麻烦。网站建设、运营、推广、维护就是构成电商最基本的元素了。广东优联互通科技有限公司是中国领先的互联网+一站式服务平台,公司自2015年成立,是一家专业从事计算机信息领域研发、应用和服务的高新技术企业。公司专一直专注于整合当今云技术、大数据、物联网、移动互联等新技术,帮助客户建设互联网软件开发及运营智慧信息系统,架构IT系统网络,提供计算机信息系统集成、信息技术整体解决方案和专业技术服务。我们公司本着为客户负责的原则我们对于所有找我们做项目的企业,都会清楚的告知客户需要做真正有意义的官网,为了我们自己公司的信誉,我们拒绝开发垃圾网站。

2021年06月24日 10:58

Philip S. Yu 团队最新综述!社区发现的深度学习方法:进展、挑战、机遇

本篇文章10140字,读完约26分钟雷锋网AI科技评论按:社区发现(CommunityDetection)是网络科学领域中一个经久不衰的重要问题。随着深度学习的发展,研究者们逐渐从传统的统计推断和谱聚类等方法中解放了出来。那么,深度学习时代的社区发现工作有哪些特点,研究者们遇到了哪些挑战,有哪些前景光明的研究方向呢?近日,IJCAI2020上发表的一篇Survey文章,完整阐释了这一研究方向的方法、挑战和机遇。论文来自数据挖掘领域大牛PhilipS.Yu团队。论文标题:DeepLearningforCommunityDetection:Progress,ChallengesandOpportunities社区发现(CommunityDetection)是网络科学领域中一个经久不衰的重要问题。随着深度学习的发展,研究者们逐渐从传统的统计推断和谱聚类方法中解放了出来。那么,深度学习时代的社区发现工作有哪些特点,研究者们遇到了哪些挑战,有哪些前景光明的研究方向呢?网络中的社区指的是一组由节点以及与其相连的边紧密地形成的实体。社区发现旨在遵循「社区中的节点紧密相连,不同社区间的节点稀疏相连」的规则对实体集合进行聚类。包括谱聚类、统计推断在内的传统社区发现方法在处理高维图数据时存在计算速度的问题。因此,近年来,深度学习方法被广泛地应用。在本文中,作者特别调研了社区发现的深度学习方法这一研究领域中的最新进展,并根据用到的深度神经网络、深度图嵌入、图神经网络对这些方法进行分类。由于目前深度学习的能力仍然不能满足处理复杂网络结构的需求,本文作者指出了当前该领域面临的挑战和研究机遇。一、社区发现网络是有两种基本的实体(即节点和边)形成的。根据图理论,「社区」是一种内部节点紧密相连的子图,它遵循以下特定的规则:(1)社区内的节点紧密相连;(2)不同社区中的节点稀疏相连。人们也将社区看做一种聚类簇,其中相同社区内的节点可以共享共用的特性和/或扮演类似的角色。这里根据Radicchi等人基于网络统计分析给出的定义展开讨论。根据节点在社区内部和外部的度,我们可以将社区分为两类:强社区和弱社区。节点的「内部度」代表将该节点与同一个社区中其它节点连接起来的边数,节点的「外部度」则代表将该节点与属于其它社区的节点连接起来的边数。一个弱社区是其中的节点的内部度之和大于外部度之和的子图。一个强社区是其中每个节点的内部度都大于外部度的子图。针对社区的网络结构,本文采用了强社区的定义。社区发现可以帮助我们理解网络内在的模式和功能。在现实世界的应用中,社区将复杂系统中的信息聚集了起来。举例而言,Chen、Yuan等人发现在「蛋白质-蛋白质」交互(PPI)网络中,被聚合到社区中的蛋白质具有相似的生物学功能;Chen、Redner等人,在论文引用网络中,通过社区发现技术确定通过论文引用连接起来的课题的重要性、相互关联以及演变情况;Zhang等人,在企业网络中,通过研究离线的公司内部数据源以及在线的企业社交关系将雇员分组到不同的社区中;Yang等人指出,在线社交网络中(例如Twitter和Facebook)拥有共同的兴趣或朋友的用户可能来自同一个社区(如图1所示)。图1:社交网络中的社区发现示例。根据个体之间的紧密度,网络被划分为两个社区,即包含三个节点的社区C_1和包含四个节点的社区C_2。传统的社区发现方法大部分都是基于统计推断和机器学习发展出来的。例如,在统计学领域非常具有代表性的社区发现方法「随机分块模型」(SBM)被广泛用于描述社区是如何形成的。然而,在处理当下的复杂数据及和社交场景时,这些传统的方法面临着许多问题。此外,在机器学习领域,发现社区的工作往往被看做一个图上的聚类问题。Ng等人用特征向量(例如邻接矩阵和Laplacian矩阵)实现了将节点划分到社区中的谱聚类方法,然而这种方法在稀疏网络上的性能较差。同时,对于预设的社区数目的要求也特别限制了依赖统计推断的模型的研发。在网络分析领域中,传统的方法并没有考虑到节点的属性,而这些属性描述了特征的丰富信息。此外,由于过高的计算复杂度,动态方法也很难被应用于大规模网络。总而言之,处理由图及其属性、大规模网络和动态环境形成的高维数据需要更强大的技术,从而同时兼顾高性能和计算速度。深度学习使计算模型可以学习到具有多层次抽象的数据表征。许多计算模型和算法都需要对以网络结构形式存在的数据进行表征学习。深度学习技术在学习非线性特征时具有很大的优势。这一点在诸如计算机视觉、自然语言处理等领域中都取得了广泛的成功,在这些领域中数据有着内在的关系。在网络分析领域,深度学习可以有效地通过多层深度神经网络降低数据维度,从而完成社区发现、节点分类、链接预测等任务。这里重点研究深度学习在社区发现任务中的应用的新研究趋势,PhilipS.Yu等人的这篇综述贡献有:(1)分析了将深度学习方法用于社区发现的优势;(2)从技术的视角,总结了目前最先进的研究,并对其进行分类;(3)讨论了仍然存在的挑战,并指出了具有前景的未来工作的机遇。据AI科技评论所知,这篇综述也是首次全面回顾深度学习在社区发现中的应用,对研究人员和技术专家理解深度学习和社交网络领域的发展趋势有着巨大帮助。图2:社区发现之深度学习:进步、挑战和机遇。二、何为社区发现?简单来说,社区发现,即从网络G中发现社区C。这里提到的网络是一种特殊的图,它对现实世界中的系统(例如,互联网、学术合作网络以及社交群组)中的复杂关系进行了抽象。在这里,网络的概念主要强调的是其拓扑结构。定义1(网络G)基于图理论,有权网络可以被表征为G=(V,E,W),而无权网络可以被表征为G=(V,E),其中V和E分别代表节点的集合和边的集合,W代表E相应的权值。每条边通过权值描述连接强度或者容量。我们可以将无权图的W视为1,将其从图G中去除。子图g⊆G是对于图的一种划分,它保持了原始的网络结构。子图的划分遵循预先定义好的规则。根据不同的规则可能得到不同形式的子图。社区是一种表征真实社交现象的子图;也就是说,在群组中存在一组具有紧密关系的对象。这里遵循由Radicchi定义的强社区的概念。定义2(社区C)社区是一组网络中相互联系的子图。社区中的节点具有密集的连接,而不同社区之间的节点具有稀疏的连接。根据一种将节点聚类到不同群组中的网络划分方法给出一个社区C_i,我们得到C={C_1,C_2,...,C_k},其中k代表可以从原始网络中被划分出的社区数。被聚合到社区C_i中的节点v满足:v到社区内每个节点的内部度大于其外部度。三、为什么要使用深度学习进行社区发现?与其他机器学习方法相比,深度学习的明显优势是它能够将高维数据编码到一个新的特征表征中。通过使用以图结构的形式组织的数据表征节点之间的联系,许多深度学习方法都可以学习到节点、邻域以及子图的模式。在多数现实场景中,数据缺乏节点标签信息和关于社区的先验信息,而深度学习在无监督学习的任务中体现出了优势。除了简单地利用网络拓扑来发现社区之外,一些方法还将语义描述作为数据中的节点属性加以研究。在传统社区发现方法中,这类方法主要基于邻接矩阵和节点属性矩阵。然而,深度学习可以构建更有效的节点属性和社区结构表征。因此,深度学习填平了传统社区发现方法中存在的关键短板。为了实现这一目标,近年来的工作指出了一些具有前景的研究方向:将深度学习模型应用于社区发现,以及基于社区的特性修改深度学习模型。将深度学习应用于社区发现的前景可以被表述为:(1)通过深度学习模型提升传统社区发现方法的性能;(2)从对于深度学习至关重要的特征维度上引入更多的信息;(3)从网络实体的拓扑和属性入手,同时提升模型的学习性能和鲁棒性;(4)现在可以更好地从复杂的相关结构中对大规模网络进行检测。四、基于深度学习的社区发现为了对近年来将深度学习用于社区发现的研究进展进行概述,Philip等人从技术的角度总结了现有的方法。具体而言,他们首先对具有影响力的社区发现深度学习方法进行了分类。在每一类中,他们概述了框架、模型以及算法的技术贡献。为了研究近年来被应用于社区发现的深度学习方法,图2描述了相关深度学习方法的详细分类情况,并相应地附上了总结出来的挑战。本章将从基于深度神经网络、基于深度图嵌入、以及基于图神经网络的社区发现方法三个方面展开叙述。4.1基于深度神经网络的社区发现深度神经网络在对复杂的关系进行建模和发现的任务中具有天然的优势。考虑到现有的深度神经网络模型在社区发现领域的流形程度,作者选取了基于卷积神经网络(CNN)、基于自编码器、基于生成对抗网络(GAN)的社区发现方法进行调研。基于CNN的社区发现CNN的关键组件包含卷积操作和对卷积层结果的最大池化操作。卷积操作利用卷积核降低计算开销。随后,最大池化操作被用于特征提取,这保证了CNN的鲁棒性。得益于CNN的发展,Xin等人设计了一种用于社区发现的新型CNN,并提出了一种用于拓扑结构不完整的网络的有监督算法。由于社区发现被广泛看做一种无监督聚类任务,科研人员对基于无监督CNN的社区发现进行了研究。人们研发出了在CNN框架下的系数矩阵卷积,从而专门进行对高度稀疏的邻接矩阵的表征。基于自编码器的社区发现栈式自编码器是一种深度学习模型,它在社区发现任务中表现出了强大的性能,可以表征网络矩阵的非线性特征。研究者们发现自编码器和谱聚类在谱矩阵的低维近似方面有相似的框架,并受此启发将自编码器引入了社区发现领域。此后,Cao等人提出了一种将网络拓扑和节点属性相结合的栈式自编码器,它提升了深度神经网络隐层的泛化能力。为了进一步解决网络拓扑和节点属性之间的匹配问题,Cao等人通过引入一个控制这种匹配的折中的自适应参数,研发了一种带有图正则化的自编码器方法。着眼于网络拓扑,Xie等人提出在深度自编码器中对邻接矩阵进行变换,从而有效地学到节点相似度。同时,Bhatia和Rani提出的自编码器通过对随机游走序列建模学习节点的结构,他们通过优化社区结构的模块度对这种序列进行调优。为了避免预设社团的数量,Bhatia和Rani提出了一种层级栈式自编码器,他们找出种子节点,基于网络结构有效地将其它节点加入到社区中。此后,该领域的研究旨在自适应地学习而不是预定义社区结构。Choong等人提出的方法大大地提升了训练损失验证阶段的计算效率。这种自动选择机制保证了模型基于社区标准分配节点。Xu等人将包含具有正负号连接的网络成为有符号网络(signednetwork)。为了处理边上的有符号信息,Shen和Chung提出了一种半监督的栈式自编码器,它可以重构邻接矩阵,为进一步的深度学习网络嵌入的学习表征有符号网络。基于生成对抗网络(GAN)的社区发现GAN包含两种相互竞争的深度神经网络,因此它可以迅速调整训练精度。典型的GAN是以无监督方式运行的,它们生成与训练集中的数据具有相同统计特征的新数据。对于网络数据来说,GAN模型适用于无标签的数据集和序列化的网络划分。Yang和Leskovec等人基于对抗性机制,提出了社区隶属关系图模型(AGM)。AGM基于「节点-社区」成员隶属关系(nodemembership)的思想对重叠的社区中的节点进行编码。每个社区都有一个单一的概率,使得社区结构可以在GAN中进行。Jia等人通过将这种模型与GAN相结合研发了一种新型的框架,它根据具有中间项(即隶属图中的「节点-社区」成员隶属关系)进行社区发现。4.2基于深度图嵌入的社区发现深度图嵌入是一种将网络中的节点映射到一个低维向量空间中的技术。它将尽可能多的结构信息保存到表征中。通过图嵌入,基于网络分析的机器学习任务(例如链接预测、节点分类和节点聚类)可以利用表征的潜在特征,这样节省了主要由网络搜索引起的计算开销。对于社区发现任务来说,基于节点表征的图嵌入的输出支持聚类的任务(例如通过k-means聚类)。基于深度非负矩阵分解的社区发现非负矩阵分解(NMF)是一类将矩阵分解为两个矩阵的算法,它具有如下性质:三个矩阵都没有负的特征值。NMF自动地对输入数据的列进行聚类,通过训练阶段的误差函数,使原始矩阵和两个分解出的矩阵之间的近似误差最小。Ye等人提出了一种用于社区发现的深度NMF模型,其中深度学习架构可以促进NMF学习原始网络结构和社区结构之间的层次化映射。在某些情况下,社区发现的工作需要与对带有属性的内容的语义理解同时进行。为此,研究人员以一种带属性的图的形式表征网络,这种图同时包含了网络结构和节点的属性。Li等人特别针对带属性图的社区发现任务提出了一种嵌入方法,它将带有属性的社区发现看做一个NMF优化问题。为了使算法收敛,他们设计了一套可计算的迭代更新规则。基于深度稀疏滤波的社区发现邻接矩阵反映出了网络的稀疏性。嵌入对输入的成对关系进行编码,从而避免在稀疏矩阵上进行搜索。稀疏滤波(SF)是一种有效的深度特征学习算法,它只用到了一个超参数,但可以处理高维输入。SF的关键模块是针对L2正则化后的特征的稀疏性设计的简单代价函数。对于网络(尤其是在大型网络中)的社区发现,Xie等人基于深度稀疏滤波提出了一种高效的网络表征方法。他们通过一种无监督的深度学习算法划分网络,从而提取网络特征。基于社区嵌入的社区发现传统意义上,图嵌入重点关注单个的节点。Cavallari等人研究了另一种重要的、但是鲜有人探索过的图嵌入情况,他们重点关注对社区的嵌入。他们认为这种新的重要策略有益于社区发现任务。具体而言,社区嵌入的目标是在低维空间中学习一种社区的节点分布。我们可以通过过渡性(transitional)的图嵌入方法使用这种新的节点分布,从而很好地保留网络结构,这反过来可以提升社区发现的性能。此外,Tu等人提出了一种新的图嵌入模型,它同时探测每个节点的社区分布,并且学习节点和社区的嵌入。网络中的社区实际上反映了同一个社区中相似的观点、行为等高阶近似信息。Zhang等人提出了一种保留社区信息的社交网络嵌入方法来学习网络表征。他们提出的这种方法在社区检测任务中体现出了性能的优越性。4.3基于图神经网络的社区发现近年来,图神经网络(GNN)的迅猛发展表明了图挖掘和深度学习技术融合的趋势。基于GNN的社区发现被用于利用图神经网络对网络上的复杂关系进行建模,并捕获这种关系。例如,Chen等人提出的有监督社区发现GNN引入了一种非回溯的运算符,来定义边的邻接性。这种方法可以提升学习性能。对于GNN来说,运算符的选择非常方便。图卷积网络(GCN)是基于CNN研发的,它继承了快速学习的能力。面对图输入数据,GCN展现出了非常好的性能。GCN带来的巨大提升在于整合了考虑网络中实体概率分布的概率模型。例如,Jin等人通过马尔科夫随机场解决了包含语义信息的带属性网络中的半监督社区发现问题。Shchur和Gunnemann将「伯努利-泊松」概率模型整合到GCN中,用于重叠社区发现问题。通过这种方法,卷积层可以识别复杂的网络模式。五、挑战和机遇近年来(尤其是近5年来),用于社区发现的深度学习技术迅速发展。由于对现实世界具有重大的影响,这一领域持续受到研究人员的关注。尽管取得了令人欣喜的成果,在将深度学习应用于社区发现的领域中,仍然有一些挑战有待被更好地解决。下面,本文将总结这些挑战和机遇。挑战1:社区数未知长久以来,由于社区数未知而引发的挑战始终没有得到很好的解决。在机器学习领域中,社区发现经常被表示为一种无监督聚类任务。总现实世界的网络中提取出的研究数据大多是没有标签的。因此,我们很难获取有关社区数的先验知识。此外,大多数现有的深度学习社区发现方法(尤其是深度图嵌入),通过评估潜在特征空间中的节点相似度获取分类节点。然而,在后续的聚类算法中,聚类的目标数量仍然需要被事先定义。机遇:对于这一挑战,一个直接的解决方案是通过分析网络拓扑确定社区的数量,并将其整合到深度学习模型中。Bhatia和Rani等人遵循这一思想,采用基于随机游走的定制化PageRank算法,通过将图重构到一种线性的形式进行社区发现,并通过模块化的优化方法来应用调优。但是这些方法并不能保证网络中的每个节点可以被分配到特定的社区中。因此,我们需要为社区发现任务涉及新的模型,从而避免在分配社区的过程中漏掉某些节点。挑战2:网络层次网络层次反映了分层的网络结构,它将位于独立的层上的多个群组连接了起来,从而形成一个更加复杂的网络。而每一层都专注于特定的功能。对于多层网络,用于社区发现的深度学习技术必须实现对于两种层次上的表征的提取。而且他们将面临多层网络固有的挑战,这包括不同的关系类型以及不同层中不同的稀疏程度。机遇:为了区分不同种类的连接,Song和Thiagarajan提出了一种具有特殊子图设计的多层DeepWalk模型,从而保存了层次化的结构。但是他们并没有同时优化可以用于所有层的公用表征以及保留了特定层网络结构的局部表征。他们的目的是利用不同层之间的依赖,而实际上这种依赖关系经常被破坏。此外,对于新的设计来说,还应该考虑与层数增加有关的可伸缩性问题。因此,在研发用于具有网络层次的社区发现的深度学习方法的问题上,我们还有很长的路要走。挑战3:网络异质性网络的异质性指的是网络中实体类型的显著差异,而各种各样的节点集合和它们之间复杂的联系形成了异质网络。因此,我们应该通过不同于同质网络的方式研究异质网络中的社区发现。在应用和研发深度学习模型和算法时,应该解决异质网络实体上的概率分布的差异。机遇:大多数之前的深度学习方法并不是基于网络异质性研发的。Change等人设计了一种非线性嵌入函数,它被用于捕获异质组件之间的交互。因此,未来在异质网络上至少存在两个方面的研究机遇:(1)异质网络表征的深度图嵌入学习模型以及相关的支撑算法;(2)采用新型训练过程的特定深度学习模型,旨在学习隐藏层中的异构图属性。挑战4:边上带符号的信息许多现实世界中的网络具有边上的符号信息(即正关系或负关系)。在有符号网络的环境下,用于社区发现的深度学习方法面临的挑战是:通过不同的符号信息表示的节点之间的联系应该以不同的方式对待。机遇:一种可能的解决方案是,通过设计一种随机游走过程引入正关系边和负关系边。Hu等人遵循这一思路,基于词嵌入技术研发了一种稀疏图嵌入模型。但是,他们的方法在一些小型的真实世界中的有符号网络中的性能要差于作为对比基线的谱方法。另一种的可能的解决方案是重建一个有符号网络的邻接矩阵表征。然而,这又面临着另外一个问题:现实世界中的绝大部分邻接连接是正关系。Shen和Chung施加了更大的惩罚,使他们的栈式自编码器模型更加关注重建稀缺的负边而不是丰富的正边。然而,在大多数情况下,我们并不能获取关于大量节点的社区分配信息。因此,在有符号网络中,社区发现的高效的无监督方法仍然有待探索。挑战5:社区嵌入社区嵌入是一个新兴的研究领域,这种方法将对社区而不是每个独立的节点进行嵌入。社区嵌入重点关注对社区进行感知的高阶近似而不是在节点邻居之间的1阶或2阶近似。未来,社区嵌入研究面临的挑战有:(1)高昂的计算开销;(2)节点和社区结构之间的关系评估;(3)应用深度学习模型时发生的其它问题,例如社区之间的分部漂移。机遇:设想有一种智能的方法通过自动选择针对节点和/或社区的表征模块来支撑社区嵌入。为此,Philip等人建议从以下研究目标入手:(1)如何将社区嵌入整合到一个深度学习模型中?(2)如何为了「计算地更快」这样的目标直接嵌入社区结构?(3)如何优化整合好的深度社区发现学习模型中的超参数?挑战6:网络的动态性网络的动态性主要包含两种情况:网络拓扑的变化,以及在固定拓扑上的属性的变化。拓扑的变化会引起社区的演化。例如,添加或删除一个节点会影响全局的网络连接,因此它也会改变社区结构。对于静态网络来说,深度网络社区发现学习模型在面对每个网络的快照时,需要重新训练,这里面包含一些重复的工作。对于静态网络中的时序属性,技术上的挑战在于对于流数据的深度特征提取,这些流数据的概率分布和属性随时都会变化,它们引入图数据作为深度学习模型输入的另一部分。机遇:针对时间和空间维度上的动态特性,人们还没有研发用于社区发现的深度学习模型。未来的研究方向包括:(1)发现并识别社区间的空间变化;(2)学习深度模式,它同时对时序特征和社区结构信息进行嵌入;(3)为社区发现任务研发一种统一的深度学习方法,它可以同时处理空间和时间特征。挑战7:大规模网络大规模网络指的是拥有数以百万计的节点和边、大规模结构化模式以及高度动态性的大型网络。因此,大规模网络有其固有的规模特性(例如,社交网络中与规模无关的特性,节点度的米率分布特性),这些特性会影响社区发现任务中的聚类系数。此外,通过分解后的有关高维邻接关系的近似度度量,研究人员将分布式计算应用于可扩展的学习,同时他们也面临着鲁棒的学习控制和协作计算的问题。不断变化的网络拓扑进一步增加了近似度估计的难度。总而言之,大规模网络中的社区发现设计上述所有提到的挑战,以及可扩展学习方面的挑战。机遇:大规模网络(例如,Facebook和Twitter)不仅提出了挑战,也催生了设计更先进的深度学习方法的机遇。为了充分利用大规模网络中的丰富信息,社区上的聚类任务更需要具有较低的计算复杂度并具有灵活性的新型无监督算法。深度学习中用到的关键数据降维方法(即矩阵低秩近似)并不适用于大规模网络,它在分布式计算场景下的计算开销也是很高昂的。因此,人们急需新型的深度学习框架、模型和算法。研发应用于大规模网络的深度学习方法需要通过精度和速度来评估,这种评估方式可能是最大的挑战。六、结语如今,我们生活在各种各样的网络中。发现这些网络的内在功能和特征有助于我们全面地理解周围的环境(尤其是在社交网络中)。社区还原了描述社会现象的复杂关系。传统的社区发现方法曾经依赖的是统计推断和机器学习(谱聚类)。然而,深度学习的发展极大地提升了社区发现方法的计算性能,用于社区发现的深度学习方法近五年来被广泛地研究。在这篇综述文章中,Philip等人全方位地回顾了模型和算法研发方面相应的技术趋势,并针对基于深度学习领域社区发现进展做了详细的阐述。最为重要的是,这篇综述还指出了将深度学习用于社区发现任务时存在的七个重大挑战,这在一定程度上将为下一代社区发现研究指明方向。雷锋网雷锋网(公众号:雷锋网)雷锋网

2020年05月22日 11:50

百度贴吧发帖的10个方法步骤技巧

百度贴吧的引流效果毋庸置疑,这里的流量大的你不敢想象,无论卖产品还是项目都是很好的流量池,不然也不会有人买百度贴吧不删帖技术了,同时也会有很多商家在里面活动,而很多商家都在发帖来吸引潜在的用户,最终达成产品项目成交的目的,不过方法各种各样,效果也就是千差万别了。很多人都习惯在百度贴吧发帖加粉引流,但是由于百度贴吧管理很严,很多帖子刚发就被删掉,更有甚者,账号也被封禁,导致发帖的成功率并不高,结果就不堪入目了,所以今天我们就来分析一下百度贴吧发帖的方法技巧。一、发帖前的准备百度贴吧是百度搜索引擎包含的一个论坛,百度贴吧有个人的,名人的,企业的,地区的等等,具体贴吧汇聚多少人在这里不是很清楚,但是百度贴吧是一个分享,学习的好地方。(1)、首先准备一个贴吧的账号(可以自己申请)。(2)、账号的设置:账号的名称可以用自己的微信/QQ号,能让别人更方便联系到你,也可以取个引人注意的名字,然后把微信/QQ二维码作为头像,亦或者用美女头像上加个水印写上自己的联系方式。(3)、选一个合适的贴吧:人气不能太低,太低的话就算你发的帖子每天都置顶也不会有人看到,人气不能太高,人气太高刚发的帖子第一页就看不到了。(4)、要选择跟你目标人群相关的贴吧,另外最好关注一下贴吧,这样以后发帖会更方便,不用每次都去找。(5)、帖子的标题一定要能吸引人,这样帖子的点击率才会高,标题可以从利用好人的好奇心和贪婪心着手。(6)、帖子的内容要有价值,要发一些目标人群最感兴趣的东西,最好是看过之后有想要联系你的冲动。二、选择贴吧要有侧重点发在哪这个问题是比较关键的,不管你发什么内容,如果你发的地方不对,很快就会被删除,所以最好的办法就是选好相应的贴吧,这里建议大家不要追大贴吧,有些人想我可能可以去什么“魔兽世界吧”这些热门的地方发一发,反正蹭在一堆帖子中间别人也发现不了,可是你忘记了网民眼睛是雪亮的,总有无聊的人没事去投诉你一下,只需要成功一次你,号一封以前的内容都无效了,所以最好的办法是发相关性和冷门的贴吧,冷门的贴吧主要是指那种没有管理员的贴吧,相关性不用多说,冷门的贴吧重点关注一下,主要是发主题帖,我采取的方案是热门的只发回复,冷门的发主题,这样会尽量减少被删几率。在选择发帖的贴吧是要有侧重点,如果单纯为了留外链,最好选择一些冷门的贴吧,有吧主的贴吧管理一般都比较严格,发外链、发广告很容易就被被删了,而冷门贴吧很少存在这样的问题。如果是为了提高网站的流量,就一定要选择一些热门的贴吧,不过有些贴吧的人气虽然非常高,但是竞争非常激烈,你的一个帖子几分钟就沉了,也达不到网络推广的效果,所以这个你得自己把握。第三就是看看贴吧的帖子能不能发链接,一般的贴吧都是能够发链接的。据说百度贴吧后台是有一个草芥链接采集系统的,一些经常被剔除的链接会进去这个体系,然后发有任何带有这个链接的帖子都会积极剔除。三、寻找具有吸引力的标题首先要写一个或几个非常吸引力的标题,标题在一个成功的帖子中要占80%的地位。发帖子时,首先把90%以上的时间用来写标题,10%的时间写内容。标题要利用人性的两大弱点:好奇心和贪婪心。让每一个人看上去都无法抗拒,立刻有想点的冲动。四、要学会利用时事热点利用当时的热门事件结合自己的宣传信息进行推广,往往这样的帖子推广效果较好,能够吸引很多的点击率,你只需要在对应热门事件贴吧里面回复即可,实践证明回复在8楼以下的帖子删除概率较小,你不用担心在8楼以下还会不会有人看,热门事件的贴吧你懂的,热度最起码能维持1天吧!五、帖子的内容要有讲究宣传信息一定要软,用软文。一篇好的软文不仅会赢得网友的赞赏还会让网站编辑或管理员对你产生好感,随手会将你的文章或帖子推荐到首页,那么百度贴吧推广也是如此,不能硬碰。如果你能把你的宣传信息编辑的天衣无缝,那么你的帖子就会长久的保存在贴吧里面。吧主和系统管理员也是人,难免有恻隐之心。将心比心,好好做广告质量,才会带来意外惊喜。发帖不仅仅是我发一个内容就算完事了,这其中还有很多玄机,要点是发完主题以后,要换IP用自己的马甲顶一顶,这样的好处是很容易被百度迅速抓取,根据我自己观察发现没有回复的主题帖,在被百度收录后一段时间内很容易被清除,而有回复的就好很多,所以发主题一定要消灭零回复。在热门和相关的贴吧,细心写一篇内容详实的软文,然后用马甲号抢占沙发发个外链,之后没事就拿各种小号上去顶一下,这个工作看似多余,其实价值很大,百度贴吧最重要的好处就是自然导入效果很好,有很多人都愿意点一点进去看看你的网站。六、发帖要有技巧同样的帖子不要在不同的贴吧中重复发帖,要在多个贴吧发,最少改一些标题和内容,不然你发几个就发不出去了,而且这样也很容易被百度管理员关注。在同一个百度贴吧推广的帖子数不要太多,1-3个就行了,有时间多坐坐沙发,带上链接也是一样的。如果你发的帖子没有顶很快就会被沉下去,你要顶自己的帖,不过不要太频繁,最好多注册几个马甲帮着顶。七、贴吧回复的技巧贴吧回复问题最好固定几个账号,上面说了回复问题的账号最好将名称改成你的行业名称和业务名称,每一个业务对应一个账号,固定回复账号有一个好处就是可以养账号,你的账号高级了是有一些特权的,回复问题通过率都高一点。回复账号最好设置一下你擅长回答什么,这个可以根据你的业务来确定。比如营销、互联网、IT、电商等等一些类目,这样可以减少你回答问题被删的几率。时间长了,那么你的ID、帖子就会越来越多,要将这些ID、帖子链接都登记下来,帖子多了靠人工顶是不切实的,这时就定然用上顶帖机了。八、热心帮助菜鸟发主题帖带链接很容易被删,那么就瞄瞄贴吧里看看有没有人问有关你网站涉及到的内容的东西,最后来个链接,这叫做热心帮忙。就像一个人想找某首歌,回帖的基本都带链接,吧主总不能这个都不允许吧。延伸一下,没有菜鸟那你就自己制造个菜鸟,然后自圆其说,有点类似与百度知道的推广方式了。有人要说了,我只是来做宣传的,我本来就不是专家,那也有办法。不要贪图太多,保证你的产品有露出就可以了,最好的方法是利用水印,少发主题多回复,回复必加产品水印,真想发主题发一些有趣的,或者提问类型的,好引起大家关注。九、随时更换IP地址ip地址要更换,不要用一个ip一直发,百度会封你的ip,即使发的不是广告,也会被秒删。Cookies也同样要清理,也就是你的网络足迹,即使你换ip了,没删Cookies百度也一样知道是一个人在操作,所以还是秒删。手机端改变IP地址:手机处于4G非WIFI状态下,首先把自己的手机调成飞行模式,然后再把飞行模式关闭打开4G网,请按步骤进行哦。观察你的IP地址就会改变。十、一些发帖实际操作技巧(1)、把所要发送的网址通过缩短功能进行网址缩短,网址缩短功能很多网站都有提供的,百度一下能够出来很多。(2)、在已经缩短后的网址后面加上一个问号,之后再加上一个空格,再加上tieba.baidu.com就ok,这样系统就会模糊,不会被系统删帖,而且不影响网址访问。(3)、注重内容,天衣无缝的好文章不仅会赢得网友的赞赏还会让管理员对你产生好感,将你的文章或帖子推荐到首页。(4)、选择重点,单纯为了留外链,最好选择一些冷门的贴吧;如果是为了提高网站流量,就要选择一些热门的贴吧。(5)、发帖技巧,同样的帖子不要在不同的贴吧中重复发,至少要改一些标题和内容,不然你发几个就发不出去了,而且这样也很容易引起百度管理员的注意。另外,发帖之后要经常去维护,有人回帖就去回答,没人回帖就自己回帖偶尔去顶一下,因为除了被吧主或版主置顶的帖子,其他的帖子都是按照更新时间排序的,帖子一有回复就会被置顶。

2020年05月03日 19:22