自2020年起,中国商务广告协会数字营销专业委员会、虎啸奖组委会及秒针营销科学院三方合作陆续发布了,受到行业各方的关注与热议。
为帮助广大营销从业者更清晰的了解各产业的核心能力、现状及未来趋势,我们以双周为周期,推出《数字营销产业分析》专栏,聚焦《中国数字营销生态图(2021版)》三大板块深度分析十六大赛道,为您解读各产业赛道的核心能力、现状及未来趋势,助力企业营销数字化战略布局。
数字营销产业分析专栏第六篇,聚焦《中国数字营销生态图(2021版)》“数据和工具”版块的“数据安全”。
数字时代,大数据营销其实是个高危行业。
一方面,是因为激烈的行业竞争导致身心疲惫;另一方面,则是今天凡涉及到数据的生意,都无法再像以往那样任意而为,一不小心就可能侵犯消费者权益,甚至触碰法律。
为了合理、合规、安全地使用数据帮助营销提效,就需要我们站在绝对严肃的视角,审视所拥有以及能够触达的数据。毫无疑问的是,我们需要在数据安全的基础上,持续利用数据创造价值,但数据安全的构建,是一个重要性不亚于食品安全保障的完整体系,覆盖从采集,到加工、存储、应用,再到最后销毁的全流程。
通过对大量数据中台类项目复盘,我们发现,很多企业往往会被大数据技术的应用吸引,而忽视它本质上其实是需要成体系运营和维护的复杂IT系统。
今天,我们就从宏观层面跟大家聊聊数据安全、数据存储和数据治理。
今天,无论数据能产生多大的商业价值,优先需要保证的,就是它不能触碰消费者和法律的底线。
为此,我们需要在各个环节都采取相应的保障措施,并且请专业的公司进行审计,获得类似等保评估认证之类的专业认证。目前,《个人隐私保护法》和网络安全相关的法规,除了对一些很明确的行为,如数据出境、贩卖消费者数据等做了详细说明,其他很多环节还需要慢慢完善。但总的原则是,企业自己要先证明积极努力地做了防范并执行了相关的措施。
我们需要先了解下哪些环节在营销大数据的场景中存在风险,之后再根据公司自身的情况制定具体的措施。
各个环节都存在数据安全的风险,总体而言,可以从对内和对外两个方向划分:
对外
从采集开始,企业就要考虑几个问题:
01消费者授权
2021年11月1日开始实施的《个人信息保护法》明确要求数据采集时需要消费者的授权。具体的法规不一一列举,重点说几个营销行业特别需要关注的点。
- 什么算隐私数据(PII)
个人信息是以电子或其他方式记录的,与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。因此,匿名处理,过度叠加标签或者特定标签导致能最终能定向到某个具体人时也有可能被判定为隐私数据。
例如,姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等都属于个人信息。
- 个体数据的传输
原则上个体数据,尤其是隐私数据需要加密才能传输,而且不能大规模打包传输,目前用的方式可以是碰撞。大的平台可以让商家上传自己的数据包,当遇到一致时就可以投放,这也可以按照碰撞来理解。
- 数据转译
这里的数据转译,指一个ID体系与另一个ID体系间有对应关系,可以相互翻译,用于后续的判定,比如手机号和设备ID。首先,要看能做这件事的人,为什么能获得此对应关系,是否有合法的渠道,以及该对应关系在个体级输出时是否有侵犯消费者个人隐私的风险。
现在业内有一种包对包的转译,用于整体的分析和规模化的触达,但这种包对包的方式不能建立单体的连续行为,因此不适用于模型的建立。
- 数据出境
指国内采集到的数据传给中国大陆境外的行为。这是一条红线,尤其对于跨国公司来说,非常敏感。有些模型,分析团队和数据存储在国外,都需要做相应的调整。比如苹果也会因为受到相应的限制,而不得不把存储服务器放在中国。
02使用的场景
为什么要考虑使用场景?因为有些场景下数据不一定要放在企业自己的服务器上,相比之下,放在第三方或者和媒体上,更有利于数据的流通和增强。比如DMP收集设备ID时,有的品牌方会把DMP私有化,这样会承担更多数据安全风险,还会增加运营和维护的成本。
03采集时是否加密
设备ID的采集加密已经比较普遍了,但是随着非结构化数据的采集和处理越来越重要,图像、声音的采集加密也变得更加重要。
04采集什么数据
个人隐私保护法的原则是最小授权,而营销的目的应该是最大原则,也就是在合理授权的范围内最大化的采集数据,这样建立模型时,效果更好,人群细分更准。因为对于营销而言,总有一些数据更重要,跟结果之间能建立联系的数据,比如注册、激活、购买,这些路径流转数据可用于优化沟通内容,提升转换效率。关联授权数据,需要尽可能的打通多个体系的ID。
05数据的输出
对于广告主来说,数据输出是一件很严肃的事情。以前大家数据安全意识不高,会将整包的数据扔出去,但现在,需要考虑的因素很多,包括:
-
接收方是否能满足等保评估三级认证;
-
传输方式是否有中间环节供应商,会不会有数据泄露的风险,比如经过个人电脑,走了代理公司,或者第三方Serving公司等;
-
数据是否加密;
-
数据上传后是否会被隔离使用;
-
是否定期撤下或者销毁。
对内
需要考虑存储环境、使用、交换、销毁等问题。
《网络安全法》和《个人隐私保护法》对存储环境的要求是过等保评估三级认证,同时对权限的控制有明确规定,要求对数据量级的控制,不能开放全量下载权限,对于使用和交换过程,则要求全程加密。
其中,最容易被忽视的,是数据的销毁机制,过往,数据如果长时间不用,可能会被压缩备份,但目前,对于部分消费者授权数据,其实是有时间限制的,法规虽然尚未做特别具体的时间限制,但企业应该自己制定相应的机制并且能自证执行的情况。
数据存储
最早的存储,用的一般是简单的数据库,可以做简单的关联查询,维度比较少。当维度增加,需要做数据生命周期管理时,就需要跨越多个数据库,于是就有了数据仓库的概念,但当时数据的处理能力也不强。慢慢有了更多的多元异构数据,需要支持更多的大数据分析、实时同步需求时,大家又开始构建分布式或者离线计算的数据平台。随着对非结构化和半结构化数据的采集增加,又需要更快速的融合不同类型的数据,把schema从前置改为后置,从而就有了数据湖的概念。
数据湖能够支持未经处理的结构化、半结构化、非结构化数据,还可以对接各种APP、Web和业务系统等。Schema-on-Read的模式,比Schema-on-write的模式能更好的提升效率,满足互联网行业迭代快、数据量大、实时分析多的需求。虽然建设成本更高,但是扩容成本更低。
数据湖面临的挑战
01数据治理难度大
要求目录中包含数据的分类、规则等信息,若企业掌控力差会导致目录及架构不足,从而使后期的维护成本变高;
02产业链不完整
目前大家都是分散的在做各个组件,缺少一条龙的整合供应商,这就对企业的采购和IT部门提出了更高的要求;
03人才不足
目前懂得这些技术的人才不多,很多都在大厂,企业想要获得和培养这样的人才还需要相当长的时间;
04安全风险
数据湖最大的风险就是安全性和访问控制,数据在没有监管的情况下灌入,有可能引发消费者隐私泄露或数据泄露的风险;
数据湖未来发展趋势
01云原生部署是未来数据湖的发展方向
数据湖最大的风险就是安全性和访问控制,数据在没有监管的情况下灌入,有可能引发消费者隐私泄露或数据泄露的风险;
云已经成为IT基建未来必然的趋势,云部署可以带来更加灵活、可控、成本低的优势。云原生数据湖有几个价值点:
-
更好的数据资产统一管理:可以对全数据进行集中存储,统一做全生命周期管理;
-
更低的成本:存储上,可以用更低的价格实现更灵活的扩容;计算上,存算分离的架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;
-
云策优化:云原生数据湖通过 Serverless的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的成本最优。
02安全风险湖仓一体(Data Lakehouse)也是未来的另一个趋势
它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。通过将数仓构建在数据湖上,使得存储变得更为廉价和弹性,同时湖仓一体能够有效地提升数据质量,减小数据冗余。在湖仓一体的构建中,ETL起了非常重要的作用,它能够将未经规整的数据湖层数据转换成数仓层结构化的数据。湖仓一体的价值在于:
-
降低数据重复性:湖仓一体的结合,能够去除数据的重复性;
-
降低高存储成本:使用大数据文件系统和Spark在廉价的硬件上存储计算数据。湖仓一体架构的目标就是结合这些技术来最大力度降低成本;
-
减少报表和分析应用之间的差异:数据科学倾向于与数据湖打交道,使用各种分析技术来处理未经加工的数据。而报表分析师们则倾向于使用整合后的数据,比如数据仓库或是数据集市。而在一个组织内,往往这两个团队之间没有太多的交集,但实际上他们之间的工作又有一定的重复和矛盾。而当使用湖仓一体架构后,两个团队可以在同一数据架构上进行工作,避免不必要的重复;
-
避免数据停滞:在数据湖中,数据停滞是一个最为严重的问题,如果数据一直无人治理,那将很快变为数据沼泽。湖仓一体的引入,对于海量数据进行治理,能够更有效地帮助提升数据分析的时效性;
-
减少潜在不兼容性带来的风险:有些技术只能满足数据仓库,有些只能满足数据湖,湖仓一体可以减少兼容性的风险。
数据治理
好的数据,不是一蹴而就的,不断地自我流转、自我迭代才能得到真正可持续应用的数据。这就需要数据治理。
数据治理首先需要定规则,如:定义源数据、数据维度、数据格式或字段等。之后依据系统的管理和链接的萃取,才能清晰看到数据在系统中的流转情况,识别出数据是否在被很好地管理和培育。只有这样才能得到一个准确的数据库,更有效的实现后续的应用。
传统的方式是面向业务需求的数据流管理。随着CDP的发展,不但需要考虑到短期的业务需求还需要根据业务情况,从底层技术架构上支持数据规范化管理。
【打个小广告:在线学习考试通过可以获得工信部教育与考试中心颁发的大数据职业技术证书,欢迎个人报考和机构合作垂询 18600166209(微信同号),刘老师】
- 还没有人评论,欢迎说说您的想法!