首页 理论教育 大数据安全解决方案:10.10.2技术应用

大数据安全解决方案:10.10.2技术应用

时间:2023-08-07 理论教育 版权反馈
【摘要】:美国政府已于2012年加大投资,拉动大数据相关产业发展,并将“大数据战略”上升为国家意志。图10-26 Hadoop文件系统架构图2.大数据的安全问题与传统系统相比,大数据安全更加复杂。基于Web的应用程序和API给大数据集群带来严重威胁。它们遭受攻击或破坏后可能使攻击者获得对大数据集群中所存储数据的全部访问权限。因此,应用程序安全、用户访问管理及授权控制对大数据来说十分重要。

大数据安全解决方案:10.10.2技术应用

1.大数据的概念

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据是指使用传统关系型数据库和其他软件工具难以存储、管理、处理的数据集,该数据集具有多样性、大容量、速度要求高、整体价值高等特征,包含结构化数据(特定内部结构的实体化数据,如XML、数据库表等)和非结构化数据(没有特别内部结构的数据,如文字、图片、录音、视频等)。

大数据的技术意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

随着数据价值的不断发掘和体现,“数据是新的石油金矿”已经得到普遍认同。数据正在并将继续成为决定企业胜负乃至国家竞争力的重要因素。人们对于海量数据的挖掘和应用,预示着新一轮生产率增长和消费浪潮的到来。美国政府已于2012年加大投资,拉动大数据相关产业发展,并将“大数据战略”上升为国家意志。大数据的管理目标是在数据海洋中分析挖掘出有价值的规律。Google利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

中国已经深度融入大数据发展潮流,不仅诞生了阿里巴巴百度腾讯等优秀的互联网公司,而且拥有了全球第一的互联网用户数和全球第一的互联网移动用户数,成为全球最重要的大数据市场之一[7]。对商业银行来说,数据的作用尤为关键和重要。在大数据时代,数据海量化、多样化、传输快速化和价值化等特征,将给商业银行市场竞争带来全新的挑战。可以预期,未来的银行不仅应是数据大行,更应是数据分析、数据解读的优秀银行,需要不断从数据中洞察价值,攫取价值,持续提升自身生存能力和竞争力。

中国的商业银行正在步入大数据时代。经过多年的发展和积累,目前商业银行的数据量已经达到100TB以上级别,并且非结构化数据量正在以更快的数度增长。通过采用大数据技术,商业银行可以深入挖掘既有数据,找准市场定位,明确资源配置方向,推动业务创新。同时,大数据技术能够降低商业银行的管理和运行成本,降低信息不对称程度,增强风险控制能力。

大数据技术的实施主要分为数据采集、数据存储、数据管理、数据挖掘与分析几个阶段,如图10-25所示。其涉及的技术包括并行处理、分布式处理、云计算、数据挖掘等。目前,业界的主流解决方案包括IBM的“大数据平台”、HP的HAVEn等。

978-7-111-51949-2-Part03-83.jpg

图10-25 大数据实施阶段

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个能够让用户轻松架构和使用的分布式技术平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,它的主要特点是高可靠性、高扩展性、高效性、高容错性和低成本。由于其在数据提取、变形、加载方面上的天然优势,Hadoop被广泛应用于大数据处理项目中。

Hadoop的文件系统的架构如图10-26所示。该图显示出数据节点和客户端如何交互。Hadoop使用了许多分布式的数据存储和管理节点。数据被复制为多个副本,在多个节点之间以“碎片”形式存储。这意味着在单一节点发生故障时,数据查询将会转向处理资源可用的数据。正是这种能够彼此协作的分布式数据节点集群,可以解决数据管理和数据查询问题,才使得大数据如此不同。节点的松散联系带来了许多性能优势,但也带来了独特的安全挑战。

978-7-111-51949-2-Part03-84.jpg

图10-26 Hadoop文件系统架构图

2.大数据的安全问题

与传统系统相比,大数据安全更加复杂。一是大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录。这些数据的集中存储增加了数据泄露风险;二是大数据对数据完整性、可用性和安全性带来挑战,在防止数据丢失、被盗取和被破坏上存在一定的技术难度。面对海量的数据收集、存储、管理、分析和共享,传统意义上的网络与信息安全面临新的问题,传统的安全工具不再像以前那么有用。大数据的潜在安全风险主要有以下几点:

(1)大量数据聚集导致敏感信息泄露风险剧增 对大数据处理来说,拥有的数据越多,对数据的保护就越重要。不仅要安全有效地控制数据的存储,还必须做好数据访问控制,依据数据的敏感程度,确保用户能看到的数据是可以让他们看到的数据,并且必须明白开放这些数据及其分析结果可能产生的后果。

(2)虚拟化环境是否安全需要重新评估 在大数据环境下,需要数量众多的虚拟机节点作为支撑。虚拟机一旦出现安全问题,其危害会被成倍放大,并导致严重后果。因此,对虚拟服务器的集中或分散部署方式、虚拟环境的安全机制、安全策略中的虚拟环境盲区等,都需要重新评估以适应大数据环境。

(3)Hadoop技术本身的安全问题 Hadoop是个开源软件,最初在Hadoop中并没有安全模型,它不对用户或服务进行验证,也没有数据隐私。虽然后来加入了安全性组件,安全性得到一定提升,但目前仍然存在一些不足,包括没有“静态数据”加密、需要单独搭建认证系统、有限的授权能力、安全模型和配置的复杂性等。(www.zuozong.com)

(4)大数据集群的应用安全问题 面向大数据集群的大多数应用都是Web应用。基于Web的应用程序和API给大数据集群带来严重威胁。它们遭受攻击或破坏后可能使攻击者获得对大数据集群中所存储数据的全部访问权限。因此,应用程序安全、用户访问管理及授权控制对大数据来说十分重要。

(5)APT攻击防范难度增加 APT攻击是高级持续性攻击(Advanced Persistent Threat,简称APT),其攻击持续时间长,攻击过程复杂,且很难被发现。APT攻击的主要特点是攻击目的明确但空间很广、持续性很长和隐蔽性强。大数据的价值低密度性降低了安全分析工具的工作效率。如果黑客将攻击隐藏在大数据中,那么分析和防范APT攻击的难度会进一步增加[83]

3.大数据的安全保障措施

大数据安全保障的目标是在保障大数据自身安全的同时最大程度地保持其流动性和开放性特征。大数据安全保障涉及范围很广泛,可以从管理和技术两方面入手。管理方面应围绕大数据全生命周期,即数据产生、采集、传输、存储、处理、分析、发布、展示和应用等阶段进行防护;技术方面可以从物理安全、系统安全网络安全、存储安全、访问控制安全、审计安全等角度进行防护。

在管理层面,大数据安全保障的主要措施有:

(1)提前考虑安全问题 应该在启动大数据项目之前,组织安全团队和项目组成员认真讨论分析可能会出现的安全问题,然后再启动大数据系统建设工作,而不应该等到发生数据安全事件之后再采取补救措施。

(2)认真分析数据需求 在大数据项目的需求分析和设计过程中,应梳理数据存储需求,并时刻注意遵守监管部门的安全要求。即使所存储数据在监管部门的许可范围内,也要评估其潜在风险。例如,如果个人身份信息数据丢失,可能会造成声誉损失和经济损失。

(3)妥善保护重要数据资产 对于重要数据资产首先要知道其存放位置。在选择云计算服务供应商时,要仔细考察供应商的服务等级协议。如果云计算平台出现安全漏洞,则需要知道存储在云平台上的数据是否会受到影响。如果受到影响,需要确定谁该对此负责。

(4)建立严格的访问控制策略 通过访问控制策略限制企业用户的权限,坚持最小特权和权限相互制约的原则,防止某个人或某个小团体掌握过多的权限。定期对访问控制策略进行审核,确保策略管理的持续有效性。

(5)限制外部用户权限 当安全控制机制应用于企业外部用户时,更要小心处理。外部用户可能包括企业业务价值链上的各个部分,比如供应商、承包商或顾问等。从安全角度上看,需要根据他们的重要性级别限制他们的访问权限和访问能力。

(6)制定有效的应急预案 为了防止数据意外损失,必须建立应急响应和应急恢复方案,同时制定明确的数据回收策略,以确保企业的业务连续性,保护企业内部信息不会泄露出去,保证企业的品牌和声誉不受内部负面数据的影响。

在技术层面,大数据安全保障的主要措施包括:

(1)对所有重要的数据资产进行加密 加密是保护重要数据的有效措施,尽管加密可能会影响到系统计算效率,但是与不加密所面临的风险相比,运算性能的损失是值得的,尤其是对重要数据,应从数据的全生命周期进行加密保护,包括数据采集、传输、存储、应用等阶段。同时,还应采取严密的密钥管理措施,将加密密钥和加密的数据分开保存。

(2)做好用户身份识别 如果恶意用户进入大数据平台,很可能给企业造成不可挽回的损失。因此,企业需要管理访问大数据平台的人、结点和应用,采用高安全性身份识别技术,避免恶意用户进入集群。例如,在Hadoop中,可采用Kerberos网络身份识别协议来识别结点用户。

(3)加强权限控制和管理 除了关注用户权限外,还需要关注应用权限,防止权限超越用户或应用所需处理业务范围。可综合采用身份认证、访问授权技术来使管理员具有对云上的用户或应用权限进行控制的能力。由于大数据广泛采用远程访问机制,因此对远程访问的权限控制和管理尤其重要。

(4)做好日志记录和审计 记录完善的审计日志,可以做到时刻监控和记录大数据平台的运行状态,而审计则是让企业能够归纳,分析和报告用户的访问行为。两者的结合可以让企业观察到大数据平台什么时候出现故障,或者是否有恶意攻击及攻击的过程和结果等。虽然记录并审计日志会消耗一定的系统资源,但是当有需要的时候,这些数据是不可或缺的。

(5)确保应用安全 由于大数据在数据仓库中可以作为组件,被前端应用和后端应用同时调取。这些应用必须具备各自的信息安全功能,而不是附加的安全功能。因此,从应用开发过程就必须具有安全方面的考虑,后期则需要不断更新企业的安全管理策略,实现应用安全的不断优化改进。

(6)确保网络通信安全 大数据网络通信过程中,既要防止信息泄密又要防止信息被破坏,而黑客为了达到目的往往从网络最薄弱的地方发起攻击。因此,要做到网络通信安全,就要做好全网的网络通信安全保护,例如,部署一个SSL/TLS协议保护企业的全部网络通信,而不是仅仅保护一个子网。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈

相关推荐