教育云 医疗云 政务云 游戏云 软件云 养老云 智能交通云
PM2.5监控云 中小企业云 云数据中心 园区云 大数据云
案例总结
云服务平台 桌面云服务平台 软件云服务平台 游戏云服务平台
联系方式 电子地图 其他

大数据分析平台

大数据平台集企业友好性,流计算,高可用及容灾和SQL on Hadoop 为一体,旨在解决大数据进入企业的过程中如何适应企业的生长环境,与企业已有的生态系统的方方面面共同生存的问题。快速就绪企业级大数据能力,实现数据工厂式的自动化生产。

技术要点

大规模数据存储组织与管理系统

针对云平台大规模数据存储与管理的需求,研制了分布式块存储系统和分布式文件系统,实现大规模数据的高效存储和管理。

(1)分布式块存储系统:针对提供大数据存储服务的需求,研发动态可重构技术、协作式数据缓存技术和分布式容错存储技术等关键技术,建立分布式块存储服务的基本架构体系。

(2)分布式文件系统:针对在云存储规模高速增长的环境下,跨域大规模数据存储的需求,研制面向跨物理区域多个异构云平台的分布式文件系统,向上层应用和用户提供数据存储服务。

(3)面向使用模式的性能优化技术:针对在分布式跨域的分布式文件系统中,海量信息环境下资源访问效率的问题。采用cache策略、预取策略、负载均衡、文件拆分、删冗存储以及并行传输等机制,提高资源访问效率。

大规模数据计算与服务平台

针对云平台大规模数据处理的需求,研制基于事件处理的流式计算平台、在线/离线数据处理计算平台以及超大规模图计算平台。

(1)基于事件处理的流式计算平台:研制流数据处理模型,流式处理的基础设施结构,流式计算中的错误梳理能力以及流计算对于上层的应用的支持能力。建立在线的实时流式计算模式,实现对大规模实时流数据进行处理。

(2)无耦合MapReduce离线数据计算平台:针对大规模分布式数据离线计算需求,研制行列混合式数据存储结构、研制Map/Reduce计算框架及调度优化技术、研制多数据源快速并行加载技术、研制高通量快速并行数据交换机制以及研制基于结构化半结构化数据存储引擎的数据处理技术。

(3)支持性能隔离的多租户在线数据计算平台: 针对大规模分布式数据的在线计算需求,研制分布式数据存储及布局优化技术,设计数据密集型计算专用通信协议,提出服务端聚集计算框架,实现多租户、多应用性能隔离技术及方法。

(4)超大规模图计算平台:针对处理网页链接关系和社会关系图等大型图算法应用,提出一套系统的理论与方法来解决大规模图在动态环境中的查询和存储问题。研制图的表达方式、图划分策略、图的计算模型以及图的通信模型。

(5)性能模型与系统优化技术:针对大规模图密集型计算需求,研制数据密集型计算负载特征建模和设计高通量数据专用协处理器。

大规模数据智能分析算法库研发

随着互联网和社会网络的迅猛发展,非结构化数据占有的比例大幅增加,针对如何高效分析这些非结构化数据,研制海量图数据算法库和社会数据挖掘算法库。

(1)海量数据的新型图查询技术:针对社交网络带来的新型需求和社交网络的大规模问题,研制新型查询语言、高效的查询算法、增量算法和分布式查询方法。

(2)面向海量数据的新型图存储技术:针对社会网络中海量数据的大规模问题,研制通过图的表示方式来在单个计算节点节省存储空间,图的划分策略来在多个计算节点合理的存储图数据。

(3)大规模社会网络中的社群结构分析技术: 研制社群结构的分析与建模方法,预测信息的传播方式及速度,以发现用户的隐性行为。

(4)网络多尺度重叠社群发现与分析:针对在线社交网络的社群的多尺度性,不同社群之间相互重叠性,探索社群的多尺度特性和社群关联、重叠及演化关系,研制多尺度重叠社群结构的统一度量方法。

(5)面向社会网络中海量数据的个性化推荐算法:针对社群信息的可用度评测需求,根据用户在社会网络中的行为模式对用户进行个性化的信息推荐,研制数据可用性模型的自适应问题、实现海量数据的新型图查询技术。

功能点

SQL on Hadoop

传统的数据仓库技术由于现有IT架构、实现复杂度和时间窗口的限制,已经不能有效的支持业务对于即席查询的要求。因此,传统数据仓库的首要目标更倾向于为了回答预先精心定义的问题而搜集和组织数据成为某种特定的形态以便于决策分析和展现。然而,即席查询能力意味着数据可以服务于更多的、IT技能参差不齐的用户。拉近数据和业务的距离、加速信息到知识的转化、优化资源、提高生产力。大数据平台提供了为实现即席查询能力所需要的底层平台和数据组织框架。使IT部门能够更加便捷的支撑业务部门即席查询的需求:

  • 对开发人员友好的数据模型映射和持久化到HBase;
  • 数据库的存储模型支持多种高级数据类型, 支持记录和字段类型、版本控制和多语言;
  • 一个灵活的、可配置的索引映射机制确保自动、高效、互动、增量或批量建立索引及维护;
  • 强大企业级的信息检索能力以及可维护性;
流计算

流计算技术的出现是因为客户面对的信息量急剧增加,而且需要更快地解释信息并根据信息采取措施。大数据计算平台可以捕捉数据流、筛选内容并调用复杂的分布式事件计算,从而在最短的时间内把数据关联、分类和转换为有价值的信息。

企业友好性

大数据平台提供了能更加方便的实现操作系统和集群的自动配置、管理与监控。通过拖拽的方式定义服务器节点角色,自动计算参数最优配置,完成大数据平台的自动部署。在管理控制台中,用户可根据需求进行HA管理,查看告警,监控和用户管理等功能。

HA管理

HA管理即高可用性High Availability,保证所要监控的应用在任何一个节点上工作正常,通过自动、手动管理或者强制转换节点的状态,缩短因日常维护操作和突发异常所导致的非计划停机,以提高系统和应用的高可用性。

集群告警

集群告警涵盖了告警日志,告警类型,告警配置项和告警参数。客户可以根据需要在告警配置项中配置CPU过载,内存过载,磁盘空间预警和网络故障选项。如果性能指标超过阀值,大数据平台除了在管理Web页面展示并预警外,还支持邮件、短信等告知方式。

集群监控

1.集群性能监控。可以查看集群的负载、CPU、网络、内存的使用情况以及集群中mapreduce的执行情况。集群节点性能监控,可以查看各个节点的具体负载情况。2.集群磁盘监控。此处可以查看集群磁盘的使用情况,以及集群中节点的情况。数据压缩压缩的本质是CPU于IO资源的平衡。在CPU资源受限的情况下,牺牲了计算资源获得的是更少的IO吞吐量和数据所占用的存储空间。此外,压缩和解压缩的算法也要满足分布式数据存储和计算的要求。大数据平台提供了流性的数据实时压缩与解压缩的能力。在不影响数据的增删改操作的前提下,很好的平衡了CPU开销和压缩比的关系,在获得高压缩比(高于四倍)的同时,CPU开销极低。同时压缩算法保证了不因数据操作而出现数据膨胀的问题。用户管理提供了不同权限的分级用户管理方式,并可为每个系统节点提供角色管理。通过用户权限认证设置,实现不同用户级别访问不同内容,从而保证了数据安全。

应用场景

金融

商业银行每天都会产生大量的交易数据,根据人民银行的要求,有相当一部分需要长时间保存(10年以上)。这些历史数据既需要占用大量的磁盘空间,同时还要保证一定的数据活性,即随时提供数据服务。这导致了银行需要每年付出大量的成本投入,来满足各部门业务人员在大量数据中进行高速查询所需数据的需要。大数据平台产品可以利用分布式数据库的特点,不仅让数据保留了应有的活性还可以提供非常快速的检索服务。

教育
通信

海量数据实时查询:目前运营商都面临着如何为手机用户提供基于上网详单数据的查询服务。上网详单的数据量和传统经分系统相比,其数据体量更加庞大,每月可达几百亿条记录。在这样的数据量级下,如何能够支持上百并发用户的秒级访问,提高客户服务质量,减少投诉,最大限度的保留客户和吸引新客户,成为运营商面临的主要挑战。使用大数据产品,尤其是其中的分布式数据库,可以支持上千并发用户执行几十到几百毫秒级别的响应速度。无论是市场分析人员还是前端座席人员都可以享受到高速的数据服务。

经营分析的翅膀:经营分析系统是运营商的核心系统之一,所有数据都会通过经分系统展示到各级领导和所有业务分析人员面前。该系统的时效性决定着是否能够用第一手的、准确的信息来提供决策支持。在经分系统中的数据采集整合处理阶段,是决定时效性的第一关键步骤。而由于涉及了包括数据加载、清洗和汇总等多步复杂操作和计算,传统架构需要消耗掉的时间让人难以忍受。相比之下,大数据产品可以利用分布式架构的并行计算能力,使用普通的X86架构集群就能够实现比传统小型机更高的性能。不仅加载速度可以达到每小时几个TB(根据集群规模而定),而且数据的清洗加工和汇总也比传统架构节省了大量的时间。大数据为经分系统插上了翅膀! 用户的行为会说话

能源

随着智能电网的建设和发展,智能电网的“中枢神经”积累了大量基础用电数据,包括电力企业生产数据,如发电量、电压稳定性等方面的数据;电力企业运营数据,如交易电价、售电量、用电客户等方面的数据;电力企业管理数据,如ERP、一体化平台、协同办公等方面的数据等。仅拿智能电表的数据来说,与传统电表每年每只产生12条数据相比,假设智能电表每个设备15分钟产生一组数据,一小时4条数据的话,每年产生4 * 24 * 365 = 35040条数据,如果一个家庭有10个设备需要监控,则一年产生约35万条数据,对于一个100万家庭的中等规模城市,一年产生的数据可能高达400TB。这还仅仅是智能电表的数据,据统计2009年,美国电力行业存储了约194PB的数据;平均每家企业存储1.5PB的数据。

如能充分利用这些基于电网实际的数据,对其进行深入分析,便可以提供大量的高附加值服务。这些增值服务将有利于发展清洁能源(智能电网应用先进的控制技术以及储能技术,完善清洁能源发电并网的技术标准,提高了清洁能源接纳能力;合理规划大规模清洁能源基地网架结构和送端电源结构,应用特高压、柔性输电等技术,满足了大规模清洁能源电力输送的要求;智能电网对大规模间歇性清洁能源进行合理、经济调度,提高了清洁能源生产运行的经济性。),电网安全检测与控制(包括大灾难预警与处理、供电与电力调度决策支持和更准确的用电量预测),客户用电行为分析与客户细分,电力企业精细化运营管理等等,实现更科学的需求侧管理。 城市用电可视化

医疗

随着可以植入人体的无线可标识设备被越来越广泛的用来记录人们的健康状况,未来的大数据将帮助我们在各种紧急情况发生的时候尽可能挽救每一位病人的生命。特别是对那些患有慢性病或者特殊疾病(如:糖尿病、癌症、冠心病、中风、慢性障碍性肺病、认知障碍、疾病急性发作、老年痴呆症)的病人、那些以前进行过特定手术(如:植入过复杂医疗器械(如:心脏起搏器和支架)、进行过关节置换或者器官移植的病人、以及失去自主知觉而不能在手术室中与医护人员交流自己情况的病人,这些健康信息将帮助医护人员更好的完成他们的工作.会说话的药品数据药品生产和运输环节的保密性和安全性将是保障服用它们的患者的健康的关键性问题。通过在药品上附加智能标签,在供应链中监控药品的运输环节随时获取药品的状态参数,将为我们解决上述问题提供必要的条件。比如:我们可以有效监控那些需要特殊储存和运输条件(如,需要冷链运输和储存)的药品,对它们进行持续的、全流程跟踪和监控;在这些药品所需的运输环境遭到破坏时进行及时的处理。 同时,药品上的智能标签还将可以使病人直接受益。例如:通过标签中存储的数据,药品可以告诉消费者所需服用的必要剂量、保质期以及真实可靠的药物治疗使用说明书等。

大数据于医疗帮助医生了解新病人,或新治疗手段。但是病人病历散布在医院的各个部门,格式各异,更糟糕的是,各部门都用自己的术语创建病历。 将病历集中到云端,医生可通过语义搜索查找任何病历中的相关信息。