產品介紹

整體解決方案為用戶提供TB/PB級別以上的數據分析處理能力、一站式的數據運營能力和一體化的數據分析。方案涉及數據的ETL、清洗、質量管控、治理、共享、發布、權限管控的全生命周期管理,方案產品在數據基礎設施層面,提供強大的集群能力,并且支持多集群部署;在數據處理層面,提供離線計算引擎、實時OLAP計算引擎與流式計算引擎;在開放服務層面,實現多租戶數據管理與數據安全交換體系,對外開放完整的SDK及API,滿足定制化需求;在數據應用層面,提供數據開發工具、基礎數據應用及業務數據應用,涵蓋數據采集、數據開發、數據挖掘到業務數據應用的全閉環數據處理流程。

方案優勢或方案特點                       

1、 并行計算和云計算模式的大規模離線計算。

海量數據增加了快速獲取信息的困難。產品通過應用并行計算、云計算、內存數據庫等,基于Hadoop、spark等技術,提供支持處理TB、PB級別的海量數據的數據服務,同時,在語法解析及MapReduce任務轉化方面,產品在兼容Hive語法語義和開發應用各種基于規則的優化器的前提下,增加全新的優化規則,大大提升數據處理的性能。

2、高性能分布式ETL技術。

采用分布式架構設計,同時支持集群部署,可以在多個工作節點上分配作業以加快處理速度。當面對大量數據的較小ETL任務時,群集將在所有可用的節點或預先分配,通過統一的調度進行作業。相反的情況,在處理大量數據的單一任務時,集群會對任務進行分解,在不同工作節點運行任務片段,進行聚合,進一步提升集成任務性能。

3、 模糊邏輯分析和集群預測模型系統。

平臺包含幾十種智能分析和創新的建模技術,例如記分卡、Logistic回歸、 神經網絡模型、決策樹等都是有監督的預測模型。結合模糊邏輯分析,可以精確識別信息并準確地將數據轉化為洞察力和價值。

行業應用

產品在海關行業已經具體落地,針對全國海關執法、非執法領域全業務的監管要求建立一個面向海關行業的整體數據分析解決方案,從而使海關形成基于現代先進技術的科學管理模式,實現海關數據分析的智能化。研究主要應用數學統計技術、數據挖掘技術、大數據存儲與處理、并行與分布式計算、云計算等多種現代技術,采用分布式架構和??榛杓?,完成數據采集、存儲與分析、參數估計、模型建立、科學管理決策。另外,通過不斷完善和豐富分析功能及模型,實現機器學習,進一步探索基于大數據的新的分析預測數學模型,提升海關數據統計分析工作的水平和預警預測的能力。