感谢您发送咨询!我们的团队成员将很快与您联系。
感谢您发送预订!我们的团队成员将很快与您联系。
课程大纲
每节课2小时
第1天:第1节:政府机构为何需要大数据商业智能的业务概述
- 来自NIH、DoE的案例研究
- 政府机构的大数据采用率及如何围绕大数据预测分析调整未来运营
- 在DoD、NSA、IRS、USDA等领域的广泛应用
- 大数据与遗留数据的接口
- 预测分析中使能技术的基本理解
- 数据集成与仪表板可视化
- 欺诈管理
- 业务规则/欺诈检测生成
- 威胁检测与画像
- 大数据实施的成本效益分析
第1天:第2节:大数据介绍-1
- 大数据的主要特征——量、多样性、速度和真实性。用于处理大容量的MPP架构。
- 数据仓库——静态模式,缓慢演进的数据集
- MPP数据库如Greenplum、Exadata、Teradata、Netezza、Vertica等
- 基于Hadoop的解决方案——对数据集结构无要求
- 典型模式:HDFS、MapReduce(处理)、从HDFS检索
- 批处理——适合分析/非交互式任务
- 流数据:CEP流数据
- 典型选择——CEP产品(如Infostreams、Apama、MarkLogic等)
- 不太成熟的产品——Storm/S4
- NoSQL数据库——(列式和键值):最适合作为数据仓库/数据库的分析辅助工具
第1天:第3节:大数据介绍-2
NoSQL解决方案
- KV存储 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
- KV存储 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV存储(分层) - GT.m、Cache
- KV存储(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元组存储 - Gigaspaces、Coord、Apache River
- 对象数据库 - ZopeDB、DB40、Shoal
- 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 宽列存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
数据多样性:大数据中的数据清理问题介绍
- RDBMS——静态结构/模式,不支持敏捷、探索性环境。
- NoSQL——半结构化,在存储数据之前有足够的结构来存储数据,而无需精确的模式
- 数据清理问题
第1天:第4节:大数据介绍-3:Hadoop
- 何时选择Hadoop?
- 结构化数据——企业数据仓库/数据库可以存储大量数据(但成本较高),并强加结构(不利于主动探索)
- 半结构化数据——传统解决方案(DW/DB)难以处理
- 数据仓库化=巨大的努力,即使在实施后也是静态的
- 对于数据多样性和大容量,在廉价硬件上进行处理——HADOOP
- 创建Hadoop集群所需的廉价硬件
Map Reduce /HDFS介绍
- MapReduce——在多台服务器上分布式计算
- HDFS——使数据在计算过程中本地可用(具有冗余)
- 数据——可以是非结构化/无模式的(与RDBMS不同)
- 开发人员负责理解数据
- 编程MapReduce=使用Java(优缺点),手动将数据加载到HDFS
第2天:第1节:大数据生态系统——构建大数据ETL:大数据工具的宇宙——何时使用哪种工具?
- Hadoop与其他NoSQL解决方案的比较
- 对于交互式、随机访问数据
- 在Hadoop上使用Hbase(列式数据库)
- 随机访问数据,但有最大1 PB的限制
- 不适合临时分析,适合日志记录、计数、时间序列
- Sqoop - 从数据库导入到Hive或HDFS(JDBC/ODBC访问)
- Flume——将数据流(如日志数据)导入HDFS
第2天:第2节:大数据管理系统
- 移动部件,计算节点启动/失败:ZooKeeper——用于配置/协调/命名服务
- 复杂管道/工作流:Oozie——管理工作流、依赖关系、链式任务
- 部署、配置、集群管理、升级等(系统管理员):Ambari
- 在云中:Whirr
第2天:第3节:商业智能中的预测分析-1:基本技术与基于机器学习的BI:
- 机器学习介绍
- 学习分类技术
- 贝叶斯预测——准备训练文件
- 支持向量机
- KNN p-Tree代数与垂直挖掘
- 神经网络
- 大数据大变量问题——随机森林(RF)
- 大数据自动化问题——多模型集成RF
- 通过Soft10-M实现自动化
- 文本分析工具——Treeminer
- 敏捷学习
- 基于代理的学习
- 分布式学习
- 预测分析的开源工具介绍:R、Rapidminer、Mahut
第2天:第4节预测分析生态系统-2:政府中常见的预测分析问题
- 洞察分析
- 可视化分析
- 结构化预测分析
- 非结构化预测分析
- 威胁/欺诈/供应商画像
- 推荐引擎
- 模式检测
- 规则/场景发现——失败、欺诈、优化
- 根本原因发现
- 情感分析
- CRM分析
- 网络分析
- 文本分析
- 技术辅助审查
- 欺诈分析
- 实时分析
第3天:第1节:实时和可扩展的Hadoop分析
- 为什么常见的分析算法在Hadoop/HDFS中失败
- Apache Hama——用于批量同步分布式计算
- Apache SPARK——用于实时分析的集群计算
- CMU Graphics Lab2——基于图的异步分布式计算方法
- KNN p-Tree代数方法,来自Treeminer,用于降低硬件操作成本
第3天:第2节:电子发现和取证工具
- 大数据与遗留数据的电子发现比较——成本与性能的比较
- 预测编码和技术辅助审查(TAR)
- 演示TAR产品(vMiner),了解TAR如何加快发现速度
- 通过HDFS加快索引速度——数据的速度
- NLP或自然语言处理——各种技术和开源产品
- 外语电子发现——外语处理技术
第3天:第3节:大数据BI在网络安全中的应用——理解从快速数据收集到威胁识别的360度视图
- 理解安全分析的基础——攻击面、安全配置错误、主机防御
- 网络基础设施/大数据管道/实时分析响应ETL
- 规定性 vs 预测性——基于固定规则 vs 从元数据中自动发现威胁规则
第3天:第4节:大数据在USDA中的应用:农业中的应用
- 农业中的物联网(IoT)介绍——基于传感器的大数据和控制
- 卫星成像及其在农业中的应用介绍
- 整合传感器和图像数据,用于土壤肥力、种植建议和预测
- 农业保险与大数据
- 作物损失预测
第4天:第1节:政府中的大数据BI欺诈预防——欺诈分析:
- 欺诈分析的基本分类——基于规则 vs 预测分析
- 监督 vs 无监督机器学习用于欺诈模式检测
- 供应商欺诈/项目超额收费
- 医疗保险和医疗补助欺诈——索赔处理的欺诈检测技术
- 旅行报销欺诈
- IRS退税欺诈
- 案例研究和实时演示将在数据可用时提供。
第4天:第2节:社交媒体分析——情报收集与分析
- 用于提取社交媒体数据的大数据ETL API
- 文本、图像、元数据和视频
- 从社交媒体中提取情感分析
- 社交媒体中的上下文和非上下文过滤
- 社交媒体仪表板,用于整合不同的社交媒体
- 社交媒体档案的自动画像
- 通过Treeminer工具演示每种分析。
第4天:第3节:大数据在图像处理和视频流中的应用
- 大数据中的图像存储技术——超过PB级数据的存储解决方案
- LTFS和LTO
- GPFS-LTFS(大数据图像的分层存储解决方案)
- 图像分析的基础
- 对象识别
- 图像分割
- 运动跟踪
- 3D图像重建
第4天:第4节:大数据在NIH中的应用:
- 生物信息学的新兴领域
- 元基因组学与大数据挖掘问题
- 大数据预测分析在药物基因组学、代谢组学和蛋白质组学中的应用
- 下游基因组学过程中的大数据
- 大数据预测分析在公共卫生中的应用
大数据仪表板,用于快速访问和显示多样化数据:
- 将现有应用平台与大数据仪表板集成
- 大数据管理
- 大数据仪表板案例研究:Tableau和Pentaho
- 使用大数据应用在政府中推送基于位置的服务
- 跟踪系统和管理
第5天:第1节:如何证明大数据BI在组织中的实施:
- 定义大数据实施的ROI
- 案例研究:节省分析师收集和准备数据的时间——提高生产力收益
- 案例研究:节省许可数据库成本带来的收益
- 基于位置的服务带来的收益
- 欺诈预防带来的节省
- 综合电子表格方法,计算大数据实施的近似费用与收益/节省。
第5天:第2节:逐步替换遗留数据系统为大数据系统的步骤:
- 理解实际的大数据迁移路线图
- 在架构大数据实施之前需要了解的重要信息
- 计算数据量、速度、多样性和真实性的不同方法
- 如何估算数据增长
- 案例研究
第5天:第4节:大数据供应商及其产品回顾。问答环节:
- Accenture
- APTEAN(原CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB(原10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware(EMC的一部分)
要求
- 对政府领域的基本业务操作和数据系统有基本了解
- 对SQL/Oracle或关系数据库有基本理解
- 对统计学有基本理解(电子表格水平)
35 小时
客户评论 (1)
培训师能够根据组织的需求调整课程内容,而不仅仅是为了完成课程而提供培训。
Masilonyane - Revenue Services Lesotho
课程 - Big Data Business Intelligence for Govt. Agencies
机器翻译