课程大纲

每节课2小时

第1天:第1节:政府机构为何需要大数据商业智能的业务概述

  • 来自NIH、DoE的案例研究
  • 政府机构的大数据采用率及如何围绕大数据预测分析调整未来运营
  • 在DoD、NSA、IRS、USDA等领域的广泛应用
  • 大数据与遗留数据的接口
  • 预测分析中使能技术的基本理解
  • 数据集成与仪表板可视化
  • 欺诈管理
  • 业务规则/欺诈检测生成
  • 威胁检测与画像
  • 大数据实施的成本效益分析

第1天:第2节:大数据介绍-1

  • 大数据的主要特征——量、多样性、速度和真实性。用于处理大容量的MPP架构。
  • 数据仓库——静态模式,缓慢演进的数据集
  • MPP数据库如Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基于Hadoop的解决方案——对数据集结构无要求
  • 典型模式:HDFS、MapReduce(处理)、从HDFS检索
  • 批处理——适合分析/非交互式任务
  • 流数据:CEP流数据
  • 典型选择——CEP产品(如Infostreams、Apama、MarkLogic等)
  • 不太成熟的产品——Storm/S4
  • NoSQL数据库——(列式和键值):最适合作为数据仓库/数据库的分析辅助工具

第1天:第3节:大数据介绍-2

NoSQL解决方案

  • KV存储 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
  • KV存储 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV存储(分层) - GT.m、Cache
  • KV存储(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元组存储 - Gigaspaces、Coord、Apache River
  • 对象数据库 - ZopeDB、DB40、Shoal
  • 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 宽列存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据多样性:大数据中的数据清理问题介绍

  • RDBMS——静态结构/模式,不支持敏捷、探索性环境。
  • NoSQL——半结构化,在存储数据之前有足够的结构来存储数据,而无需精确的模式
  • 数据清理问题

第1天:第4节:大数据介绍-3:Hadoop

  • 何时选择Hadoop?
  • 结构化数据——企业数据仓库/数据库可以存储大量数据(但成本较高),并强加结构(不利于主动探索)
  • 半结构化数据——传统解决方案(DW/DB)难以处理
  • 数据仓库化=巨大的努力,即使在实施后也是静态的
  • 对于数据多样性和大容量,在廉价硬件上进行处理——HADOOP
  • 创建Hadoop集群所需的廉价硬件

Map Reduce /HDFS介绍

  • MapReduce——在多台服务器上分布式计算
  • HDFS——使数据在计算过程中本地可用(具有冗余)
  • 数据——可以是非结构化/无模式的(与RDBMS不同)
  • 开发人员负责理解数据
  • 编程MapReduce=使用Java(优缺点),手动将数据加载到HDFS

第2天:第1节:大数据生态系统——构建大数据ETL:大数据工具的宇宙——何时使用哪种工具?

  • Hadoop与其他NoSQL解决方案的比较
  • 对于交互式、随机访问数据
  • 在Hadoop上使用Hbase(列式数据库)
  • 随机访问数据,但有最大1 PB的限制
  • 不适合临时分析,适合日志记录、计数、时间序列
  • Sqoop - 从数据库导入到Hive或HDFS(JDBC/ODBC访问)
  • Flume——将数据流(如日志数据)导入HDFS

第2天:第2节:大数据管理系统

  • 移动部件,计算节点启动/失败:ZooKeeper——用于配置/协调/命名服务
  • 复杂管道/工作流:Oozie——管理工作流、依赖关系、链式任务
  • 部署、配置、集群管理、升级等(系统管理员):Ambari
  • 在云中:Whirr

第2天:第3节:商业智能中的预测分析-1:基本技术与基于机器学习的BI:

  • 机器学习介绍
  • 学习分类技术
  • 贝叶斯预测——准备训练文件
  • 支持向量机
  • KNN p-Tree代数与垂直挖掘
  • 神经网络
  • 大数据大变量问题——随机森林(RF)
  • 大数据自动化问题——多模型集成RF
  • 通过Soft10-M实现自动化
  • 文本分析工具——Treeminer
  • 敏捷学习
  • 基于代理的学习
  • 分布式学习
  • 预测分析的开源工具介绍:R、Rapidminer、Mahut

第2天:第4节预测分析生态系统-2:政府中常见的预测分析问题

  • 洞察分析
  • 可视化分析
  • 结构化预测分析
  • 非结构化预测分析
  • 威胁/欺诈/供应商画像
  • 推荐引擎
  • 模式检测
  • 规则/场景发现——失败、欺诈、优化
  • 根本原因发现
  • 情感分析
  • CRM分析
  • 网络分析
  • 文本分析
  • 技术辅助审查
  • 欺诈分析
  • 实时分析

第3天:第1节:实时和可扩展的Hadoop分析

  • 为什么常见的分析算法在Hadoop/HDFS中失败
  • Apache Hama——用于批量同步分布式计算
  • Apache SPARK——用于实时分析的集群计算
  • CMU Graphics Lab2——基于图的异步分布式计算方法
  • KNN p-Tree代数方法,来自Treeminer,用于降低硬件操作成本

第3天:第2节:电子发现和取证工具

  • 大数据与遗留数据的电子发现比较——成本与性能的比较
  • 预测编码和技术辅助审查(TAR)
  • 演示TAR产品(vMiner),了解TAR如何加快发现速度
  • 通过HDFS加快索引速度——数据的速度
  • NLP或自然语言处理——各种技术和开源产品
  • 外语电子发现——外语处理技术

第3天:第3节:大数据BI在网络安全中的应用——理解从快速数据收集到威胁识别的360度视图

  • 理解安全分析的基础——攻击面、安全配置错误、主机防御
  • 网络基础设施/大数据管道/实时分析响应ETL
  • 规定性 vs 预测性——基于固定规则 vs 从元数据中自动发现威胁规则

第3天:第4节:大数据在USDA中的应用:农业中的应用

  • 农业中的物联网(IoT)介绍——基于传感器的大数据和控制
  • 卫星成像及其在农业中的应用介绍
  • 整合传感器和图像数据,用于土壤肥力、种植建议和预测
  • 农业保险与大数据
  • 作物损失预测

第4天:第1节:政府中的大数据BI欺诈预防——欺诈分析:

  • 欺诈分析的基本分类——基于规则 vs 预测分析
  • 监督 vs 无监督机器学习用于欺诈模式检测
  • 供应商欺诈/项目超额收费
  • 医疗保险和医疗补助欺诈——索赔处理的欺诈检测技术
  • 旅行报销欺诈
  • IRS退税欺诈
  • 案例研究和实时演示将在数据可用时提供。

第4天:第2节:社交媒体分析——情报收集与分析

  • 用于提取社交媒体数据的大数据ETL API
  • 文本、图像、元数据和视频
  • 从社交媒体中提取情感分析
  • 社交媒体中的上下文和非上下文过滤
  • 社交媒体仪表板,用于整合不同的社交媒体
  • 社交媒体档案的自动画像
  • 通过Treeminer工具演示每种分析。

第4天:第3节:大数据在图像处理和视频流中的应用

  • 大数据中的图像存储技术——超过PB级数据的存储解决方案
  • LTFS和LTO
  • GPFS-LTFS(大数据图像的分层存储解决方案)
  • 图像分析的基础
  • 对象识别
  • 图像分割
  • 运动跟踪
  • 3D图像重建

第4天:第4节:大数据在NIH中的应用:

  • 生物信息学的新兴领域
  • 元基因组学与大数据挖掘问题
  • 大数据预测分析在药物基因组学、代谢组学和蛋白质组学中的应用
  • 下游基因组学过程中的大数据
  • 大数据预测分析在公共卫生中的应用

大数据仪表板,用于快速访问和显示多样化数据:

  • 将现有应用平台与大数据仪表板集成
  • 大数据管理
  • 大数据仪表板案例研究:Tableau和Pentaho
  • 使用大数据应用在政府中推送基于位置的服务
  • 跟踪系统和管理

第5天:第1节:如何证明大数据BI在组织中的实施:

  • 定义大数据实施的ROI
  • 案例研究:节省分析师收集和准备数据的时间——提高生产力收益
  • 案例研究:节省许可数据库成本带来的收益
  • 基于位置的服务带来的收益
  • 欺诈预防带来的节省
  • 综合电子表格方法,计算大数据实施的近似费用与收益/节省。

第5天:第2节:逐步替换遗留数据系统为大数据系统的步骤:

  • 理解实际的大数据迁移路线图
  • 在架构大数据实施之前需要了解的重要信息
  • 计算数据量、速度、多样性和真实性的不同方法
  • 如何估算数据增长
  • 案例研究

第5天:第4节:大数据供应商及其产品回顾。问答环节:

  • Accenture
  • APTEAN(原CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(原10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

要求

  • 对政府领域的基本业务操作和数据系统有基本了解
  • 对SQL/Oracle或关系数据库有基本理解
  • 对统计学有基本理解(电子表格水平)
 35 小时

客户评论 (1)

即将举行的公开课程

课程分类