课程大纲

每节课为2小时

第 1 天:第 1 节:业务概述,为什么在 Govt.

  • 美国国立卫生研究院、美国能源部的案例研究
  • 政府机构的大数据适应率,以及他们如何围绕大数据调整未来的运营Predictive Analytics
  • 在国防部、国家安全局、美国国税局、美国农业部等广泛的应用领域。
  • 将大数据与遗留数据对接
  • 对预测分析中的使能技术有基本的了解
  • 数据集成和仪表板可视化
  • 欺诈管理
  • 业务规则/欺诈检测生成
  • 威胁检测和分析
  • 大数据实施的成本效益分析

第一天:第二节:Big Data-1介绍

  • 大数据的主要特征——数量、种类、速度和准确性。卷的 MPP 体系结构。
  • 数据仓库 – 静态模式,缓慢演变的数据集
  • MPP 数据库,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • 基于Hadoop的解决方案 – 对数据集的结构没有条件。
  • 典型模式:HDFS、MapReduce(crunch)、从 HDFS 检索
  • 批处理 - 适用于分析/非交互式
  • 卷 : CEP 流数据
  • 典型选择 – CEP 产品(例如 Infostreams、Apama、MarkLogic 等)
  • 生产准备不足 – Storm/S4
  • NoSQL 数据库 – (列式和键值):最适合作为数据仓库/数据库的分析辅助工具

第 1 天:第 -3 节:Big Data-2 简介

否SQL个解决方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 数据库 (OnDB)
  • KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV 存储(分层)- GT.m、缓存
  • KV Store(已订购)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV 缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元组存储 - Gigaspaces、Coord、Apache River
  • 对象数据库 - ZopeDB、DB40、Shoal
  • 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 广泛的列式存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据的种类:大数据中的Data Cleaning问题简介

  • RDBMS – 静态结构/模式,不提倡敏捷、探索性环境。
  • NoSQL – 半结构化的,足够的结构来存储数据,在存储数据之前没有精确的模式
  • 数据清理问题

第一天:第四节:大数据介绍-3:Hadoop

  • 何时选择 Hadoop?
  • 结构化 - 企业数据仓库/数据库可以存储大量数据(有成本),但会强加结构(不利于主动探索)
  • SEMI 结构化数据 – 传统解决方案 (DW/DB) 难以实现
  • 仓储数据 = 即使在实施后也付出了巨大的努力和静态
  • 对于各种数据和数据量,在商用硬件上处理 – HADOOP
  • 创建 Hadoop 集群所需的商品硬件

Map Reduce /HDFS 简介

  • MapReduce – 将计算分布在多个服务器上
  • HDFS – 使数据在本地可用于计算过程(具有冗余)
  • 数据 – 可以是非结构化的/无模式的(与 RDBMS 不同)
  • 开发人员有责任理解数据
  • Programming MapReduce = 使用 Java(优点/缺点),手动将数据加载到 HDFS 中

第 2 天:第 1 节:Big Data 生态系统建设 Big Data ETL:Big Data 工具的世界——使用哪一个以及何时使用?

  • Hadoop 与其他 NoSQL 解决方案
  • 用于交互式、随机访问数据
  • Hadoop之上的Hbase(面向列的数据库)
  • 随机访问数据,但施加了限制(最大 1 PB)
  • 不适合临时分析,适合日志记录、计数、时间序列
  • Sqoop - 从数据库导入到 Hive 或 HDFS(JDBC/ODBC 访问)
  • Flume – 将数据(例如.log数据)流式传输到HDFS

第2天:第二节:大数据Management系统

  • 移动部件、计算节点启动/失败:ZooKeeper - 用于配置/协调/命名服务
  • 复杂的流水线/工作流:Oozie – 管理工作流、依赖项、菊花链
  • 部署、配置、群集管理、升级等(系统管理员):Ambari
  • 在云中:呼啸

第 2 天:第 3 节:Business Intelligence 中的预测分析 -1:基础技术和基于机器学习的 BI:

  • 机器学习简介
  • 学习分类技术
  • 贝叶斯预测准备训练文件
  • 支持向量机
  • KNN p-Tree代数和垂直挖掘
  • 神经网络
  • Big Data 大变量问题 -随机森林 (RF)
  • Big Data 自动化问题 – 多模型集成射频
  • 通过 Soft10-M 实现自动化
  • 文本分析工具-Treeminer
  • 敏捷学习
  • 基于智能体的学习
  • 分布式学习
  • 用于预测分析的开源工具简介:R、Rapidminer、Mahut

第 2 天:第 4 节预测分析生态系统 2:Govt 中常见的预测分析问题。

  • 洞察分析
  • 可视化分析
  • 结构化预测分析
  • 非结构化预测分析
  • 威胁/欺诈之星/供应商分析
  • 推荐引擎
  • 模式检测
  • 规则/场景发现 - 失败、欺诈、优化
  • 发现根本原因
  • 情绪分析
  • CRM分析
  • 网络分析
  • 文本分析
  • 技术辅助审查
  • 欺诈分析
  • 实时分析

第3天:Sesion-1:实时和Scala在Hadoop上变得分析

  • 为什么常见的分析算法在 Hadoop/HDFS 中失败
  • Apache Hama- 用于批量同步分布式计算
  • Apache SPARK-用于实时分析的集群计算
  • CMU Graphics Lab2 - 基于图的分布式计算异步方法
  • Treeminer 基于 KNN p-Algebra 的方法可降低硬件运营成本

第 3 天:第 2 节:电子发现和取证工具

  • 基于 Big Data 的电子数据展示与旧数据 – 成本和性能的比较
  • 预测编码和技术辅助审查 (TAR)
  • Tar 产品 (vMiner) 的现场演示,了解 TAR 如何工作以加快发现速度
  • 通过 HDFS 更快地建立索引 – 数据速度
  • NLP 或自然语言处理 – 各种技术和开源产品
  • 外语电子取证 - 外语处理技术

第 3 天:第 3 节:大数据 BI for Cyber Security – 了解从快速数据收集到威胁识别的整个 360 度视图

  • 了解安全分析的基础知识 - 攻击面、安全配置错误、主机防御
  • 网络基础设施/大型数据管道/用于实时分析的响应 ETL
  • 规范性与预测性 – 从元数据中修复基于规则与自动发现威胁规则

第 3 天:第 4 节:Big Data 在美国农业部:在农业中的应用

  • 基于农业传感器的IoT(物联网)简介Big Data和控制
  • 卫星成像简介及其在农业中的应用
  • 集成传感器和图像数据,用于土壤肥力、栽培建议和预测
  • 农业保险和 Big Data
  • 作物损失预测

第 4 天:第 1 节:Govt-Fraud 分析中来自大数据的欺诈预防 BI:

  • 欺诈分析的基本分类 - 基于规则的分析与预测分析
  • 用于欺诈模式检测的监督式与无监督式机器学习
  • 供应商欺诈/项目多收费用
  • Medicare 和 Medicaid 欺诈 - 用于索赔处理的欺诈检测技术
  • 差旅报销欺诈
  • 国税局退税欺诈
  • 只要有数据,就会提供案例研究和现场演示。

第 4 天:第 2 节:Social Media 分析 - 情报收集和分析

  • 用于提取社交媒体数据的大数据 ETL API
  • 文本、图像、元数据和视频
  • 来自社交媒体提要的情绪分析
  • 社交媒体提要的上下文和非上下文过滤
  • Social Media 用于整合各种社交媒体的仪表板
  • 社交媒体资料的自动分析
  • 每个分析的现场演示将通过Treeminer工具提供。

第 4 天:第 3 节:Big Data 图像处理和视频馈送分析

  • Big Data 中的图像存储技术 - 超过 PB 的数据的存储解决方案
  • LTFS 和 LTO
  • GPFS-LTFS(大图像数据分层存储解决方案)
  • 图像分析的基础
  • 物体识别
  • 图像分割
  • 运动跟踪
  • 3D图像重建

第 4 天:第 4 节:Big Data NIH 中的应用:

  • Bio-信息学的新兴领域
  • 元基因组学和大数据挖掘问题
  • 药物基因组学、代谢组学和蛋白质组学的大数据预测分析
  • 基因组学下游流程中的大数据
  • 大数据预测分析在公共卫生中的应用

Big Data 用于快速访问各种数据和显示的仪表板:

  • 现有应用平台与大数据仪表盘的整合
  • 大数据管理
  • 大数据仪表板案例研究:Tableau 和 Pentaho
  • 使用大数据应用程序在政府中推送基于位置的服务。
  • 跟踪系统和管理

第 5 天:第 1 节:如何证明 Big Data BI 在组织内实施的合理性:

  • 定义 Big Data 实施的 ROI
  • 节省分析师收集和准备数据时间的案例研究 - 提高生产力
  • 通过节省许可数据库成本获得收入的案例研究
  • 基于位置的服务的收入收益
  • 从欺诈预防中节省成本
  • 一种集成的电子表格方法,用于计算 Big Data 实施的近似费用与收入收益/节省。

第 5 天:第 2 节:将遗留数据系统替换为 Big Data 系统的分步过程:

  • 了解实用 Big Data 迁移路线图
  • 在构建 Big Data 实现之前需要哪些重要信息
  • 计算数据量、速度、多样性和准确性的不同方法有哪些
  • 如何估算数据增长
  • 案例研究

第 5 天:第 4 节:审查 Big Data 供应商并审查他们的产品。问答环节:

  • 埃森哲
  • APTEAN(前身为 CDC Software)
  • 思科系统
  • 克劳德拉
  • 山谷
  • 电磁兼容
  • GoodData公司
  • 番石榴
  • 日立数据系统
  • 霍顿工厂
  • 惠普
  • IBM公司
  • 信息网
  • 英特尔
  • Jaspersoft的
  • Microsoft
  • MongoDB(以前称为 10Gen)
  • MU西格玛
  • NetApp 的
  • Opera 解决方案
  • 神谕
  • 贝尔塔霍
  • 普拉特福拉
  • Qliktech的
  • 量子
  • 机架空间
  • 革命分析
  • Salesforce的
  • 树液
  • SAS学院
  • 西森
  • 软件 AG/Terracotta
  • Soft10 自动化
  • Splunk的
  • 平方
  • Supermicro 超微
  • Tableau 软件
  • Teradata的
  • 大分析思维
  • 潮汐系统
  • 树矿工
  • VMware (EMC 的一部分)

要求

  • 在其领域内了解政府业务运营和数据系统的基本知识
  • 基本了解 SQL/Oracle 或关系数据库
  • 基本了解 Statistics(电子表格级别) 
 35 小时

人数


每位参与者的报价

客户评论 (1)

即将举行的公开课程

课程分类