Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
课程大纲
每节课为2小时
第 1 天:第 1 节:业务概述,为什么在 Govt.
- 美国国立卫生研究院、美国能源部的案例研究
- 政府机构的大数据适应率,以及他们如何围绕大数据调整未来的运营Predictive Analytics
- 在国防部、国家安全局、美国国税局、美国农业部等广泛的应用领域。
- 将大数据与遗留数据对接
- 对预测分析中的使能技术有基本的了解
- 数据集成和仪表板可视化
- 欺诈管理
- 业务规则/欺诈检测生成
- 威胁检测和分析
- 大数据实施的成本效益分析
第一天:第二节:Big Data-1介绍
- 大数据的主要特征——数量、种类、速度和准确性。卷的 MPP 体系结构。
- 数据仓库 – 静态模式,缓慢演变的数据集
- MPP 数据库,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- 基于Hadoop的解决方案 – 对数据集的结构没有条件。
- 典型模式:HDFS、MapReduce(crunch)、从 HDFS 检索
- 批处理 - 适用于分析/非交互式
- 卷 : CEP 流数据
- 典型选择 – CEP 产品(例如 Infostreams、Apama、MarkLogic 等)
- 生产准备不足 – Storm/S4
- NoSQL 数据库 – (列式和键值):最适合作为数据仓库/数据库的分析辅助工具
第 1 天:第 -3 节:Big Data-2 简介
否SQL个解决方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 数据库 (OnDB)
- KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV 存储(分层)- GT.m、缓存
- KV Store(已订购)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV 缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元组存储 - Gigaspaces、Coord、Apache River
- 对象数据库 - ZopeDB、DB40、Shoal
- 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 广泛的列式存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
数据的种类:大数据中的Data Cleaning问题简介
- RDBMS – 静态结构/模式,不提倡敏捷、探索性环境。
- NoSQL – 半结构化的,足够的结构来存储数据,在存储数据之前没有精确的模式
- 数据清理问题
第一天:第四节:大数据介绍-3:Hadoop
- 何时选择 Hadoop?
- 结构化 - 企业数据仓库/数据库可以存储大量数据(有成本),但会强加结构(不利于主动探索)
- SEMI 结构化数据 – 传统解决方案 (DW/DB) 难以实现
- 仓储数据 = 即使在实施后也付出了巨大的努力和静态
- 对于各种数据和数据量,在商用硬件上处理 – HADOOP
- 创建 Hadoop 集群所需的商品硬件
Map Reduce /HDFS 简介
- MapReduce – 将计算分布在多个服务器上
- HDFS – 使数据在本地可用于计算过程(具有冗余)
- 数据 – 可以是非结构化的/无模式的(与 RDBMS 不同)
- 开发人员有责任理解数据
- Programming MapReduce = 使用 Java(优点/缺点),手动将数据加载到 HDFS 中
第 2 天:第 1 节:Big Data 生态系统建设 Big Data ETL:Big Data 工具的世界——使用哪一个以及何时使用?
- Hadoop 与其他 NoSQL 解决方案
- 用于交互式、随机访问数据
- Hadoop之上的Hbase(面向列的数据库)
- 随机访问数据,但施加了限制(最大 1 PB)
- 不适合临时分析,适合日志记录、计数、时间序列
- Sqoop - 从数据库导入到 Hive 或 HDFS(JDBC/ODBC 访问)
- Flume – 将数据(例如.log数据)流式传输到HDFS
第2天:第二节:大数据Management系统
- 移动部件、计算节点启动/失败:ZooKeeper - 用于配置/协调/命名服务
- 复杂的流水线/工作流:Oozie – 管理工作流、依赖项、菊花链
- 部署、配置、群集管理、升级等(系统管理员):Ambari
- 在云中:呼啸
第 2 天:第 3 节:Business Intelligence 中的预测分析 -1:基础技术和基于机器学习的 BI:
- 机器学习简介
- 学习分类技术
- 贝叶斯预测准备训练文件
- 支持向量机
- KNN p-Tree代数和垂直挖掘
- 神经网络
- Big Data 大变量问题 -随机森林 (RF)
- Big Data 自动化问题 – 多模型集成射频
- 通过 Soft10-M 实现自动化
- 文本分析工具-Treeminer
- 敏捷学习
- 基于智能体的学习
- 分布式学习
- 用于预测分析的开源工具简介:R、Rapidminer、Mahut
第 2 天:第 4 节预测分析生态系统 2:Govt 中常见的预测分析问题。
- 洞察分析
- 可视化分析
- 结构化预测分析
- 非结构化预测分析
- 威胁/欺诈之星/供应商分析
- 推荐引擎
- 模式检测
- 规则/场景发现 - 失败、欺诈、优化
- 发现根本原因
- 情绪分析
- CRM分析
- 网络分析
- 文本分析
- 技术辅助审查
- 欺诈分析
- 实时分析
第3天:Sesion-1:实时和Scala在Hadoop上变得分析
- 为什么常见的分析算法在 Hadoop/HDFS 中失败
- Apache Hama- 用于批量同步分布式计算
- Apache SPARK-用于实时分析的集群计算
- CMU Graphics Lab2 - 基于图的分布式计算异步方法
- Treeminer 基于 KNN p-Algebra 的方法可降低硬件运营成本
第 3 天:第 2 节:电子发现和取证工具
- 基于 Big Data 的电子数据展示与旧数据 – 成本和性能的比较
- 预测编码和技术辅助审查 (TAR)
- Tar 产品 (vMiner) 的现场演示,了解 TAR 如何工作以加快发现速度
- 通过 HDFS 更快地建立索引 – 数据速度
- NLP 或自然语言处理 – 各种技术和开源产品
- 外语电子取证 - 外语处理技术
第 3 天:第 3 节:大数据 BI for Cyber Security – 了解从快速数据收集到威胁识别的整个 360 度视图
- 了解安全分析的基础知识 - 攻击面、安全配置错误、主机防御
- 网络基础设施/大型数据管道/用于实时分析的响应 ETL
- 规范性与预测性 – 从元数据中修复基于规则与自动发现威胁规则
第 3 天:第 4 节:Big Data 在美国农业部:在农业中的应用
- 基于农业传感器的IoT(物联网)简介Big Data和控制
- 卫星成像简介及其在农业中的应用
- 集成传感器和图像数据,用于土壤肥力、栽培建议和预测
- 农业保险和 Big Data
- 作物损失预测
第 4 天:第 1 节:Govt-Fraud 分析中来自大数据的欺诈预防 BI:
- 欺诈分析的基本分类 - 基于规则的分析与预测分析
- 用于欺诈模式检测的监督式与无监督式机器学习
- 供应商欺诈/项目多收费用
- Medicare 和 Medicaid 欺诈 - 用于索赔处理的欺诈检测技术
- 差旅报销欺诈
- 国税局退税欺诈
- 只要有数据,就会提供案例研究和现场演示。
第 4 天:第 2 节:Social Media 分析 - 情报收集和分析
- 用于提取社交媒体数据的大数据 ETL API
- 文本、图像、元数据和视频
- 来自社交媒体提要的情绪分析
- 社交媒体提要的上下文和非上下文过滤
- Social Media 用于整合各种社交媒体的仪表板
- 社交媒体资料的自动分析
- 每个分析的现场演示将通过Treeminer工具提供。
第 4 天:第 3 节:Big Data 图像处理和视频馈送分析
- Big Data 中的图像存储技术 - 超过 PB 的数据的存储解决方案
- LTFS 和 LTO
- GPFS-LTFS(大图像数据分层存储解决方案)
- 图像分析的基础
- 物体识别
- 图像分割
- 运动跟踪
- 3D图像重建
第 4 天:第 4 节:Big Data NIH 中的应用:
- Bio-信息学的新兴领域
- 元基因组学和大数据挖掘问题
- 药物基因组学、代谢组学和蛋白质组学的大数据预测分析
- 基因组学下游流程中的大数据
- 大数据预测分析在公共卫生中的应用
Big Data 用于快速访问各种数据和显示的仪表板:
- 现有应用平台与大数据仪表盘的整合
- 大数据管理
- 大数据仪表板案例研究:Tableau 和 Pentaho
- 使用大数据应用程序在政府中推送基于位置的服务。
- 跟踪系统和管理
第 5 天:第 1 节:如何证明 Big Data BI 在组织内实施的合理性:
- 定义 Big Data 实施的 ROI
- 节省分析师收集和准备数据时间的案例研究 - 提高生产力
- 通过节省许可数据库成本获得收入的案例研究
- 基于位置的服务的收入收益
- 从欺诈预防中节省成本
- 一种集成的电子表格方法,用于计算 Big Data 实施的近似费用与收入收益/节省。
第 5 天:第 2 节:将遗留数据系统替换为 Big Data 系统的分步过程:
- 了解实用 Big Data 迁移路线图
- 在构建 Big Data 实现之前需要哪些重要信息
- 计算数据量、速度、多样性和准确性的不同方法有哪些
- 如何估算数据增长
- 案例研究
第 5 天:第 4 节:审查 Big Data 供应商并审查他们的产品。问答环节:
- 埃森哲
- APTEAN(前身为 CDC Software)
- 思科系统
- 克劳德拉
- 山谷
- 电磁兼容
- GoodData公司
- 番石榴
- 日立数据系统
- 霍顿工厂
- 惠普
- IBM公司
- 信息网
- 英特尔
- Jaspersoft的
- Microsoft
- MongoDB(以前称为 10Gen)
- MU西格玛
- NetApp 的
- Opera 解决方案
- 神谕
- 贝尔塔霍
- 普拉特福拉
- Qliktech的
- 量子
- 机架空间
- 革命分析
- Salesforce的
- 树液
- SAS学院
- 西森
- 软件 AG/Terracotta
- Soft10 自动化
- Splunk的
- 平方
- Supermicro 超微
- Tableau 软件
- Teradata的
- 大分析思维
- 潮汐系统
- 树矿工
- VMware (EMC 的一部分)
要求
- 在其领域内了解政府业务运营和数据系统的基本知识
- 基本了解 SQL/Oracle 或关系数据库
- 基本了解 Statistics(电子表格级别)
35 小时
客户评论 (1)
培训师(奥古斯丁)的口语技巧和人性化的一面。
Jeremy Chicon - TE Connectivity
课程 - NB-IoT for Developers
机器翻译