课程大纲

===== 第01天 ===== Big Data Business Intelligence for Criminal Intelligence Analysis概述

  • 执法部门案例研究 - 预测性警务
  • 执法机构的大数据采用率以及他们如何围绕大数据调整未来的运营 Predictive Analytics
  • 新兴技术解决方案,如枪声传感器、监控视频和社交媒体
  • 利用大数据技术缓解信息过载
  • 将大数据与遗留数据对接
  • 对预测分析中的使能技术有基本的了解
  • 数据集成和仪表板可视化
  • 欺诈管理
  • 业务规则和欺诈检测
  • 威胁检测和分析
  • 大数据实施的成本效益分析

Big Data 简介

  • 大数据的主要特征——数量、多样性、速度和准确性。
  • MPP(大规模并行处理)架构
  • 数据仓库 – 静态模式,缓慢演变的数据集
  • MPP 数据库:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • 基于Hadoop的解决方案 – 对数据集的结构没有条件。
  • 典型模式:HDFS、MapReduce(crunch)、从 HDFS 检索
  • 用于流处理的 Apache Spark
  • 批处理 - 适用于分析/非交互式
  • 卷 : CEP 流数据
  • 典型选择 – CEP 产品(例如 Infostreams、Apama、MarkLogic 等)
  • 生产准备不足 – Storm/S4
  • NoSQL 数据库 – (列式和键值):最适合作为数据仓库/数据库的分析辅助工具

没有SQL个解决方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 数据库 (OnDB)
  • KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV 存储(分层)- GT.m、缓存
  • KV Store(已订购)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV 缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元组存储 - Gigaspaces、Coord、Apache River
  • 对象数据库 - ZopeDB、DB40、Shoal
  • 文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 广泛的列式存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据的多样性:大数据中的Data Cleaning问题简介

  • RDBMS – 静态结构/模式,不提倡敏捷、探索性环境。
  • NoSQL – 半结构化,足够的结构来存储数据,在存储数据之前没有精确的模式
  • 数据清理问题

Hadoop

  • 何时选择 Hadoop?
  • 结构化 - 企业数据仓库/数据库可以存储大量数据(有成本),但会强加结构(不利于主动探索)
  • SEMI 结构化数据 – 使用传统解决方案 (DW/DB) 难以执行
  • 仓储数据 = 即使在实施后也付出了巨大的努力和静态
  • 对于各种数据和数据量,在商用硬件上处理 – HADOOP
  • 创建 Hadoop 集群所需的商品硬件

Map Reduce /HDFS 简介

  • MapReduce – 将计算分布在多个服务器上
  • HDFS – 使数据在本地可用于计算过程(具有冗余)
  • 数据 – 可以是非结构化的/无模式的(与 RDBMS 不同)
  • 开发人员有责任理解数据
  • Programming MapReduce = 使用 Java(优点/缺点),手动将数据加载到 HDFS 中

===== 第02天 ===== Big Data 生态系统 -- 构建 Big Data ETL(提取、转换、加载)——使用哪些 Big Data 工具以及何时使用?

  • Hadoop 与其他 NoSQL 解决方案
  • 用于交互式、随机访问数据
  • Hadoop之上的Hbase(面向列的数据库)
  • 随机访问数据,但施加了限制(最大 1 PB)
  • 不适合临时分析,适合日志记录、计数、时间序列
  • Sqoop - 从数据库导入到 Hive 或 HDFS(JDBC/ODBC 访问)
  • Flume – 将数据(例如.log数据)流式传输到HDFS

大数据 Management 系统

  • 移动部件、计算节点启动/失败:ZooKeeper - 用于配置/协调/命名服务
  • 复杂的流水线/工作流:Oozie – 管理工作流、依赖项、菊花链
  • 部署、配置、群集管理、升级等(系统管理员):Ambari
  • 在云中:呼啸

Predictive Analytics -- 基于基础技术和机器学习的商业智能

  • 机器学习简介
  • 学习分类技术
  • 贝叶斯预测 -- 准备训练文件
  • 支持向量机
  • KNN p-Tree代数和垂直挖掘
  • 神经网络
  • 大数据大变量问题 -- 随机森林(RF)
  • 大数据自动化问题 – 多模型集成射频
  • 通过 Soft10-M 实现自动化
  • 文本分析工具-Treeminer
  • 敏捷学习
  • 基于智能体的学习
  • 分布式学习
  • 预测分析开源工具简介:R、Python、Rapidminer、Mahut

Predictive Analytics 生态系统及其在刑事情报分析中的应用

  • 技术与调查过程
  • 洞察分析
  • 可视化分析
  • 结构化预测分析
  • 非结构化预测分析
  • 威胁/欺诈之星/供应商分析
  • 推荐引擎
  • 模式检测
  • 规则/场景发现 – 失败、欺诈、优化
  • 发现根本原因
  • 情绪分析
  • CRM分析
  • 网络分析
  • 文本分析,用于从笔录、证人证词、互联网聊天等中获取见解。
  • 技术辅助审查
  • 欺诈分析
  • 实时分析

===== 第03天 ===== 基于 Hadoop 的实时和 Scalable 分析

  • 为什么常见的分析算法在 Hadoop/HDFS 中失败
  • Apache Hama- 用于批量同步分布式计算
  • Apache SPARK-用于集群计算和实时分析
  • CMU Graphics Lab2 - 基于图的分布式计算异步方法
  • KNN p -- Treeminer 基于代数的方法,可降低硬件运行成本

电子数据展示和取证工具

  • 基于 Big Data 的电子数据展示与旧数据 – 成本和性能的比较
  • 预测编码和技术辅助审查 (TAR)
  • vMiner 的现场演示,用于了解 TAR 如何实现更快的发现
  • 通过 HDFS 更快地建立索引 – 数据速度
  • NLP(自然语言处理)——开源产品和技术
  • 外语电子取证 -- 外语处理技术

大数据 BI for Cyber Security – 获得 360 度视图、快速数据收集和威胁识别

  • 了解安全分析的基础知识 -- 攻击面、安全配置错误、主机防御
  • 网络基础设施 / 大型数据管道 / 用于实时分析的响应 ETL
  • 规范性与预测性 – 从元数据中修复基于规则与自动发现威胁规则

为犯罪情报分析收集不同的数据

  • 使用IoT(物联网)作为传感器来捕获数据
  • 利用卫星图像进行国内监控
  • 使用监控和图像数据进行犯罪识别
  • 其他数据收集技术 - 无人机,随身摄像机,GPS标记系统和热成像技术
  • 将自动数据检索与从线人、审讯和研究中获得的数据相结合
  • Forecasting 犯罪活动

===== 第04天 ===== Fraud Analytics 中 Big Data 中的欺诈预防 BI

  • 欺诈分析的基本分类 -- 基于规则的分析与预测分析
  • 用于欺诈模式检测的监督式与无监督式机器学习
  • Business 商业欺诈、医疗索赔欺诈、保险欺诈、逃税和洗钱

Social Media 分析——情报收集和分析

  • 犯罪分子如何利用Social Media来组织、招募和策划
  • 用于提取社交媒体数据的大数据 ETL API
  • 文本、图像、元数据和视频
  • 来自社交媒体提要的情绪分析
  • 社交媒体提要的上下文和非上下文过滤
  • Social Media 用于整合各种社交媒体的仪表板
  • 社交媒体资料的自动分析
  • 每个分析的现场演示将通过Treeminer工具进行

Big Data 图像处理和视频源分析

  • Big Data 中的图像存储技术 -- 超过 PB 的数据存储解决方案
  • LTFS(线性磁带文件系统)和 LTO(开放式线性磁带)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 用于大图像数据的分层存储解决方案
  • 图像分析的基础知识
  • 物体识别
  • 图像分割
  • 运动跟踪
  • 3D图像重建

Bio指标、DNA 和下一代鉴定程序

  • 超越指纹识别和面部识别
  • 语音识别、击键(分析用户打字模式)和 CODIS(组合 DNA 索引系统)
  • 超越 DNA 匹配:使用法医 DNA 表型从 DNA 样本构建面部

Big Data 用于快速访问各种数据和显示的仪表板:

  • 现有应用平台与大数据仪表盘的整合
  • 大数据管理
  • 大数据仪表板案例研究:Tableau 和 Pentaho
  • 使用大数据应用程序在政府中推送基于位置的服务。
  • 跟踪系统和管理

===== 第05天 ===== 如何证明 Big Data BI 在组织内实施的合理性:

  • 定义实施大数据的投资回报率(回报率 Investment)
  • 节省分析师收集和准备数据时间的案例研究 - 提高生产力
  • 通过降低数据库许可成本获得收入
  • 基于位置的服务的收入收益
  • 通过预防欺诈节省成本
  • 一种集成的电子表格方法,用于计算大数据实施的近似费用与收入收益/节省。

用 Big Data 系统替换旧数据系统的分步过程

  • Big Data 迁移路线图
  • 在构建 Big Data 系统之前需要哪些关键信息?
  • 计算数据量、速度、多样性和准确性的不同方法有哪些
  • 如何估算数据增长
  • 案例研究

审查 Big Data 供应商并审查其产品。

  • 埃森哲
  • APTEAN(前身为 CDC Software)
  • 思科系统
  • 克劳德拉
  • 山谷
  • 电磁兼容
  • GoodData公司
  • 番石榴
  • 日立数据系统
  • 霍顿工厂
  • 惠普
  • IBM公司
  • 信息网
  • 英特尔
  • Jaspersoft的
  • Microsoft
  • MongoDB(以前称为 10Gen)
  • MU西格玛
  • NetApp 的
  • Opera 解决方案
  • 神谕
  • 贝尔塔霍
  • 普拉特福拉
  • Qliktech的
  • 量子
  • 机架空间
  • 革命分析
  • Salesforce的
  • 树液
  • SAS学院
  • 西森
  • 软件 AG/Terracotta
  • Soft10 自动化
  • Splunk的
  • 平方
  • Supermicro 超微
  • Tableau 软件
  • Teradata的
  • 大分析思维
  • 潮汐系统
  • 树矿工
  • VMware (EMC的一部分)

问答环节

要求

  • 了解执法流程和数据系统
  • 基本了解 SQL/Oracle 或关系数据库
  • 对统计学有基本的了解(电子表格级别)
  35 小时
 

人数


开始

完结


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客户评论 (4)

相关课程

课程分类