课程大纲

第一天

大数据商业智能用于刑事情报分析概述

  • 执法案例研究——预测性警务
  • 执法机构中的大数据采用率及其如何围绕大数据预测分析调整未来运营
  • 新兴技术解决方案,如枪声传感器、监控视频和社交媒体
  • 使用大数据技术缓解信息过载
  • 将大数据与传统数据接口
  • 预测分析中的使能技术基本了解
  • 数据集成与仪表板可视化
  • 欺诈管理
  • 业务规则与欺诈检测
  • 威胁检测与画像
  • 大数据实施的成本效益分析

大数据简介

  • 大数据的主要特征——数据量、多样性、速度和真实性。
  • MPP(大规模并行处理)架构
  • 数据仓库——静态模式,缓慢演进的数据集
  • MPP数据库:Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基于Hadoop的解决方案——对数据集结构无要求
  • 典型模式:HDFS、MapReduce(处理)、从HDFS检索
  • Apache Spark用于流处理
  • 批处理——适用于分析/非交互式
  • 数据量:CEP流数据
  • 典型选择——CEP产品(如Infostreams、Apama、MarkLogic等)
  • 生产准备不足——Storm/S4
  • NoSQL数据库(列式和键值):最适合作为数据仓库/数据库的分析补充

NoSQL解决方案

  • 键值存储——Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
  • 键值存储——Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • 键值存储(分层)——GT.m、Cache
  • 键值存储(有序)——TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • 键值缓存——Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元组存储——Gigaspaces、Coord、Apache River
  • 对象数据库——ZopeDB、DB40、Shoal
  • 文档存储——CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 宽列存储——BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据多样性:大数据中的数据清理问题简介

  • RDBMS——静态结构/模式,不促进敏捷、探索性环境。
  • NoSQL——半结构化,有足够结构存储数据,无需在存储数据前确定确切模式
  • 数据清理问题

Hadoop

  • 何时选择Hadoop?
  • 结构化——企业数据仓库/数据库可以存储大量数据(成本较高),但强加结构(不利于主动探索)
  • 半结构化数据——难以使用传统解决方案(DW/DB)处理
  • 数据仓库=巨大努力,实施后仍然静态
  • 针对数据的多样性和数量,使用廉价硬件处理——Hadoop
  • 需要廉价硬件创建Hadoop集群

MapReduce/HDFS简介

  • MapReduce——在多个服务器上分布式计算
  • HDFS——使数据在计算过程中本地可用(具有冗余)
  • 数据——可以是非结构化/无模式(与RDBMS不同)
  • 开发者负责理解数据
  • 编写MapReduce=使用Java(优缺点),手动将数据加载到HDFS

第二天

大数据生态系统——构建大数据ETL(提取、转换、加载)——何时使用哪些大数据工具?

  • Hadoop与其他NoSQL解决方案
  • 用于交互式、随机访问数据
  • Hbase(列式数据库)在Hadoop之上
  • 随机访问数据,但有最大1 PB的限制
  • 不适合临时分析,适合日志、计数、时间序列
  • Sqoop——从数据库导入到Hive或HDFS(JDBC/ODBC访问)
  • Flume——将数据流(如日志数据)导入HDFS

大数据管理系统

  • 移动部件,计算节点启动/失败:ZooKeeper——用于配置/协调/命名服务
  • 复杂管道/工作流:Oozie——管理工作流、依赖关系、链式流程
  • 部署、配置、集群管理、升级等(系统管理员):Ambari
  • 在云端:Whirr

预测分析——基本技术与基于机器学习的商业智能

  • 机器学习简介
  • 学习分类技术
  • 贝叶斯预测——准备训练文件
  • 支持向量机
  • KNN p-Tree代数与垂直挖掘
  • 神经网络
  • 大数据大变量问题——随机森林(RF)
  • 大数据自动化问题——多模型集成RF
  • 通过Soft10-M实现自动化
  • 文本分析工具——Treeminer
  • 敏捷学习
  • 基于代理的学习
  • 分布式学习
  • 预测分析的开源工具简介:R、Python、Rapidminer、Mahut

预测分析生态系统及其在刑事情报分析中的应用

  • 技术与调查过程
  • 洞察分析
  • 可视化分析
  • 结构化预测分析
  • 非结构化预测分析
  • 威胁/欺诈/供应商画像
  • 推荐引擎
  • 模式检测
  • 规则/场景发现——失败、欺诈、优化
  • 根本原因发现
  • 情感分析
  • CRM分析
  • 网络分析
  • 文本分析——从笔录、证人陈述、网络聊天等获取洞察
  • 技术辅助审查
  • 欺诈分析
  • 实时分析

第三天

Hadoop上的实时和可扩展分析

  • 为什么常见分析算法在Hadoop/HDFS中失败
  • Apache Hama——用于批量同步分布式计算
  • Apache SPARK——用于集群计算和实时分析
  • CMU Graphics Lab2——基于图的异步分布式计算方法
  • KNN p——Treeminer的代数方法,用于降低硬件运营成本

电子发现和取证工具

  • 大数据与传统数据的电子发现——成本与性能比较
  • 预测编码与技术辅助审查(TAR)
  • vMiner的实时演示,了解TAR如何加速发现
  • 通过HDFS实现更快索引——数据速度
  • NLP(自然语言处理)——开源产品与技术
  • 外语电子发现——外语处理技术

大数据商业智能用于网络安全——获取360度视图,快速数据收集与威胁识别

  • 了解安全分析的基础——攻击面、安全配置错误、主机防御
  • 网络基础设施/大数据管道/实时分析响应ETL
  • 规定性 vs 预测性——基于固定规则 vs 从元数据自动发现威胁规则

为刑事情报分析收集分散数据

  • 使用物联网(IoT)作为传感器收集数据
  • 使用卫星图像进行国内监控
  • 使用监控和图像数据进行犯罪识别
  • 其他数据收集技术——无人机、随身摄像头、GPS标签系统和热成像技术
  • 将自动化数据检索与线人、审讯和研究获得的数据结合
  • 预测犯罪活动

第四天

大数据在欺诈分析中的欺诈预防商业智能

  • 欺诈分析的基本分类——基于规则 vs 预测分析
  • 监督 vs 无监督机器学习用于欺诈模式检测
  • 企业间欺诈、医疗索赔欺诈、保险欺诈、逃税和洗钱

社交媒体分析——情报收集与分析

  • 犯罪分子如何使用社交媒体进行组织、招募和策划
  • 大数据ETL API用于提取社交媒体数据
  • 文本、图像、元数据和视频
  • 社交媒体情绪分析
  • 社交媒体内容的上下文与非上下文过滤
  • 社交媒体仪表板,整合多种社交媒体
  • 社交媒体档案的自动画像
  • 通过Treeminer工具进行每种分析的实时演示

大数据分析在图像处理和视频流中的应用

  • 大数据中的图像存储技术——用于超过PB级数据的存储解决方案
  • LTFS(线性磁带文件系统)和LTO(线性磁带开放)
  • GPFS-LTFS(通用并行文件系统-线性磁带文件系统)——大数据图像的分层存储解决方案
  • 图像分析基础
  • 对象识别
  • 图像分割
  • 运动跟踪
  • 3D图像重建

生物识别、DNA与下一代识别计划

  • 超越指纹识别和面部识别
  • 语音识别、击键(分析用户的打字模式)和CODIS(组合DNA索引系统)
  • 超越DNA匹配:使用法医DNA表型分析从DNA样本构建面部

大数据仪表板,用于快速访问和显示多样化数据:

  • 将现有应用平台与大数据仪表板集成
  • 大数据管理
  • 大数据仪表板案例研究:Tableau和Pentaho
  • 使用大数据应用推送政府的位置服务
  • 跟踪系统与管理

第五天

如何为组织内的大数据商业智能实施提供理由:

  • 定义大数据实施的ROI(投资回报率)
  • 节省分析师数据收集和准备时间的案例研究——提高生产力
  • 降低数据库许可成本的收入增长
  • 基于位置服务的收入增长
  • 欺诈预防带来的成本节约
  • 使用集成电子表格方法计算大数据实施的近似费用与收入增长/节约。

逐步替换传统数据系统为大数据系统的步骤

  • 大数据迁移路线图
  • 在构建大数据系统之前需要哪些关键信息?
  • 计算数据量、速度、多样性和真实性的不同方法
  • 如何估算数据增长
  • 案例研究

大数据供应商及其产品回顾

  • Accenture
  • APTEAN(前身为CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(前身为10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

问答环节

要求

  • 了解执法流程和数据系统
  • 对SQL/Oracle或关系数据库有基本了解
  • 对统计学有基本了解(达到电子表格水平)

受众

  • 具有技术背景的执法专家
 35 小时

客户评论 (3)

即将举行的公开课程

课程分类