Big Data Business Intelligence for Criminal Intelligence Analysis培训

(4 客户评论)

技术的进步和越来越多的信息正在改变执法的方式。 Big Data带来的挑战几乎与Big Data的承诺一样令人生畏。有效存储数据是这些挑战之一;有效地分析它是另一回事。

在以讲师为主导的现场培训中，参与者将学习处理Big Data技术的思维方式，评估其对现有流程和政策的影响，并实施这些技术，以识别犯罪活动和预防犯罪。将审查世界各地执法组织的案例研究，以深入了解其采用方法，挑战和结果。

在培训结束时，参与者将能够：

将Big Data技术与传统的数据收集流程相结合，在调查过程中拼凑出一个故事
实施工业大数据存储和处理数据分析解决方案
准备一份提案，以采用最适当的工具和程序，使数据驱动的方法能够进行刑事调查

听众

具有技术背景的执法专家

课程形式

部分讲座，部分讨论，练习和繁重的实践练习

Thank you for sending your enquiry! One of our team members will contact you shortly.

Thank you for sending your booking! One of our team members will contact you shortly.

课程大纲

===== 第01天 ===== Big Data Business Intelligence for Criminal Intelligence Analysis概述

执法部门案例研究 - 预测性警务
执法机构的大数据采用率以及他们如何围绕大数据调整未来的运营 Predictive Analytics
新兴技术解决方案，如枪声传感器、监控视频和社交媒体
利用大数据技术缓解信息过载
将大数据与遗留数据对接
对预测分析中的使能技术有基本的了解
数据集成和仪表板可视化
欺诈管理
业务规则和欺诈检测
威胁检测和分析
大数据实施的成本效益分析

Big Data 简介

大数据的主要特征——数量、多样性、速度和准确性。
MPP（大规模并行处理）架构
数据仓库 – 静态模式，缓慢演变的数据集
MPP 数据库：Greenplum、Exadata、Teradata、Netezza、Vertica 等。
基于Hadoop的解决方案 – 对数据集的结构没有条件。
典型模式：HDFS、MapReduce（crunch）、从 HDFS 检索
用于流处理的 Apache Spark
批处理 - 适用于分析/非交互式
卷： CEP 流数据
典型选择 – CEP 产品（例如 Infostreams、Apama、MarkLogic 等）
生产准备不足 – Storm/S4
NoSQL 数据库 – （列式和键值）：最适合作为数据仓库/数据库的分析辅助工具

没有SQL个解决方案

KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 数据库（OnDB）
KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
KV 存储（分层）- GT.m、缓存
KV Store（已订购）- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
KV 缓存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
元组存储 - Gigaspaces、Coord、Apache River
对象数据库 - ZopeDB、DB40、Shoal
文档存储 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
广泛的列式存储 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

数据的多样性：大数据中的Data Cleaning问题简介

RDBMS – 静态结构/模式，不提倡敏捷、探索性环境。
NoSQL – 半结构化，足够的结构来存储数据，在存储数据之前没有精确的模式
数据清理问题

Hadoop

何时选择 Hadoop？
结构化 - 企业数据仓库/数据库可以存储大量数据（有成本），但会强加结构（不利于主动探索）
SEMI 结构化数据 – 使用传统解决方案（DW/DB）难以执行
仓储数据 = 即使在实施后也付出了巨大的努力和静态
对于各种数据和数据量，在商用硬件上处理 – HADOOP
创建 Hadoop 集群所需的商品硬件

Map Reduce /HDFS 简介

MapReduce – 将计算分布在多个服务器上
HDFS – 使数据在本地可用于计算过程（具有冗余）
数据 – 可以是非结构化的/无模式的（与 RDBMS 不同）
开发人员有责任理解数据
Programming MapReduce = 使用 Java（优点/缺点），手动将数据加载到 HDFS 中

===== 第02天 ===== Big Data 生态系统 -- 构建 Big Data ETL（提取、转换、加载）——使用哪些 Big Data 工具以及何时使用？

Hadoop 与其他 NoSQL 解决方案
用于交互式、随机访问数据
Hadoop之上的Hbase（面向列的数据库）
随机访问数据，但施加了限制（最大 1 PB）
不适合临时分析，适合日志记录、计数、时间序列
Sqoop - 从数据库导入到 Hive 或 HDFS（JDBC/ODBC 访问）
Flume – 将数据（例如.log数据）流式传输到HDFS

大数据 Management 系统

移动部件、计算节点启动/失败：ZooKeeper - 用于配置/协调/命名服务
复杂的流水线/工作流：Oozie – 管理工作流、依赖项、菊花链
部署、配置、群集管理、升级等（系统管理员）：Ambari
在云中：呼啸

Predictive Analytics -- 基于基础技术和机器学习的商业智能

机器学习简介
学习分类技术
贝叶斯预测 -- 准备训练文件
支持向量机
KNN p-Tree代数和垂直挖掘
神经网络
大数据大变量问题 -- 随机森林（RF）
大数据自动化问题 – 多模型集成射频
通过 Soft10-M 实现自动化
文本分析工具-Treeminer
敏捷学习
基于智能体的学习
分布式学习
预测分析开源工具简介：R、Python、Rapidminer、Mahut

Predictive Analytics 生态系统及其在刑事情报分析中的应用

技术与调查过程
洞察分析
可视化分析
结构化预测分析
非结构化预测分析
威胁/欺诈之星/供应商分析
推荐引擎
模式检测
规则/场景发现 – 失败、欺诈、优化
发现根本原因
情绪分析
CRM分析
网络分析
文本分析，用于从笔录、证人证词、互联网聊天等中获取见解。
技术辅助审查
欺诈分析
实时分析

===== 第03天 ===== 基于 Hadoop 的实时和 Scalable 分析

为什么常见的分析算法在 Hadoop/HDFS 中失败
Apache Hama- 用于批量同步分布式计算
Apache SPARK-用于集群计算和实时分析
CMU Graphics Lab2 - 基于图的分布式计算异步方法
KNN p -- Treeminer 基于代数的方法，可降低硬件运行成本

电子数据展示和取证工具

基于 Big Data 的电子数据展示与旧数据 – 成本和性能的比较
预测编码和技术辅助审查（TAR）
vMiner 的现场演示，用于了解 TAR 如何实现更快的发现
通过 HDFS 更快地建立索引 – 数据速度
NLP（自然语言处理）——开源产品和技术
外语电子取证 -- 外语处理技术

大数据 BI for Cyber Security – 获得 360 度视图、快速数据收集和威胁识别

了解安全分析的基础知识 -- 攻击面、安全配置错误、主机防御
网络基础设施 / 大型数据管道 / 用于实时分析的响应 ETL
规范性与预测性 – 从元数据中修复基于规则与自动发现威胁规则

为犯罪情报分析收集不同的数据

使用IoT（物联网）作为传感器来捕获数据
利用卫星图像进行国内监控
使用监控和图像数据进行犯罪识别
其他数据收集技术 - 无人机，随身摄像机，GPS标记系统和热成像技术
将自动数据检索与从线人、审讯和研究中获得的数据相结合
Forecasting 犯罪活动

===== 第04天 ===== Fraud Analytics 中 Big Data 中的欺诈预防 BI

欺诈分析的基本分类 -- 基于规则的分析与预测分析
用于欺诈模式检测的监督式与无监督式机器学习
Business 商业欺诈、医疗索赔欺诈、保险欺诈、逃税和洗钱

Social Media 分析——情报收集和分析

犯罪分子如何利用Social Media来组织、招募和策划
用于提取社交媒体数据的大数据 ETL API
文本、图像、元数据和视频
来自社交媒体提要的情绪分析
社交媒体提要的上下文和非上下文过滤
Social Media 用于整合各种社交媒体的仪表板
社交媒体资料的自动分析
每个分析的现场演示将通过Treeminer工具进行

Big Data 图像处理和视频源分析

Big Data 中的图像存储技术 -- 超过 PB 的数据存储解决方案
LTFS（线性磁带文件系统）和 LTO（开放式线性磁带）
GPFS-LTFS （General Parallel File System - Linear Tape File System） -- 用于大图像数据的分层存储解决方案
图像分析的基础知识
物体识别
图像分割
运动跟踪
3D图像重建

Bio指标、DNA 和下一代鉴定程序

超越指纹识别和面部识别
语音识别、击键（分析用户打字模式）和 CODIS（组合 DNA 索引系统）
超越 DNA 匹配：使用法医 DNA 表型从 DNA 样本构建面部

Big Data 用于快速访问各种数据和显示的仪表板：

现有应用平台与大数据仪表盘的整合
大数据管理
大数据仪表板案例研究：Tableau 和 Pentaho
使用大数据应用程序在政府中推送基于位置的服务。
跟踪系统和管理

===== 第05天 ===== 如何证明 Big Data BI 在组织内实施的合理性：

定义实施大数据的投资回报率（回报率 Investment）
节省分析师收集和准备数据时间的案例研究 - 提高生产力
通过降低数据库许可成本获得收入
基于位置的服务的收入收益
通过预防欺诈节省成本
一种集成的电子表格方法，用于计算大数据实施的近似费用与收入收益/节省。

用 Big Data 系统替换旧数据系统的分步过程

Big Data 迁移路线图
在构建 Big Data 系统之前需要哪些关键信息？
计算数据量、速度、多样性和准确性的不同方法有哪些
如何估算数据增长
案例研究

审查 Big Data 供应商并审查其产品。

埃森哲
APTEAN（前身为 CDC Software）
思科系统
克劳德拉
山谷
电磁兼容
GoodData公司
番石榴
日立数据系统
霍顿工厂
惠普
IBM公司
信息网
英特尔
Jaspersoft的
Microsoft
MongoDB（以前称为 10Gen）
MU西格玛
NetApp 的
Opera 解决方案
神谕
贝尔塔霍
普拉特福拉
Qliktech的
量子
机架空间
革命分析
Salesforce的
树液
SAS学院
西森
软件 AG/Terracotta
Soft10 自动化
Splunk的
平方
Supermicro 超微
Tableau 软件
Teradata的
大分析思维
潮汐系统
树矿工
VMware （EMC的一部分）

问答环节

要求

了解执法流程和数据系统
基本了解 SQL/Oracle 或关系数据库
对统计学有基本的了解（电子表格级别）

客户评论 (4)

清晰的解释和好的例子，这样我就可以与我自己的工作联系起来。

Elaine Vermeulen - Sandoz BV

课程 - Alteryx for Developers

机器翻译

I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)

Joan Ng

课程 - Data Preparation with Alteryx

Use cases were awesome! and Ray involved each and every one of us in each use case.

Zara - Trench Ltd

课程 - Alteryx for Data Analysis

team work

Nhluvuko Mayimele - Interfront SOC Ltd

课程 - Stata: Beginner to Advanced

Data Analysis with Redash

14 小时

Business Intelligence and Data Analysis with Metabase

14 小时

QlikView for Developers

14 小时

QlikView for Business Users

7 小时

Google Sheets for Excel Users

14 小时

IBM Cognos Analytics

14 小时

Cognos 11

14 小时

Alteryx for Developers

14 小时

Data Preparation with Alteryx

7 小时

Alteryx for Data Analysis

7 小时

Alteryx Advanced

14 小时

Stata: Beginner to Advanced

14 小时

Algorithmic Trading with Python and R

14 小时

Statistical Analysis with Stata and R

35 小时

SAS Programming

14 小时

Big Data Business Intelligence for Criminal Intelligence Analysis培训

课程大纲