使用Python进行网页抓取 培训
网页抓取是一种从网站提取数据并保存到本地文件或数据库的技术。
本课程为讲师指导的培训(线上或线下),面向希望使用Python自动化抓取多个网站以提取数据进行处理和分析的开发人员。
培训结束后,参与者将能够:
- 安装并配置Python及所有相关包。
- 检索并解析存储在不同网站上的数据。
- 了解网站的工作原理及其HTML结构。
- 构建爬虫以大规模抓取网页。
- 使用Selenium抓取AJAX驱动的网页。
课程形式
- 互动讲座与讨论。
- 大量练习与实践。
- 在实验环境中进行实际操作。
课程定制选项
- 本课程假定学员具备编程知识。
- 如需为本课程定制培训,请联系我们安排。
课程大纲
简介
设置开发环境
Python入门:数据结构、条件语句、文件处理等
用于网页抓取的Python包:Scrapy和BeautifulSoup
网站的工作原理
HTML的结构
发起网页请求
抓取HTML页面
使用XPath和CSS
使用正则表达式过滤数据
创建网页爬虫
使用Selenium抓取AJAX和JavaScript页面
网页抓取最佳实践
故障排除
总结与结论
要求
- 编程经验,最好有Python经验。如果参与者有其他编程语言的经验,培训可延长以包含更多Python入门练习。
受众
- 开发人员
需要帮助选择合适的课程吗?
使用Python进行网页抓取 培训 - 询价
使用Python进行网页抓取 - 问询
问询
客户评论 (1)
涵盖了许多不同的示例和主题,从基础调查到登录管理,再到动态页面管理。
Daniele Tagliaferro - Creditsafe Italia Srl
课程 - Web Scraping with Python
机器翻译
即将举行的公开课程
相关课程
使用Python和Dask进行数据扩展分析
14 小时本课程为讲师指导的培训(线上或线下),面向希望使用Dask与Python生态系统构建、扩展和分析大型数据集的数据科学家和软件工程师。
在培训结束时,参与者将能够:
- 设置环境,开始使用Dask和Python进行大数据处理。
- 探索Dask中可用的功能、库、工具和API。
- 了解Dask如何加速Python中的并行计算。
- 学习如何使用Dask扩展Python生态系统(Numpy、SciPy和Pandas)。
- 优化Dask环境,以保持处理大型数据集时的高性能。
使用Python、Pandas和Numpy进行数据分析
14 小时本课程为讲师指导的培训,在中国(线上或线下)进行,面向希望提升使用Pandas和NumPy进行数据分析和操作技能的中级Python开发者和数据分析师。
通过本培训,参与者将能够:
- 设置包含Python、Pandas和NumPy的开发环境。
- 使用Pandas和NumPy创建数据分析应用。
- 执行高级数据整理、排序和过滤操作。
- 进行聚合操作并分析时间序列数据。
- 使用Matplotlib和其他可视化库进行数据可视化。
- 调试和优化数据分析代码。
FARM (FastAPI, React, 和 MongoDB) 全栈开发
14 小时本课程由讲师主导,提供线下或线上培训,旨在帮助开发者使用 FARM (FastAPI, React, 和 MongoDB) 技术栈构建动态、高性能且可扩展的 Web 应用。
通过本课程,学员将能够:
- 搭建集成了 FastAPI、React 和 MongoDB 的开发环境。
- 理解 FARM 技术栈的关键概念、特点和优势。
- 学习如何使用 FastAPI 构建 REST API。
- 学习如何使用 React 设计交互式应用。
- 使用 FARM 技术栈开发、测试和部署应用(前端和后端)。
使用Python和FastAPI开发API
14 小时本课程为讲师指导的培训,在中国(线上或线下)进行,面向希望使用FastAPI与Python更快速、更轻松地构建、测试和部署RESTful API的开发者。
通过本课程,学员将能够:
- 设置必要的开发环境,以使用Python和FastAPI开发API。
- 使用FastAPI库更快速、更轻松地创建API。
- 学习如何基于Pydantic和OpenAPI创建数据模型和模式。
- 使用SQLAlchemy将API连接到数据库。
- 使用FastAPI工具在API中实现安全和身份验证。
- 构建容器镜像并将Web API部署到云服务器。
使用Python进行机器学习 – 2天
14 小时该课程的目的是提供在实践中应用方法的基本技能。 通过使用 Python 编程语言和其各种图书馆,并基于许多实用的例子,该课程教导如何使用最重要的建筑区块,如何做出数据模拟决策,解释算法的结果,并验证结果。
我們的目標是為您提供理解和使用最基本的工具工具的技能,以信心,並避免常見的錯誤的應用程式。
使用Python进行机器学习 – 4天
28 小时本课程的目的是提供在实践中应用机器学习方法的一般熟练程度。通过使用 Python 编程语言及其各种库, 并基于大量的实际示例, 本课程教授如何使用机器学习最重要的构建块, 如何做出数据建模决策, 解释输出并验证结果
我们的目标是让您能够自信地理解和使用机器学习工具箱中最基本的工具, 并避免数据科学应用的常见陷阱。
使用Modin加速Python Pandas工作流
14 小时这种由 讲师指导的 中国 现场现场培训(在线或现场)面向希望使用 Modin 构建和实施并行计算的数据科学家和开发人员 Pandas 以加快数据分析速度。
在本次培训结束时,参与者将能够:
- 设置必要的环境,开始使用 Modin 大规模开发 Pandas 工作流。
- 了解 Modin 的功能、架构和优势。
- 了解 Modin、Dask 和 Ray 之间的区别。
- 使用 Modin 更快地执行 Pandas 操作。
- 实现整个 Pandas API 和函数。
Python 用于自然语言生成 (NLG)
21 小时在这场由讲师指导的中国线下培训中,参与者将学习如何使用Python从头开始构建自己的NLG系统,以生成高质量的自然语言文本。培训还将探讨案例研究,并将相关概念应用于生成内容的实验室项目中。
在培训结束时,参与者将能够:
- 使用NLG自动生成各种行业的内容,从新闻、房地产到天气和体育报导。
- 选择和组织源内容,规划句子,并准备系统以自动生成原创内容。
- 了解NLG流程,并在每个阶段应用适当的技术。
- 了解Natural Language Generation (NLG)系统的架构。
- 实施最适合的分析和排序算法与模型。
- 从公开的数据源和策划的数据库中提取数据,作为生成文本的材料。
- 用计算机生成的自动化内容创建取代手动且繁琐的写作过程。
Python用于高级机器学习
21 小时在这个由 中国 讲师指导的现场培训中,参与者将学习 Python 中最相关和最前沿的机器学习技术,同时构建一系列涉及图像、音乐、文本和财务数据的演示应用程式。
在本次培训结束时,参与者将能够:
- 实施机器学习演算法和技术来解决复杂问题。
- 将深度学习和半监督学习应用于涉及图像、音乐、文本和财务数据的应用程式。
- 将 Python 演算法推向最大潜力。
- 使用 NumPy 和 Theano 等库和包。
Python:自动化枯燥的事物
14 小时这是一个由讲师指导的现场培训课程,地点位于中国,基于Al Sweigart所著的畅销书《用Python自动化无聊工作》。本课程针对初学者,透过实用的动手练习和讨论,涵盖了Python编程的基础概念。重点在于学习编写程式码,以大幅提升办公室生产力。
在培训结束时,参与者将学会如何用Python编程,并将这项新技能应用于:
- 通过编写简单的Python程式来自动化任务。
- 编写能够使用“正则表达式”进行文本模式识别的程式。
- 以程式化方式生成和更新Excel试算表。
- 解析PDF和Word文件。
- 爬取网站并从线上来源提取资讯。
- 编写发送电子邮件通知的程式。
- 使用Python的除错工具快速解决程式错误。
- 以程式化方式控制滑鼠和键盘,自动点击和输入。
Python用于财务工作
35 小时Python 是一种在金融行业中广受欢迎的程式语言。它被大型投资银行和对冲基金采用,用于构建各种金融应用程式,从核心交易程式到风险管理系统。
在这场由讲师指导的现场培训中,学员将学习如何使用 Python 开发实际应用程式,以解决一系列特定的金融相关问题。
培训结束时,学员将能够:
- 理解 Python 程式语言的基本原理
- 下载、安装并维护用于在 Python 中创建金融应用程式的最佳开发工具
- 选择并利用最合适的 Python 套件和程式技术来组织、可视化和分析来自各种来源(CSV、Excel、数据库、网络等)的金融数据
- 构建解决资产配置、风险分析、投资绩效等问题的应用程式
- 对 Python 应用程式进行故障排除、集成、部署和优化
目标受众
- 开发人员
- 分析师
- 量化分析师
课程形式
- 部分讲授、部分讨论、练习和大量实践操作
注意事项
- 本培训旨在为金融专业人员面临的一些主要问题提供解决方案。如果您有特定的主题、工具或技术希望补充或进一步详细说明,请联系我们进行安排。
高级Python
28 小时在这个由讲师指导的中国现场培训中,参与者将学习高级Python编程技术,包括如何应用这种通用语言来解决分布式应用程序,数据分析和可视化,UI编程和维护脚本等领域的问题。
Python编程 - 4天
28 小时本课程专为希望学习Python编程语言的人士设计。重点在于Python语言、核心库,以及由Python社区开发的最佳且最有用的库。Python驱动着全球企业,被科学家广泛使用,是最流行的编程语言之一。
本课程可以使用最新的Python 3.x版本进行授课,并结合实际练习,充分利用其功能。本课程可以在任何操作系统上提供(包括Linux和Mac OS X在内的所有UNIX版本,以及Microsoft Windows)。
实际练习约占课程时间的70%,演示和讲解约占30%。课程期间可以随时进行讨论和提问。
注意:培训可以根据具体需求进行定制,需在课程日期前提早提出请求。
Selenium结合Python用于测试自动化
14 小时Selenium是一个开源库,用于跨多个浏览器自动化Web应用程序测试。Selenium像人一样与浏览器交互:通过单击链接、填写表单和验证文本。它是Web应用程序测试自动化最流行的工具。Selenium构建在WebDriver框架上,对许多脚本语言(包括Python)具有出色的绑定。
在本次培训中,学员将把Python的强大功能与Selenium结合起来,以自动化示例Web应用程序的测试。通过在实验室环境中将理论与实践相结合,学员将学习并操作如何用Python和Selenium自动化自己的Web测试项目。
受众
- 测试人员和开发人员
课程形式
- 部分讲座、部分讨论、大量实操
用Python进行文本摘要
14 小时在Python机器学习中,文本摘要功能可以读取输入文本并生成文本摘要。这个功能可以从命令行或从Python API / 库中获得。一个令人兴奋的应用是执行摘要的快速创建;这对在做报告和演讲前需要审阅大量文本数据的组织特别有用。
在这一由讲师引导的现场培训中,学员将学习使用Python创建一个简单的可自动生成输入文本摘要的应用程序。
在本次培训结束后,学员将能够:
- 使用一个命令行工具来总结文本。
- 使用Python库设计和创建文本摘要代码。
- 评估三个Python摘要库:sumy 0.7.0、psisummarization 1.0.4、readless 1.0.17
受众
- 开发人员
- 数据科学家
课程形式
- 部分讲座、部分讨论、练习和大量实操