网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
06月21日漏签0天
cisco吧 关注:46,840贴子:137,505
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 0回复贴,共1页
<<返回cisco吧
>0< 加载中...

课程名称:Python网络爬虫及数据采集技术

  • 只看楼主
  • 收藏

  • 回复
  • huihojklklk
  • 初涉江湖
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
课程名称:Python网络爬虫及数据采集技术
培训目标:
全面了解Python爬虫的相关知识;
学习Python爬虫的核心技术方法以及应用特征;
深入使用Python在网络数据采集中的使用。
培训大纲: 南京柯普瑞信息技术有限公司 025-68592355
一、网络爬虫基础
1. 什么是网络爬虫
2. 浏览网页的过程
3. URL的含义
4. 环境的配置
二、Python爬虫基础知识
1. Python爬虫基础学习
a) Python urllib和urllib2 库的用法
Python 正则表达式 南京柯普瑞信息技术有限公司 025-68592355
2. BeautifulSoup简介
3. 爬虫框架Scrapy
三、Urllib库的基本使用
1. 网页爬取示例
2. 网页爬取方法
3. 构造Requset
4. POST和GET数据传送
四、 Urllib库的高级用法
1. 设置Headers
2. Proxy(代理)的设置
3. Timeout 设置
HTTP的PUT和DELETE方法 南京柯普瑞信息技术有限公司 025-68592355
4. 使用DebugLog
五、正则表达式
1. 了解正则表达式
2. 正则表达式的语法规则
正则表达式相关注解 南京柯普瑞信息技术有限公司 025-68592355
3. Python Re模块
六、BeautifulSoup的用法
1. Beautiful Soup的简介
2. Beautiful Soup 安装
3. 创建 Beautiful Soup 对象
4. Beautiful Soup对象种类
5. 遍历文档树
七、开始采集
1. 遍历单个域名
2. 采集整个网站
3. 通过互联网采集
4. 用Scrapy采集
5. 几个示例
八、存储数据和读取文档
1. 媒体文件
2. 把数据存储到CSV
3. MySQL与Python整合
4. 读取纯文本和CSV文档
5. 读取Word和.docx
九、自然语言处理基础
1. 概括数据
2. 马尔可夫模型
3. 自然语言工具包
4. 用NLTK做统计分析
5. 用NLTK做词性分析
十、用爬虫测试网站
1. 测试简介
2. Python单元测试
3. Selenium单元测试
Python单元测试与Selenium单元测试的选择 南京柯普瑞信息技术有限公司
培训周期:2天


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 0回复贴,共1页
<<返回cisco吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示