首页

《网路爬虫与信息提取》复习资料

资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。

1/199

2/199

剩余197页未读,查看更多内容需下载

《网络爬虫与信息提取》课程期末复习资料 <br />《网络爬虫与信息提取》课程讲稿章节目录: <br />第 1 章 网络爬虫概念 <br />(1)掌握网络爬虫定义; <br />(2)了解网络爬虫的用途; <br />(3)了解网络爬虫与信息提取的开发技术; <br />第 2 章 Python 基础 <br />(1)掌握 Python 开发环境的搭建; <br />(2)掌握 Python 的基本知识、数据类型; <br />(3)掌握 Python 的条件语句和循环语句; <br />(4)掌握 Python 函数的定义和使用; <br />(5)掌握基于 Python 的面向对象编程代码; <br />第 3 章 正则表达式与文件操作 <br />(1)掌握正则表达式的基本符号; <br />(2)掌握正则表达式的使用; <br />(3)掌握正则表达式的提取技巧; <br />(4)掌握文件操作; <br />第 4 章简单的网页爬虫方法 <br />(1)掌握 requests 的安装和使用; <br />(2)掌握多线程爬虫的开发; <br />(3)掌握爬虫的常见算法。 <br />第 5 章 信息提取高级方法 <br />(1)掌握 HTML 基础结构; <br />(2)掌握 XPath 提取方法; <br />(3)掌握 Beautiful Soup4 提取方法; <br />第 6 章 Python 与数据库 <br />(1)掌握 MongoDB 的使用; <br />(2)掌握 Redis 的使用; <br />(3)掌握数据库优化; <br />第 7 章 异步加载与请求头 <br />(1)掌握异步加载; <br />(2)掌握请求头; <br />(3)掌握模拟浏览器; <br />第 8 章 模拟登录与验证码 <br />(1)掌握模拟登录; <br />(2)掌握填充验证码; <br />第 9 章 抓包与中间人爬虫 <br />(1)掌握使用 Charles 抓取数据包; <br />(2)掌握 App 爬虫和小程序爬虫; <br />(3)掌握使用 mitmproxy 开发中间人爬虫; <br />第 10 章 Android 原生 App 爬虫 <br />(1)掌握 Android 测试环境的搭建; <br />(2)掌握使用 Python 操纵手机; <br />(3)掌握单设备应用; <br />(4)掌握多设备应用(群控)。 <br />第 11 章 Scrapy 框架 <br />(1)掌握搭建 Scrapy 环境; <br />(2)掌握 Scrapy 的使用; <br />(3)掌握 Scrapy 与 MongoDB; <br />(4)掌握 Scrapy 与 Redis; <br />(5)掌握公务员免职。 <br />第 12 章 Scrapy 高级应用 <br />(1)掌握搭建 Scrapy 环境; <br />(2)掌握 Scrapy 的使用; <br />(3)掌握 Scrapy 与 MongoDB; <br />(4)掌握 Scrapy 与 Redis; <br />(5)掌握公务员免职。 <br />第 13 章 爬虫开发中的法律和道德问题 <br />(1)了解数据采集的法律问题和规避措施; <br />(2)了解数据采集的道德协议; <br />一、客观部分:(单项选择、多项选择、不定项选择、判断) <br />(一)、判断部分 <br />1、通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查 <br />询。 <br />答案: 正确 <br />★难度:易 <br />参见章节:第 1 章 <br />考核知识点:网络爬虫概念 <br />试题解析: <br />2、通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络 <br />数据资源互相匹配 <br />答案: 错误 <br />★难度:中 <br />参见章节:第 1 章 <br />考核知识点:网络爬虫概念 <br />试题解析:通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服 <br />务器资源与无限的网络数据资源之间的矛盾将进一步加深。 <br />3、通用网络爬虫通常采用串行工作方式 <br />答案: 错误 <br />★难度:中 <br />参见章节:第 1 章 <br />考核知识点:网络爬虫概念 <br />试题解析:并行方式 <br />4、Python 中直接对浮点数进行计算有 print(0.1+0.2),则结果为 0.3 <br />答案: 错误 <br />★难度:中 <br />参见章节:第 2 章 <br />考核知识点:Python 基础 <br />试题解析:&gt;&gt;&gt; print(0.1 + 0.2) <br />0.30000000000000004 <br />5、Python 中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据; <br />答案: 正确 <br />★难度:易 <br />参见章节:第 2 章 <br />考核知识点:Python 基础 <br />试题解析: <br />6、Python 中元组生成以后还可以往里面继续添加数据,也可以从里面删除数据; <br />答案: 错误 <br />★难度:易 <br />参见章节:第 2 章 <br />考核知识点:Python 基础 <br />试题解析:元组一旦生成就不能修改。 <br />7、如果元组里面只有整数、浮点数、字符串、一个列表,就既不能添加数据, <br />也不能删除数据,还不能修改里面数据的值。 <br />答案: 错误 <br />★难度:中 <br />参见章节:第 2 章 <br />考核知识点:Python 基础 <br />试题解析:但是如果元组里面包含了一个列表,那么这个元组里面的列表依旧 <br />可以变化。 <br />8、Python 中字符串切片以后的结果还是字符串 <br />答案: 正确 <br />★难度:易 <br />参见章节:第 2 章 <br />考核知识点...

版权提示

  • 温馨提示:
  • 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
  • 2. 本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
  • 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
  • 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)

文档下载

发布时间:2023-01-16 15:18:00 页数:199
价格:¥3 大小:192.49 KB
文章作者:U-114897

推荐特供

MORE