Catalog
Bookmarks
0
Course Reserves
My Account
Advanced search
Search in
Keyword
Title
Author/Creator
Subject
Browse by LC Call Number
Browse by Author
Browse by Subject
search for
Search
Advanced search
Start Over
Share
Export to Refworks
Export to EndNote
Email
Report an Issue
Python网络爬虫权威指南(第2版) / Mitchell, Ryan
Title:
<>.
Author:
Mitchell, Ryan
Published:
Posts & Telecom Press, 2019.
Edition:
2nd edition.
Physical Description:
1 online resource (261 pages)
Additional Creators:
O'Reilly for Higher Education (Firm)
and
Safari, an O'Reilly Media Company
Access Online
go.oreilly.com
Availability
I Want It
Finding items...
Summary:
作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。 本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。 解析复杂的HTML页面 使用Scrapy框架开发爬虫 学习存储数据的方法 从文档中读取和提取数据 清洗格式糟糕的数据 自然语言处理 通过表单和登录窗口抓取数据 抓取JavaScript及利用API抓取数据 图像识别与文字处理 避免抓取陷阱和反爬虫策略 使用爬虫测试网站
ISBN:
9787115509260
7115509263
Digital File Characteristics:
text file
Copyright Note:
Copyright ©Ryan Mitchell 2018
Issuing Body:
Made available through: Safari, an O'Reilly Media Company.
View MARC record
| catkey: 37458706