scrapy框架中间件的调用规则

process_request

在request对象传往downloader的过程中调用。当返回不同类型的值的时候,行为也不一样:

阅读更多

反爬虫

User-Agent识别

修改请求头信息里的User-Agent

阅读更多

python面试题(一)

一、列出5个常用Python标准库

1
2
3
4
5
6
7
8
9
os:提供了不少与操作系统相关联的函数

sys: 通常用于命令行参数

re: 正则匹配

math: 数学运算

datetime:处理日期时间

阅读更多

python中的编码问题

声明:文章借鉴自【彻底搞懂 python 中文乱码问题】

阅读更多

爬虫中储存到文件夹的方法

1.创建文件夹

1
2
3
4
5
filetitle = os.path.join(os.curdir, 'reads')
建立文件夹,os.curdir(为当地地址),创建语法为os.path.jion, 'reads'为文件夹的名称
if not os.path.isdir(fileread):
os.mkdir(fileread)
os.path.isdir用来判断此文件夹是否存在,不存在则重新建立,建立方法为os.mkdir()

阅读更多

python strip()方法

描述

Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。

阅读更多

Beautiful Soup基础

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

阅读更多

xpath语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

阅读更多

利用正则和爬虫知识爬取网站

以下是自己在学习爬虫时,利用正则和爬虫知识爬取豆瓣电影排行榜的一些总结,仅供参考,如有不足,还请关照

阅读更多

Requests的基本用法

什么是Requests

Requests是Python语言编写,基于urllib3,采用Apache2 Licensed开源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。是Python实现的简单易用的HTTP库。

阅读更多