python 怎样爬去网页的内容

2024-05-15

1. python 怎样爬去网页的内容

用python爬取网页信息的话，需要学习几个模块，urllib，urllib2，urllib3，requests，httplib等等模块，还要学习re模块（也就是正则表达式）。根据不同的场景使用不同的模块来高效快速的解决问题。
最开始我建议你还是从最简单的urllib模块学起，比如爬新浪首页（声明：本代码只做学术研究，绝无攻击用意）：

这样就把新浪首页的源代码爬取到了，这是整个网页信息，如果你要提取你觉得有用的信息得学会使用字符串方法或者正则表达式了。
平时多看看网上的文章和教程，很快就能学会的。
补充一点：以上使用的环境是python2，在python3中，已经把urllib，urllib2，urllib3整合为一个包，而不再有这几个单词为名字的模块。

python 怎样爬去网页的内容

2. Python爬网页

1、网络爬虫基本原理
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定
停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根
据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。
2、设计基本思路
正如你所说，先到微博登陆页面模拟登录，抓取页面，从页面中找出所有URL，选择满足要求的URL文本说明，模拟点击这些URL，重复上面的抓取动作，直到满足要求退出。
3、现有的项目
google project网站有一个项目叫做sinawler，就是专门的新浪微博爬虫，用来抓取微博内容。网站上不去，这个你懂的。不过可以百度一下“python编写的新浪微博爬虫（现在的登陆方法见新的一则微博）“，可以找到一个参考的源码，他是用python2写的。如果用python3写，其实可以使用urllib.request模拟构建一个带cookies的浏览器，省去对cookies的处理，代码可以更加简短。
4、此外
看下网络爬虫的百度百科，里面很多比较深入的内容，比如算法分析、策略体系，会大有帮助，从理论角度提升代码的技术层次。

3. 如何用python写爬虫来获取网页中所有的文章以及关键词

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。 类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端， 然后读取服务器端的响应资源。
在Python中，我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。
它以urlopen函数的形式提供了一个非常简单的接口。
最简单的urllib2的应用代码只需要四行。
我们新建一个文件urllib2_test01.py来感受一下urllib2的作用：
import urllib2response = urllib2.urlopen('http://www.baidu.com/')html = response.read()print html
按下F5可以看到运行的结果：

我们可以打开百度主页，右击，选择查看源代码（火狐OR谷歌浏览器均可），会发现也是完全一样的内容。
也就是说，上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。
这就是一个最简单的urllib2的例子。
除了"http:"，URL同样可以使用"ftp:"，"file:"等等来替代。
HTTP是基于请求和应答机制的：
客户端提出请求，服务端提供应答。
urllib2用一个Request对象来映射你提出的HTTP请求。
在它最简单的使用形式中你将用你要请求的地址创建一个Request对象，
通过调用urlopen并传入Request对象，将返回一个相关请求response对象，
这个应答对象如同一个文件对象，所以你可以在Response中调用.read()。
我们新建一个文件urllib2_test02.py来感受一下：
import urllib2  req = urllib2.Request('http://www.baidu.com')  response = urllib2.urlopen(req)  the_page = response.read()  print the_page
可以看到输出的内容和test01是一样的。
urllib2使用相同的接口处理所有的URL头。例如你可以像下面那样创建一个ftp请求。
req = urllib2.Request('ftp://example.com/')
在HTTP请求时，允许你做额外的两件事。
1.发送data表单数据
这个内容相信做过Web端的都不会陌生，
有时候你希望发送一些数据到URL(通常URL与CGI[通用网关接口]脚本，或其他WEB应用程序挂接)。
在HTTP中,这个经常使用熟知的POST请求发送。
这个通常在你提交一个HTML表单时由你的浏览器来做。
并不是所有的POSTs都来源于表单，你能够使用POST提交任意的数据到你自己的程序。
一般的HTML表单，data需要编码成标准形式。然后做为data参数传到Request对象。
编码工作使用urllib的函数而非urllib2。
我们新建一个文件urllib2_test03.py来感受一下：
import urllib  import urllib2  url = 'http://www.someserver.com/register.cgi'  values = {'name' : 'WHY',            'location' : 'SDU',            'language' : 'Python' }  data = urllib.urlencode(values) # 编码工作req = urllib2.Request(url, data)  # 发送请求同时传data表单response = urllib2.urlopen(req)  #接受反馈的信息the_page = response.read()  #读取反馈的内容
如果没有传送data参数，urllib2使用GET方式的请求。
GET和POST请求的不同之处是POST请求通常有"副作用"，
它们会由于某种途径改变系统状态(例如提交成堆垃圾到你的门口)。
Data同样可以通过在Get请求的URL本身上面编码来传送。
import urllib2  import urllibdata = {}data['name'] = 'WHY'  data['location'] = 'SDU'  data['language'] = 'Python'url_values = urllib.urlencode(data)  print url_valuesname=Somebody+Here&language=Python&location=Northampton  url = 'http://www.example.com/example.cgi'  full_url = url + '?' + url_valuesdata = urllib2.open(full_url)
这样就实现了Data数据的Get传送。
2.设置Headers到http请求
有一些站点不喜欢被程序（非人为访问）访问，或者发送不同版本的内容到不同的浏览器。
默认的urllib2把自己作为“Python-urllib/x.y”(x和y是Python主版本和次版本号,例如Python-urllib/2.7)，这个身份可能会让站点迷惑，或者干脆不工作。
浏览器确认自己身份是通过User-Agent头，当你创建了一个请求对象，你可以给他一个包含头数据的字典。
下面的例子发送跟上面一样的内容，但把自身模拟成Internet Explorer。
（多谢大家的提醒，现在这个Demo已经不可用了，不过原理还是那样的）。
import urllib  import urllib2  url = 'http://www.someserver.com/cgi-bin/register.cgi'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  values = {'name' : 'WHY',            'location' : 'SDU',            'language' : 'Python' }  headers = { 'User-Agent' : user_agent }  data = urllib.urlencode(values)  req = urllib2.Request(url, data, headers)  response = urllib2.urlopen(req)  the_page = response.read() 
以上就是python利用urllib2通过指定的URL抓取网页内容的全部内容，非常简单吧，希望对大家能有所帮助。

如何用python写爬虫来获取网页中所有的文章以及关键词

4. 如何利用Python爬虫从网页上批量获取想要的信息

python是一款应用非常广泛的脚本程序语言，谷歌公司的网页就是用python编写。python在生物信息、统计、网页制作、计算等多个领域都体现出了强大的功能。python和其他脚本语言如java、R、Perl 一样，都可以直接在命令行里运行脚本程序。工具/原料
python；CMD命令行；windows操作系统
方法/步骤
1、首先下载安装python，建议安装2.7版本以上，3.0版本以下，由于3.0版本以上不向下兼容，体验较差。

2、打开文本编辑器，推荐editplus，notepad等，将文件保存成 .py格式，editplus和notepad支持识别python语法。
脚本第一行一定要写上 #!usr/bin/python
表示该脚本文件是可执行python脚本
如果python目录不在usr/bin目录下，则替换成当前python执行程序的目录。
3、编写完脚本之后注意调试、可以直接用editplus调试。调试方法可自行百度。脚本写完之后，打开CMD命令行，前提是python 已经被加入到环境变量中，如果没有加入到环境变量，请百度

4、在CMD命令行中，输入 “python” + “空格”，即 ”python “；将已经写好的脚本文件拖拽到当前光标位置，然后敲回车运行即可。

5. 如何用 Python 爬取需要登录的网站

最近我必须执行一项从一个需要登录的网站上爬取一些网页的操作。它没有我想象中那么简单，因此我决定为它写一个辅助教程。
在本教程中，我们将从我们的bitbucket账户中爬取一个项目列表。
教程中的代码可以从我的 Github 中找到。
我们将会按照以下步骤进行：
提取登录需要的详细信息
执行站点登录
爬取所需要的数据
在本教程中，我使用了以下包（可以在 requirements.txt 中找到）：

Python

1
2
   requests
lxml
   
步骤一：研究该网站
打开登录页面
进入以下页面  “bitbucket.org/account/signin”。你会看到如下图所示的页面（执行注销，以防你已经登录）

仔细研究那些我们需要提取的详细信息，以供登录之用
在这一部分，我们会创建一个字典来保存执行登录的详细信息：
1. 右击 “Username or email” 字段，选择“查看元素”。我们将使用 “name” 属性为 “username” 的输入框的值。“username”将会是 key 值，我们的用户名/电子邮箱就是对应的 value 值（在其他的网站上这些 key 值可能是 “email”，“ user_name”，“ login”，等等）。


2. 右击 “Password” 字段，选择“查看元素”。在脚本中我们需要使用 “name” 属性为 “password” 的输入框的值。“password” 将是字典的 key  值，我们输入的密码将是对应的 value 值（在其他网站key值可能是 “userpassword”，“loginpassword”，“pwd”，等等）。


3. 在源代码页面中，查找一个名为 “csrfmiddlewaretoken” 的隐藏输入标签。“csrfmiddlewaretoken” 将是 key 值，而对应的 value 值将是这个隐藏的输入值（在其他网站上这个 value 值可能是一个名为 “csrftoken”，“ authenticationtoken” 的隐藏输入值）。列如：“Vy00PE3Ra6aISwKBrPn72SFml00IcUV8”。


最后我们将会得到一个类似这样的字典：

Python

1
2
3
4
5
   payload = {
"username": "",
"password": "",
"csrfmiddlewaretoken": ""
}
   
请记住，这是这个网站的一个具体案例。虽然这个登录表单很简单，但其他网站可能需要我们检查浏览器的请求日志，并找到登录步骤中应该使用的相关的 key 值和 value 值。
步骤2：执行登录网站
对于这个脚本，我们只需要导入如下内容：

Python

1
2
   import requests
from lxml import html
   
首先，我们要创建 session 对象。这个对象会允许我们保存所有的登录会话请求。

Python

1
   session_requests = requests.session()
   
第二，我们要从该网页上提取在登录时所使用的 csrf 标记。在这个例子中，我们使用的是 lxml 和 xpath 来提取，我们也可以使用正则表达式或者其他的一些方法来提取这些数据。

Python

1
2
3
4
5
   login_url = "n/?next=/"
result = session_requests.get(login_url)

tree = html.fromstring(result.text)
authenticity_token = list(set(tree.xpath("//input[@name='csrfmiddlewaretoken']/@value")))[0]
   
**更多关于xpath 和lxml的信息可以在这里找到。
接下来，我们要执行登录阶段。在这一阶段，我们发送一个 POST 请求给登录的 url。我们使用前面步骤中创建的 payload 作为 data 。也可以为该请求使用一个标题并在该标题中给这个相同的 url 添加一个参照键。

Python

1
2
3
4
5
   result = session_requests.post(
login_url,
data = payload,
headers = dict(referer=login_url)
)
   
步骤三：爬取内容
现在，我们已经登录成功了，我们将从 bitbucket dashboard 页面上执行真正的爬取操作。

Python

1
2
3
4
5
   url = '/overview'
result = session_requests.get(
url,
headers = dict(referer = url)
)
   
为了测试以上内容，我们从 bitbucket dashboard 页面上爬取了项目列表。我们将再次使用 xpath 来查找目标元素，清除新行中的文本和空格并打印出结果。如果一切都运行 OK，输出结果应该是你 bitbucket 账户中的 buckets / project 列表。

Python

1
2
3
4
5
   tree = html.fromstring(result.content)
bucket_elems = tree.findall(".//span[@class='repo-name']/")
bucket_names = [bucket.text_content.replace("n", "").strip() for bucket in bucket_elems]

print bucket_names
   
你也可以通过检查从每个请求返回的状态代码来验证这些请求结果。它不会总是能让你知道登录阶段是否是成功的，但是可以用来作为一个验证指标。
例如：

Python

1
2
   result.ok # 会告诉我们最后一次请求是否成功
result.status_code # 会返回给我们最后一次请求的状态

如何用 Python 爬取需要登录的网站

6. python网页爬虫教程

现行环境下，大数据与人工智能的重要依托还是庞大的数据和分析采集，类似于淘宝 京东 百度 腾讯级别的企业 能够通过数据可观的用户群体获取需要的数据，而一般企业可能就没有这种通过产品获取数据的能力和条件，想从事这方面的工作，需掌握以下知识：
1. 学习Python基础知识并实现基本的爬虫过程
一般获取数据的过程都是按照 发送请求-获得页面反馈-解析并且存储数据 这三个流程来实现的。这个过程其实就是模拟了一个人工浏览网页的过程。
Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，我们可以按照requests 负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。
2.了解非结构化数据的存储
爬虫抓取的数据结构复杂 传统的结构化数据库可能并不是特别适合我们使用。我们前期推荐使用MongoDB 就可以。
3. 掌握一些常用的反爬虫技巧
使用代理IP池、抓包、验证码的OCR处理等处理方式即可以解决大部分网站的反爬虫策略。
4.了解分布式存储
分布式这个东西，听起来很恐怖，但其实就是利用多线程的原理让多个爬虫同时工作，需要你掌握 Scrapy + MongoDB + Redis 这三种工具就可以了。

7. 如何用最简单的Python爬虫采集整个网站

您好，python爬虫一般需要用到大量短效动态IP，一般采用API端口提取，单次提取200.间隔1S，整理好的视频教程，里面有详细的讲解。
点击下载链接: https://pan.baidu.com/s/1TXjBVcnaC31CV4tVVvG8Fg 提取码: twn3

如何用最简单的Python爬虫采集整个网站

8. 如何用Python爬取数据？

方法/步骤


在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。

请点击输入图片描述
然后在python的编辑器中输入import选项，提供这两个库的服务

请点击输入图片描述
urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。

请点击输入图片描述
抓取下来了，还不算，必须要进行读取，否则无效。

请点击输入图片描述
5
接下来就是抓码了，不转码是完成不了保存的，将读取的函数read转码。再随便标记一个比如XA。

请点击输入图片描述
6
最后再输入三句，第一句的意思是新建一个空白的word文档。
第二句的意思是在文档中添加正文段落，将变量XA抓取下来的东西导进去。
第三句的意思是保存文档docx，名字在括号里面。

请点击输入图片描述
7
这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。