python爬虫 求指点 查看源代码有个# 后面内容爬取不到

2024-04-27

1. python爬虫 求指点 查看源代码有个# 后面内容爬取不到

不知道你是用框架还是用 Selenium 爬的内容, iframe 里的内容实际上就是另一个网页了。
你只是爬它的源码是爬不到的, 你要提取 iframe 里的 src 所指向的网址, 重新打开它, 然后才爬他的源码。 或者如果你用框架, 里面应该有另外提供方法, 读取 iframe 中的内容

python爬虫 求指点 查看源代码有个# 后面内容爬取不到

2. 用“检查”和“F12”看到的网页源代码不一样,那么Python爬虫要怎么爬取

看你爬什么咯?如果是网页,那就是页面代码;如果是制定内容,那爬取的时候就给定匹配的关键字,返回你指定的数据(字串,list,json都可以)

3. python爬虫只能获取部分源码,与浏览器上的不一致?

明显是js渲染出来的了

python爬虫只能获取部分源码,与浏览器上的不一致?

4. 为什么我用python爬虫爬取煎蛋网的网页信息跟浏览器中的源码不一样?没有图片链接

图片链接,估计是爬妹子图吧~~
为什么现在没有图片链接了呢,,
故事是这样的,这个世界每天都会诞生好多好多的爬虫,爬虫天生就很好奇(se),喜欢去玩弄煎蛋君的妹子-图,刚刚成年的爬虫总是不知疲倦、前仆后继,于是妹子-图就慢慢受不了啦,煎蛋君一看,自己的妹子-图要被玩坏啦,怎么办啊?煎蛋君也很纠结呢,又想要妹子-图正常上班,又心疼被玩坏,于是煎蛋君就下了血本请了业界很有名的保镖来看店,这个保镖大家都认识,顶顶大名的哈希。哈希还是很牛X的,一拳一个光玩不消费的小年轻。小年轻们被揍了,好气好气,然后小年轻们就来到度娘神庙诉苦,度娘一听心想,哎呀,那个流氓我也惹不起的呀,把他们介绍给更厉害一点的流氓吧。
于是乎,小年轻们就都来到了selenium大神的校场。“大神就是大神,连名字我都念不全,洋气!“,“诶诶诶,听说大神进店就包场呀,好霸气!”刚来就听到其他小年轻在底下悄悄议论,小年轻们不禁向主席台投去了崇拜的目光。selenium站起来,全场肃静,大神话不多,但足以振奋人心,"跟着我,妹子-图,不会少",话落音,一段代码便如魔法般映入小年轻们的眼中,

编,,编不下去啦~~~

5. python爬虫怎么获取动态的网页源码

一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据,网页如下:
心想,爬虫不太难的,当年跟zjb爬煎蛋网无(mei)聊(zi)图的时候,多么清高。由于接受任务后的一个月考试加作业一大堆,导师也不催,自己也不急。
但是,导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的,数据动态获取,所以无法通过下载源代码然后解析获得。
从某不良少年写的抓取淘宝mm的例子中收到启发,对于这样的情况,一般可以同构自己搭建浏览器实现。phantomJs,CasperJS都是不错的选择。
导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量,执行该操作需要通过如上图中的历史查询实现,即通过一个时间来查询,而这个时间存放在一个hidden类型的input标签里,当然可以通过js语句将其改为text类型,然后执行send_keys之类的操作。然而,我失败了。时间可以修改设置,可是结果如下图。

为此,仅抓取实时数据。选取python的selenium,模拟搭建浏览器,模拟人为的点击等操作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码,即执行操作后的源代码。普通的通过 url解析网页的方式只能获取给定的数据,不能实现与用户之间的交互。selenium通过获取渲染后的网页源码,并通过丰富的查找工具,个人认为最好用的就是find_element_by_xpath("xxx"),通过该方式查找到元素后可执行点击、输入等事件,进而向服务器发出请求,获取所需的数据。

[python] view plain copy
# coding=utf-8  
from testString import *  
from selenium import webdriver  
import string  
import os  
from selenium.webdriver.common.keys import Keys  
import time  
import sys  
default_encoding = 'utf-8'  
if sys.getdefaultencoding() != default_encoding:  
reload(sys)  
sys.setdefaultencoding(default_encoding)  


district_navs = ['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']  
district_names = ['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区']  


flag = 1  
while (flag > 0):  
driver = webdriver.Chrome()  
driver.get("hianCe/")  
# 选择降雨量  
driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()  

filename = time.strftime("%Y%m%d%H%M", time.localtime(time.time())) + '.txt'  
#创建文件  
output_file = open(filename, 'w')  
# 选择行政区  
for i in range(len(district_navs)):  
driver.find_element_by_xpath("//div[@id='" + district_navs[i] + "']").click()  
# print driver.page_source  
timeElem = driver.find_element_by_id("time_shikuang")  
#输出时间和站点名  
output_file.write(timeElem.text + ',')  
output_file.write(district_names[i] + ',')  
elems = driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")  
#输出每个站点的数据,格式为:站点名,一小时降雨量,当日累积降雨量  
for elem in elems:  
output_file.write(AMonitorRecord(elem.get_attribute("title")) + ',')  
output_file.write('\n')  
output_file.close()  
driver.close()  
time.sleep(3600)  
文件中引用的文件testString只是修改输出格式,提取有效数据。[python] view plain copy
#Encoding=utf-8  
def OnlyCharNum(s, oth=''):  
s2 = s.lower()  
fomart = 'abcdefghijklmnopqrstuvwxyz0123456789,.'  
for c in s2:  
if not c in fomart:  
s = s.replace(c, '')  
return s  


def AMonitorRecord(str):  
str = str.split(":")  
return str[0] + "," + OnlyCharNum(str[1])  
一小时抓取一次数据,结果如下:

python爬虫怎么获取动态的网页源码

6. 关于网页源码与网页内容不对应的问题,本人想做一个网络爬虫,但爬取的数据不是当前页面信息,请各位赐教

需要看一下这个网址的格式,可能是编码后得到的,例如"网址?url=..."

7. python网络刷微博爬虫为什么循环后浏览器不关闭,下面是源代码

用微博的api多好,比你这个方便多了

python网络刷微博爬虫为什么循环后浏览器不关闭,下面是源代码

8. Python编写爬虫时遇到的编码问题:网页源码是uft-8,.read()的输出包含了中文,使用了.endoce('utf-8')

python打印a list of unicode string,就是这种格式的。你循环一下就不会这样了。
for item in items:    print(item)