只有在网站上显示的东西才能爬到,或者网页看不到,是网页请求的接口返回的数据 这些数据都可以拿到,其他的数据库结构是拿不到的
通用爬虫的缺点: 1. 只能提供和文本相关的内容(HTML、Word、PDF)等等,... 当然至于内容要不要收录要不要被排名主要基于以下判断标准:1、网站保证访问速度...
1、通过在你的程序中加入访问日志功能,并记录来访者的浏览器信息,从中分析请求信息。 2、通过开启服务器的访问日志功能,查看访问日志,一般百度、google的爬虫都有特殊的主机信息。
你可以试试Scrapy-djangoitem(Scrapy1.0.0之前为Djangoitem),它可以在item中调用Django的model。 不知道是否符合你的需求?