1. python把爬到的数据放到数据库
去装一个 pymsql包
然后
import pymysql #导入pymsql模块 #链接数据库,注意port是int型,不是str,所以不要用引号conn = pymysql.connect( user='root', password='root', host='127.0.0.1', port=3306, database='test_demo', use_unicode=True, charset="utf8" )#获取游标cursor = conn.cursor()#插入数据,注意看有变量的时候格式cursor.execute("INSERT INTO tieba_user(`uuid`,`user_name`,`user_rank`,`user_level`,`level_status`,`tieba_name`) VALUES (%s,%s,%s,%s,%s,%s)", (user_id, user_name, user_rank, user_level, level_statu, tieba_name))#提交conn.commit()#关闭连接cursor.close()
类似这样
2. 怎么把python 用urllib2爬取的内容 存到数据库中
使用mongodb很简单。
首先安装pymongo:
1pip install pymongo
代码实现:用urllib2读取数据,打包成JSON格式插入到mongodb中。
1234567891011121314151617181920212223242526from pymongo import MongoClienttry: from urllib2 importurlopen, Request, HTTPError, URLErrorexcept ImportError: from urllib.request import urlopen, Request, HTTPError, URLErrorresult = []try: f = urlopen('http://www.dynamsoft.com', timeout=3) while 1: tmp = f.read(10240) if len(tmp) == 0: break else: result.append(tmp) f.close()except HTTPError, URLError: print URLError.codecontent = ''.join(result)post = {"author": "yushulx","content": content}client = MongoClient()db = client.test_databaseposts = db.postsposts.insert(post)print posts.find_one({"author": "yushulx"})
3. python爬取到的json数据怎么存入到MySQL数据库中
python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句
4. 如何将该Python爬取的数据存入MySQL中,数据库表带id
python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句
5. python 爬虫怎么处理爬取数据中含有单引号,并将其存入数据库
把爬到的数据用三引号接收再想办法处理呢
a="""aaa"aa"aa'aa'""" #a为你实际爬到的数据b = """%s""" %(a)print b #打印 '"aaa"aa"aa\'aa\''
6. scrapy框架python语言爬虫得到的数据怎么存入数据库?
Scrapy依赖于twisted,所以如果Scrapy能用,twisted肯定是已经安装好了。
抓取到的数据,可以直接丢到MySQL,也可以用Django的ORM模型丢到MySQL,方便Django调用。方法也很简单,按数据库的语句来写就行了,在spiders目录里定义自己的爬虫时也可以写进去。
当然使用pipelines.py是更通用的方法,以后修改也更加方便。你的情况,应该是没有在Settings.py里定义pipelines,所以Scrapy不会去执行,就不会生成pyc文件了。
7. 如何将scrapy爬取的数据存入数据库中
#-*- coding: utf-8 -*-
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from fjsen.items import FjsenItem
class FjsenSpider(BaseSpider):
name="fjsen"
allowed_domains=["fjsen.com"]
start_urls=['.fjsen.com/j/node_94962_'+str(x)+'.htm' for x in range(2,11)]+['fjsen.com/j/node_94962.htm']
def parse(self,response):
hxs=HtmlXPathSelector(response)
sites=hxs.select('//ul/li')
items=[]
for site in sites:
item=FjsenItem()
item['title']=site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['addtime']=site.select('span/text()').extract()
items.append(item)
return items
8. python爬到的数据得打包成文件吗 怎么把文件拷贝到数据库中啊
#这是自己写的一个爬取图片并保存到磁盘的代码# -*- coding: utf-8 -*-"""Created on Tue May 26 09:13:20 2015@author: """import urllib2from bs4 import BeautifulSoupimport socketimport timeimport randomfrom test.test_socket import try_address#伪装浏览器,以免被封def user_agent(url): req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'} req_timeout = 20 try: req = urllib2.Request(url,None,req_header) page = urllib2.urlopen(req,None,req_timeout) html = page except urllib2.URLError as e: print (e.message) except socket.timeout as e: user_agent(url) return htmldef pic(url): soup = BeautifulSoup(user_agent(url)) img = soup.find_all(['img']) for pic in img: link = pic.get('src') if link is None: continue if link[-3:]=='gif': continue try: content2 = urllib2.urlopen(link).read() except: continue flag = random.randint(0, 1000) #设置图片的名称 name = time.strftime('%Y-%m-%d_%H-%M-%S',time.localtime(time.time()))+str(flag) #D:\\JSP\\pic书图片的存储路径 #你可以在这个提取出相应信息后对信息进行操作,例如保存到数据库,或者写入文件中 with open(u'D:\\JSP\\pic'+'\\'+name+link[-5:],'wb') as code: code.write(content2) return 0