python把爬到的数据放到数据库

2024-05-15

1. python把爬到的数据放到数据库

去装一个 pymsql包
然后
import pymysql  #导入pymsql模块 #链接数据库,注意port是int型,不是str,所以不要用引号conn = pymysql.connect(                user='root',                password='root',                host='127.0.0.1',                port=3306,                database='test_demo',                use_unicode=True,                charset="utf8"            )#获取游标cursor = conn.cursor()#插入数据,注意看有变量的时候格式cursor.execute("INSERT INTO tieba_user(`uuid`,`user_name`,`user_rank`,`user_level`,`level_status`,`tieba_name`) VALUES (%s,%s,%s,%s,%s,%s)", (user_id, user_name, user_rank, user_level, level_statu, tieba_name))#提交conn.commit()#关闭连接cursor.close()


类似这样

python把爬到的数据放到数据库

2. 怎么把python 用urllib2爬取的内容 存到数据库中

使用mongodb很简单。
首先安装pymongo:
1pip install pymongo
代码实现:用urllib2读取数据,打包成JSON格式插入到mongodb中。
1234567891011121314151617181920212223242526from pymongo import MongoClienttry:    from urllib2 importurlopen, Request, HTTPError, URLErrorexcept ImportError:    from urllib.request import urlopen, Request, HTTPError, URLErrorresult = []try:    f = urlopen('http://www.dynamsoft.com', timeout=3)    while 1:        tmp = f.read(10240)        if len(tmp) == 0:            break        else:            result.append(tmp)    f.close()except HTTPError, URLError:    print URLError.codecontent = ''.join(result)post = {"author": "yushulx","content": content}client = MongoClient()db = client.test_databaseposts = db.postsposts.insert(post)print posts.find_one({"author": "yushulx"})

3. python爬取到的json数据怎么存入到MySQL数据库中

python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句

python爬取到的json数据怎么存入到MySQL数据库中

4. 如何将该Python爬取的数据存入MySQL中,数据库表带id

python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句

5. python 爬虫怎么处理爬取数据中含有单引号,并将其存入数据库

把爬到的数据用三引号接收再想办法处理呢 
a="""aaa"aa"aa'aa'"""  #a为你实际爬到的数据b = """%s""" %(a)print b #打印 '"aaa"aa"aa\'aa\''

python 爬虫怎么处理爬取数据中含有单引号,并将其存入数据库

6. scrapy框架python语言爬虫得到的数据怎么存入数据库?

Scrapy依赖于twisted,所以如果Scrapy能用,twisted肯定是已经安装好了。
抓取到的数据,可以直接丢到MySQL,也可以用Django的ORM模型丢到MySQL,方便Django调用。方法也很简单,按数据库的语句来写就行了,在spiders目录里定义自己的爬虫时也可以写进去。
当然使用pipelines.py是更通用的方法,以后修改也更加方便。你的情况,应该是没有在Settings.py里定义pipelines,所以Scrapy不会去执行,就不会生成pyc文件了。

7. 如何将scrapy爬取的数据存入数据库中

#-*- coding: utf-8 -*-
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from fjsen.items import FjsenItem
class FjsenSpider(BaseSpider):
    name="fjsen"
    allowed_domains=["fjsen.com"]
    start_urls=['.fjsen.com/j/node_94962_'+str(x)+'.htm' for x in range(2,11)]+['fjsen.com/j/node_94962.htm']
    def parse(self,response):
        hxs=HtmlXPathSelector(response)
        sites=hxs.select('//ul/li')
        items=[]
        for site in sites:
            item=FjsenItem()
            item['title']=site.select('a/text()').extract()
            item['link'] = site.select('a/@href').extract()
            item['addtime']=site.select('span/text()').extract()
            items.append(item)
        return items

如何将scrapy爬取的数据存入数据库中

8. python爬到的数据得打包成文件吗 怎么把文件拷贝到数据库中啊

#这是自己写的一个爬取图片并保存到磁盘的代码# -*- coding: utf-8 -*-"""Created on Tue May 26 09:13:20 2015@author: """import urllib2from bs4 import BeautifulSoupimport socketimport timeimport randomfrom test.test_socket import try_address#伪装浏览器,以免被封def user_agent(url):    req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'}    req_timeout = 20    try:        req = urllib2.Request(url,None,req_header)        page = urllib2.urlopen(req,None,req_timeout)        html = page    except urllib2.URLError as e:        print (e.message)    except socket.timeout as e:        user_agent(url)    return htmldef pic(url):    soup = BeautifulSoup(user_agent(url))    img = soup.find_all(['img'])    for pic in img:            link = pic.get('src')            if link is None:                continue            if  link[-3:]=='gif':                continue            try:                content2 = urllib2.urlopen(link).read()            except:                continue                flag = random.randint(0, 1000)            #设置图片的名称            name = time.strftime('%Y-%m-%d_%H-%M-%S',time.localtime(time.time()))+str(flag)            #D:\\JSP\\pic书图片的存储路径            #你可以在这个提取出相应信息后对信息进行操作,例如保存到数据库,或者写入文件中                                    with open(u'D:\\JSP\\pic'+'\\'+name+link[-5:],'wb') as code:                code.write(content2)    return 0