当前位置: 首页 > news >正文

厦门无忧网站建设有限公司正规seo排名多少钱

厦门无忧网站建设有限公司,正规seo排名多少钱,做网站月入过万的经验,电商系统网站开发在当今数字化的时代,网络上丰富的影视资源信息吸引着众多开发者去挖掘和利用。今天,我就来和大家分享一段有趣的代码,它能够从豆瓣电影平台获取相关数据并存储到数据库中哦。 结果展示(文末附完整代码): 目…

        在当今数字化的时代,网络上丰富的影视资源信息吸引着众多开发者去挖掘和利用。今天,我就来和大家分享一段有趣的代码,它能够从豆瓣电影平台获取相关数据并存储到数据库中哦。

结果展示(文末附完整代码):

目录

结果展示(文末附完整代码):

一、代码准备

二、Douban 类的初始化

1. 请求头设置

2. Cookie 设置

3. 数据库连接

三、获取电影种类相关数据

1. 初始请求

2. 进一步处理

四、解析并存储数据

1. 请求数据

2. 数据处理与存储

 完整代码:


一、代码准备

        首先,我们看到这段代码开头进行了一系列的导入操作。它引入了像 re(用于正则表达式处理)、pymysql(用于与 MySQL 数据库进行交互)、requests(方便发送 HTTP 请求)以及 lxml(用于解析 HTML 等)这些非常实用的库。

# -*- coding:utf-8 -*-
import re
import pymysql
import requests
from lxml import etree

二、Douban 类的初始化

        接下来,定义了一个名为 Douban 的类。在这个类的初始化方法 __init__ 中,做了很多重要的设置。

1. 请求头设置

        设置了 headers,这里面包含了各种关于请求的信息,比如接受的内容类型、语言偏好、缓存控制等等。这些设置能够让我们的请求更符合豆瓣服务器的要求,顺利获取到数据。例如:

self.headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6",// 其他设置省略
}

2. Cookie 设置

        同时,也配置了 cookies,这些是在之前与豆瓣网站交互过程中可能留下的一些标识信息,对于后续请求获取准确数据也起到了一定的作用哦。比如:

self.cookies = {"_pk_id.100001.4cf6": "f993e3f352d610f5.1712975414.","__gads": "ID=8f742f4360ad4561:T=1712975416:RT=1712975416:S=ALNI_MYEjjG_8aAehpZQ58LPXuy8119UYQ",// 其他设置省略
}

3. 数据库连接

        还建立了与 MySQL 数据库的连接哦。指定了数据库的主机地址(这里是本地的 127.0.0.1)、端口(3306)、用户名(root)、密码(921108)以及要使用的数据库名(data),并且创建了一个游标,以便后续执行 SQL 语句呢。

self.db = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='921108',db='data'
)
self.cursor = self.db.cursor()

三、获取电影种类相关数据

        在 Douban 类中有一个 get_zhonglei 方法,它主要负责获取电影的种类相关信息。

1. 初始请求

        首先,它会向豆瓣电影的排行榜页面(https://movie.douban.com/chart)发送一个 GET 请求,带上之前设置好的 headers 和 cookies。然后通过 lxml 的 etree 来解析获取到的 HTML 内容,找到页面中相关的 span 元素列表。

url = "https://movie.douban.com/chart"
response = requests.get(url, headers=self.headers, cookies=self.cookies).text
html = etree.HTML(response)
span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')

2. 进一步处理

        对于每个找到的 span 元素,它会提取出其中链接的 href 属性值,通过正则表达式从 href 中获取到电影类型对应的编号 type_。然后根据这个编号构建新的请求链接,再次发送请求获取到该类型电影的总数 filtered_total,最后调用 parse 方法来进一步处理这些数据哦。

for span in span_list:href = span.xpath('./a/@href')[0]type_ = re.findall(r'type=(\d+)', href)[0]url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()filtered_total = response['filtered_total']self.parse(type_, filtered_total, j, i)

四、解析并存储数据

   Douban 类中parse 方法则承担着解析获取到的具体电影数据并存储到数据库的重要任务。

1. 请求数据

        它会根据传入的电影类型编号 type_ 和总数 filtered_total,构建合适的请求参数,向 https://movie.douban.com/j/chart/top_list 发送请求,获取到该类型下的一系列电影详细信息,这些信息是以 JSON 格式返回的哦。

url = "https://movie.douban.com/j/chart/top_list"
params = {"type": type_,"interval_id": "100:90","action": "","start": "0","limit": filtered_total,
}
response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()

2. 数据处理与存储

        对于每一部电影的信息,它提取出诸如电影标题、演员数量、演员名单、评分、地区、上映日期、电影类型、投票数等重要信息。并且对上映日期进行了一些格式上的处理,然后将这些数据按照一定的格式准备好,尝试插入到名为 movie_info 的数据库表中。如果在插入过程中出现了 MySQL 错误,它会打印出错误信息哦。

for item in response:title = item['title']actor_count = item['actor_count']actors = item['actors']score = item['rating'][0]regions = item['regions'][0]release_date = item['release_date']types = item['types']vote_count = item['vote_count']// 数据处理省略部分代码try:sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))self.db.commit()except pymysql.MySQLError as e:print(f"An error occurred: {e}")

 完整代码:

# -*- coding:utf-8 -*-
import reimport pymysql
import requests
from lxml import etreeclass Douban(object):def __init__(self):self.headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-language": "zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6","cache-control": "no-cache","pragma": "no-cache","priority": "u=0, i","referer": "https://cn.bing.com/","sec-ch-ua": "\"Microsoft Edge\";v=\"131\", \"Chromium\";v=\"131\", \"Not_A Brand\";v=\"24\"","sec-ch-ua-mobile": "?0","sec-ch-ua-platform": "\"Windows\"","sec-fetch-dest": "document","sec-fetch-mode": "navigate","sec-fetch-site": "cross-site","sec-fetch-user": "?1","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}self.cookies = {‘填入你的cookies’}self.db = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='921108',db='data')self.cursor = self.db.cursor()def get_zhonglei(self, j ,i):url = "https://movie.douban.com/chart"response = requests.get(url, headers=self.headers, cookies=self.cookies).texthtml = etree.HTML(response)span_list = html.xpath('//*[@id="content"]/div/div[2]/div[1]/div/span')for span in span_list:href = span.xpath('./a/@href')[0]# text = span.xpath('./a/text()')[0]# print(url)type_ = re.findall(r'type=(\d+)', href)[0]# print(type_)url = f'https://movie.douban.com/j/chart/top_list_count?type={type_}&interval_id=100%3A90&action='response = requests.get(url=url, headers=self.headers, cookies=self.cookies).json()filtered_total = response['filtered_total']print(type_, filtered_total)self.parse(type_, filtered_total, j, i)def parse(self, type_, filtered_total, j, i):url = "https://movie.douban.com/j/chart/top_list"params = {"type": type_,"interval_id": "100:90","action": "","start": "0","limit": filtered_total,}response = requests.get(url, headers=self.headers, cookies=self.cookies, params=params).json()for item in response:title = item['title']actor_count = item['actor_count']actors = item['actors']score = item['rating'][0]regions = item['regions'][0]release_date = item['release_date']types = item['types']vote_count = item['vote_count']j += 1# i.append([j, title, actor_count, actors, score, regions, release_date, types, vote_count])# print(j, title, actor_count, actors, score, regions, release_date, types, vote_count)if len(release_date) == 4:movie_date = f"{release_date}-01-01"else:movie_date = release_datemovie_name = titlemovie_type = str(types)movie_country = regionsactor_name = str(actors)score_all = vote_countprint(j, movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all)# 插入movies表try:sql = "insert into movie_info (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all) values (%s,%s,%s,%s,%s,%s,%s)"self.cursor.execute(sql, (movie_name,movie_date,movie_type, movie_country,actor_name,score, score_all))self.db.commit()except pymysql.MySQLError as e:print(f"An error occurred: {e}")# self.db.rollback()pass
if __name__ == '__main__':j = 0i = []spider = Douban()spider.get_zhonglei(j, i)

        通过这段代码,我们就可以实现从豆瓣电影平台获取丰富的电影数据,并将它们有序地存储到我们自己的数据库中啦,是不是很有意思呢?当然,在实际应用中,我们还可以根据自己的需求对代码进行进一步的优化和扩展哦。

http://www.rdtb.cn/news/17008.html

相关文章:

  • 大型手机网站制作网站如何快速被百度收录
  • 网站无缝背景网站页面的优化
  • 深圳大鹏新区葵涌街道网站优化培训
  • 武汉做网站好万网建站
  • 快云助手网站建设视频百度手机版
  • 支付网站建设的分录朋友圈广告投放平台
  • 番禺高端网站建设山西seo排名厂家
  • 江苏宜兴做网站的电话哈尔滨网站优化流程
  • wordpress themes free download深圳优化服务
  • 芜湖学校网站建设电话seo排名优化技术
  • h5网站价格网站宣传推广策划
  • 网站解析怎么做网络热词排行榜
  • 网站可以更更换空间吗seo和sem的关系
  • 怎么找一家公司的网站seo网站建设优化什么意思
  • 温州做网站哪里好平台优化是指什么
  • 做网站推广怎么跟客户沟通无锡网站制作无锡做网站
  • 长沙天津网站建设脑白金网络营销
  • 广州公司做网站刚刚突发1惊天大事
  • 有好看图片的软件网站模板下载成品网站1688入口网页版怎样
  • 没有网站能做淘宝客吗市场推广方法
  • 邯郸网站制作哪家好旺道网站排名优化
  • 珠海做网站多少钱兰州seo关键词优化
  • 网站流量多少谷歌浏览器下载app
  • 网站域名可以更换吗医疗器械龙头股
  • 广州专业网站建设班级优化大师头像
  • 主流的网站开发语言微信公众号怎么做文章推广
  • 装修网站建设策划方案郑州网站制作
  • 门户网站都有哪些论坛排名
  • 做推广效果哪个网站好怎样推广一个产品
  • 外包公司与劳务派遣区别杭州百度seo优化