Python自动化抓取GBGB赛狗比赛结果:日期范围与赛道筛选教程


Python自动化抓取GBGB赛狗比赛结果:日期范围与赛道筛选教程

本教程详细介绍了如何使用python自动化从gbgb官方api抓取指定日期范围内的赛狗比赛结果,并根据特定赛道进行数据筛选。通过动态构建api请求参数、处理json响应及实现健壮的错误处理机制,用户可以高效地收集和存储所需数据,摆脱手动输入id的繁琐。

引言:自动化数据获取的必要性

在进行数据分析或建立预测模型时,获取大量、结构化的原始数据是基础且关键的一步。对于像GBGB(Great Britain Greyhound Board)这类网站,手动通过网页界面或逐一输入比赛ID来获取结果不仅效率低下,而且极易出错。幸运的是,许多网站提供了API(应用程序接口),允许开发者通过编程方式批量访问其数据。本教程将指导您如何利用Python和GBGB的API接口,高效地抓取指定日期范围内的赛狗比赛结果,并针对特定赛道进行数据筛选。

GBGB API接口解析

GBGB提供了一个公开的API端点,用于查询比赛结果。通过分析其URL结构,我们可以发现一个通用的结果查询接口:https://api.gbgb.org.uk/api/results。此接口支持以下关键查询参数:

  • page: 查询结果的页码,默认为1。
  • itemsPerPage: 每页返回的条目数量,用于控制单次请求的数据量。
  • date: 查询指定日期的比赛结果,格式为 YYYY-MM-DD。
  • race_type: 比赛类型,例如 'race'。

了解这些参数是实现自动化抓取的基础。通过动态地修改 date 参数,我们便可以遍历指定日期范围内的所有比赛结果。

环境准备

在开始编写代码之前,请确保您的Python环境中已安装必要的库。本教程主要依赖 requests 库来发送HTTP请求和 json 库来处理API返回的JSON数据。

如果您尚未安装 requests 库,可以通过以下命令进行安装:

pip install requests

json 库是Python标准库的一部分,无需额外安装。

核心实现:动态日期范围抓取

要实现指定日期范围的抓取,我们需要构建一个循环结构,依次生成每个日期的API请求URL。

1. 构建请求参数

首先,定义API的基础URL和固定的查询参数:

import requests
import json

json_list = []
base_url = "https://api.gbgb.org.uk/api/results"
params = {
    'page': '1',
    'itemsPerPage': '200', # 设定每页返回200条,可根据需求调整
    'race_type': 'race'
}

2. 日期循环逻辑

为了遍历一个日期范围,我们可以使用嵌套循环,外层循环遍历月份,内层循环遍历天数。这里以抓取2025年10月至12月的数据为例:

Viggle AI Video Viggle AI Video

Powerful AI-powered animation tool and image-to-video AI generator.

Viggle AI Video 115 查看详情 Viggle AI Video
# 示例:抓取2025年10月至12月的数据
for month in range(10, 12 + 1):  # 循环遍历月份,例如10, 11, 12
    # 根据月份确定当月的天数
    if month == 2:
        get_days_in_month = 28 # 简化处理,未考虑闰年
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    for day in range(1, get_days_in_month + 1):  # 循环遍历每天
        # 格式化日期字符串为 YYYY-MM-DD 形式
        # 使用 f-string 的 :02d 格式化,确保月份和日期始终为两位数(例如 01, 02)
        params['date'] = f'2025-{month:02d}-{day:02d}'
        # ... 后续发送请求和处理数据的代码

3. 发送HTTP请求与处理响应

在每次日期循环中,我们将使用 requests.get() 方法发送HTTP GET请求,并将 params 字典作为参数传入。requests 库会自动将字典转换为URL查询字符串。

API的响应通常是JSON格式。我们可以使用 response.json() 方法将其直接解析为Python字典。

        try:
            response = requests.get(base_url, params=params)
            response.raise_for_status()  # 检查请求是否成功,如果状态码不是2xx则抛出异常

            page_context_dict = response.json()  # 将JSON响应转换为Python字典
            items = page_context_dict.get('items', []) # 获取比赛结果列表,如果不存在则返回空列表

            # ... 后续数据筛选和存储的代码

        except requests.exceptions.HTTPError as errh:
            print(f"HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON Decode Error for date {params['date']}: {json_err}")

数据筛选:指定赛道结果

API返回的数据可能包含所有赛道的结果。如果只需要特定赛道的数据,我们可以在获取到 items 列表后进行筛选。

            specific_track_items = []
            desired_track = "Swindon" # 指定您想要筛选的赛道名称,例如 "Swindon" 或 "Hove"

            for item in items:
                # 检查字典中是否存在 'trackName' 键,并判断其值是否与目标赛道匹配
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            json_list.extend(specific_track_items) # 将筛选后的数据添加到总列表中

数据存储:保存为JSON文件

在完成所有日期范围的遍历和数据收集后,我们将累积的 json_list 写入一个JSON文件。

# 在所有循环结束后,将收集到的所有数据写入一个JSON文件
with open('filtered_gbgb_results.json', 'w', encoding='utf-8') as f:
    json.dump(json_list, f, ensure_ascii=False, indent=4)
print(f"所有指定日期和赛道的数据已保存到 'filtered_gbgb_results.json' 文件。共计 {len(json_list)} 条记录。")

ensure_ascii=False 确保中文字符(如果API响应中包含)能正确写入文件,indent=4 则使JSON文件更具可读性。

完整示例代码

结合上述所有步骤,以下是完整的Python代码,用于抓取指定日期范围和赛道的数据:

from urllib.request import urlopen # 尽管此处未使用,但保留以示原问题上下文
import requests
import json

# 用于存储所有抓取到的数据的列表
json_list = []

# GBGB API的基础URL
base_url = "https://api.gbgb.org.uk/api/results"

# 固定的查询参数
params = {
    'page': '1',
    'itemsPerPage': '200',  # 每页返回的条目数量,可根据API限制和需求调整
    'race_type': 'race'     # 比赛类型
}

# 设定您想要筛选的赛道名称
desired_track = "Hove" # 例如,您可以改为 "Swindon" 或其他赛道名称

# 定义需要抓取的年份和月份范围
target_year = 2025
start_month = 10
end_month = 12

# 循环遍历指定年份的月份范围
for month in range(start_month, end_month + 1):
    # 根据月份确定当月的天数(简化处理,未考虑闰年)
    if month == 2:
        get_days_in_month = 28
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    # 循环遍历当月的所有天数
    for day in range(1, get_days_in_month + 1):
        # 动态更新 'date' 参数,格式为 YYYY-MM-DD
        params['date'] = f'{target_year}-{month:02d}-{day:02d}'
        print(f"正在抓取日期: {params['date']} 的数据...")

        try:
            # 使用 requests 库发送 HTTP GET 请求
            response = requests.get(base_url, params=params)
            response.raise_for_status()  # 如果请求失败(状态码非2xx),则抛出异常

            # 将API响应解析为Python字典
            page_context_dict = response.json()
            items = page_context_dict.get('items', []) # 获取比赛结果列表

            # 用于存储当前日期和赛道筛选后的结果
            specific_track_items = []

            # 遍历所有比赛结果,并根据赛道名称进行筛选
            for item in items:
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            # 将筛选后的结果添加到总列表中
            json_list.extend(specific_track_items)

        except requests.exceptions.HTTPError as errh:
            print(f"HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON Decode Error for date {params['date']}: {json_err}")
        except Exception as e:
            print(f"An unexpected error occurred for date {params['date']}: {e}")

# 在所有循环结束后,将收集到的所有数据写入一个JSON文件
output_filename = f'{desired_track}_results_{target_year}_{start_month:02d}-{end_month:02d}.json'
with open(output_filename, 'w', encoding='utf-8') as f:
    json.dump(json_list, f, ensure_ascii=False, indent=4) # indent=4 使JSON文件格式化,更易读
print(f"所有指定日期和赛道的数据已保存到 '{output_filename}' 文件。共计 {len(json_list)} 条记录。")

注意事项与优化

  1. API请求频率: 频繁或过快的API请求可能会导致您的IP地址被暂时封禁。在实际应用中,建议在每次请求之间添加适当的延迟(例如 time.sleep(1)),以模拟人类行为并遵守API的使用策略。
  2. itemsPerPage 参数: itemsPerPage 参数决定了单次请求返回的数据量。如果设定的值过大,可能会超出API的限制;如果过小,则需要更多的请求才能获取所有数据。根据API文档或实际测试来调整此值。
  3. API接口变动: API接口的结构和参数可能会随时间变化。如果代码突然失效,请检查GBGB网站的API文档(如果提供)或通过浏览器开发者工具观察其网络请求,以获取最新的接口信息。
  4. 代理与会话: 对于需要处理大量请求或规避IP限制的场景,可以考虑使用代理IP池。此外,使用 requests.Session() 对象可以提高效率,因为它会重用底层的TCP连接。
  5. 错误处理的健壮性: 示例代码中包含了基本的错误处理。在生产环境中,您可能需要更详细的日志记录、重试机制或更复杂的异常处理策略。
  6. 数据清洗与分析: 抓取到的原始JSON数据可能需要进一步的清洗、转换和分析,才能用于具体的业务场景。

总结

通过本教程,您已经学会了如何利用Python的 requests 库和GBGB的API接口,实现自动化地抓取指定日期范围和赛道的赛狗比赛结果。这种方法不仅大大提高了数据获取的效率,也为后续的数据分析和应用奠定了坚实的基础。掌握API数据抓取技能,是现代数据工作者不可或缺的能力之一。

以上就是Python自动化抓取GBGB赛狗比赛结果:日期范围与赛道筛选教程的详细内容,更多请关注其它相关文章!


# 免费b站网站推广  # 当月  # 您的  # 浮点  # 我们可以  # 几种  # 可以使用  # 高质量营销推广策略  # 石湾抖音seo  # 赛狗  # 贵阳正规的网站优化seo公司  # 优化网站功能的软件  # 长沙seo运营推广  # 新站区seo教学视频  # 能联机的小游戏推广网站  # 兰州交通建设集团网站  # 网站建设毅文科技  # 数据清洗  # js  # json  # 浏览器  # app  # 工具  # session  # ai  # win  # python  # 状态码  # 标准库  # yy  # b网  # AI-powered  # 遍历  # 每页 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 顺丰快递单号查询寄件人 顺丰寄件人查询入口  《理想汽车》权限管理设置方法  c++如何实现观察者设计模式_c++行为型设计模式实战  鼠标没反应了怎么办 无线/有线鼠标失灵的解决方法【详解】  行者app怎样导出日志  4399造梦西游3无敌版_4399游戏入口  Win10如何彻底关闭OneDrive Win10禁用云同步功能【纯净】  J*aScript桌面应用_Electron多进程架构实战  《鹿路通》退余额方法  J*aScript字符串_Unicode处理  J*aScript与HTML元素交互:图片点击事件与链接处理教程  如何快速去除厨房重油污? 2025年最好用的厨房清洁剂推荐  PointNet++语义分割模型中类别变更引发的断言错误及标签处理策略  CSS如何使用outline-offset与颜色组合突出元素边框  网站体验不好=浪费钱:如何提升-用户体验效果差  网页版网易云音乐入口_网易云音乐在线官网登录  一点万象签到领积分指南  手机雨课堂网页版入口免登录 雨课堂网页版可点击直接进入  聚水潭ERP后台管理系统登录 聚水潭ERP官方登录通道  Sublime Text怎么关闭自动完成_Sublime禁用Auto Complete设置  Safari浏览器自动填表功能失效怎么办 Safari表单管理修复  京东快递物流信息不更新怎么办_物流停滞原因与处理方法  动漫岛在线动漫网 动漫岛动漫在线观看官方入口  解决Pandas DataFrame高度碎片化警告:高效创建多列的策略  汽水音乐网页版登录 汽水音乐网页端官方入口  Dash应用多值文本输入处理与类型转换教程  PyEZ 配置提交中 RpcTimeoutError 的健壮性处理策略  《虎扑》取消评分记录方法  realme 10 Pro息屏方案_realme 10 Pro省电策略  TikTok视频播放中断怎么办 TikTok播放异常修复方法  Go反射进阶:访问内嵌结构体中的被遮蔽方法  Go语言中方法接收器的选择:值类型还是指针类型?  怎样让Windows 11的开始菜单恢复经典样式_Open-Shell工具使用指南【怀旧】  windows10怎么更改下载路径_windows10默认存储位置修改教程  Sublime怎么快速复制文件路径_Sublime右键菜单增强技巧  word怎么将图片设置为页面背景并不影响打印_Word图片背景设置方法  抖音赚钱快速入门_新手必看的抖音赚钱步骤  猫眼app抢票快还是小程序快  MySQL多重JOIN技巧:高效关联同一表获取多角色信息  AO3中文入口稳定分享_AO3官网HTTPS看文详解  易车网官网直达入口 易车网在线登录入口  c++如何实现一个简单的RPC框架_c++远程过程调用原理与实践  《书耽》更换手机号方法  豆包AI怎样为教育场景定制答疑逻辑_为教育场景定制豆包AI答疑逻辑方案【方案】  漫蛙manwa官网浏览入口_漫蛙漫画网页版访问链接  iPhone 15 Pro如何查看存储空间占用_iPhone 15 Pro存储空间查看教程  Win11怎么开启HDR_Windows 11显示器画质增强设置  免费占卜在线神算_免费占卜手机神算  t3出行如何使用微信支付  汽水音乐在线入口 汽水音乐网页端官方页面快速打开 

 2025-11-29

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.