
本教程旨在解决使用python抓取html数据并追加到pandas dataframe时,因数据列不匹配导致的“cannot set a row with mismatched columns”错误。文章提供了两种核心策略:一是通过条件判断跳过不完整的数据行;二是用`np.nan`填充缺失列,以确保数据完整性。同时,强调了通过先收集数据再一次性构建dataframe的性能优化方法,提升数据处理效率和代码健壮性。
在进行网页数据抓取(Web Scraping)时,我们经常会遇到HTML表格数据结构不一致的情况。特别是当表格中的某些行缺少部分列数据时,直接将其追加到预定义列数的Pandas DataFrame中会导致“cannot set a row with mismatched columns”错误。这种错误通常发生在尝试将一个长度不匹配的列表赋值给DataFrame的某一行时。
例如,考虑以下数据片段,其中“Albania”一行缺少2025和2025年的数据:
Country (or dependent territory) 2025 2025 2025 2025 Afghanistan 20,136 14,941 19,083 23,032 Albania 15,192 17,984 Algeria 145,656 163,138 195,060 224,107
如果我们的目标DataFrame预设了“2025”、“2025”、“2025”、“2025”这四列,当处理到“Albania”这一行时,由于其只提供了两个数据点,直接使用df.loc[length] = row_data的方式就会引发列不匹配的错误。
为了有效地处理这类问题,我们提供两种主要的策略,并结合性能优化建议。
立即学习“前端免费学习笔记(深入)”;
这种方法的核心思想是,在将数据追加到DataFrame之前,先检查当前行的数据长度是否与DataFrame预期的列数完全匹配。如果不匹配,则直接跳过该行数据。这确保了DataFrame中的每一行都具有完整且一致的数据结构。
实现步骤:
示例代码:
Gaga
曹越团队开发的AI视频生成工具
1151
查看详情
import pandas as pd
import numpy as np # 虽然此策略未使用,但通常与Pandas一起导入
# 假设 GDP_2025 是已经抓取到的HTML行数据列表,每项是一个BeautifulSoup的Tag对象
# 模拟 GDP_2025 的结构,实际应通过 BeautifulSoup 等库解析HTML
class MockRow:
def __init__(self, data_list):
self._data = data_list
def find_all(self, tag):
return [MockTag(d) for d in self._data]
class MockTag:
def __init__(self, text):
self.text = text
def strip(self):
return self.text.strip()
GDP_2025_mock_data = [
MockRow(['Country', '2025', '2025', '2025', '2025']), # 标题行,通常跳过
MockRow(['Afghanistan', '20,136', '14,941', '19,083', '23,032']),
MockRow(['Albania', '15,192', '17,984']), # 不完整数据
MockRow(['Algeria', '145,656', '163,138', '195,060', '224,107'])
]
# 实际应用中 GDP_2025 会是 BeautifulSoup 解析后的结果,例如 soup.find_all('tr')
years = ['2025','2025','2025','2025']
expected_columns_count = len(years)
all_rows_data = [] # 用于存储所有符合条件的数据行
for row in GDP_2025_mock_data[1:]: # 跳过标题行
row_cells = row.find_all('td') # 查找行中的所有<td>标签
individual_row_data = [data.text.strip() for data in row_cells]
# 检查数据长度是否与预期列数匹配
if len(individual_row_data) == expected_columns_count:
all_rows_data.append(individual_row_data)
# 一次性创建DataFrame,效率更高
GDP = pd.DataFrame(all_rows_data, columns=years)
print("策略一:跳过不完整数据")
print(GDP)优点: 确保了DataFrame中数据的完整性和一致性,避免了NaN值的引入,简化了后续数据清洗工作。 缺点: 会丢失所有不完整的数据行,可能导致信息损失。
这种方法旨在保留所有抓取到的数据,即使它们不完整。对于那些缺少列的行,我们会用np.nan(Not a Number)来填充缺失的位置,使其长度与DataFrame的预期列数一致。
实现步骤:
示例代码:
import pandas as pd import numpy as np # 沿用上面的 GDP_2025_mock_data years = ['2025','2025','2025','2025'] expected_columns_count =len(years) all_rows_data = [] # 用于存储所有处理后的数据行 for row in GDP_2025_mock_data[1:]: # 跳过标题行 row_cells = row.find_all('td') individual_row_data = [data.text.strip() for data in row_cells] # 计算需要填充的NaN数量 missing_columns_count = expected_columns_count - len(individual_row_data) if missing_columns_count > 0: # 用 np.nan 填充缺失的列 individual_row_data.extend([np.nan] * missing_columns_count) all_rows_data.append(individual_row_data) # 一次性创建DataFrame GDP = pd.DataFrame(all_rows_data, columns=years) print("\n策略二:用缺失值填充不完整数据") print(GDP)
优点: 保留了所有可用的数据,避免了信息丢失。np.nan是Pandas处理缺失值的标准方式,便于后续的数据清洗和分析。 缺点: 引入了np.nan值,后续可能需要进行缺失值处理(如填充、删除等)。此方法默认缺失的列位于行尾,如果缺失发生在中间,则需要更复杂的逻辑来匹配数据到正确的列。
无论是采用哪种策略,都强烈建议避免在循环中反复使用DataFrame.append()或DataFrame.loc来逐行添加数据。Pandas DataFrame的每次追加操作都会创建一个新的DataFrame,这在处理大量数据时会造成显著的性能开销。
推荐的做法是:
上述两种策略的示例代码都已采纳了这种优化方法,通过all_rows_data.append(individual_row_data)收集数据,最后通过pd.DataFrame(all_rows_data, columns=years)一次性构建DataFrame。这种方法能够显著提升数据处理的效率,尤其是在处理大型数据集时。
在从HTML表格抓取数据并构建Pandas DataFrame时,处理因数据不一致导致的列不匹配错误是常见的挑战。通过采纳“跳过不完整数据”或“用缺失值填充”这两种策略,并结合“先收集数据再一次性构建DataFrame”的性能优化实践,我们可以有效地解决这些问题,确保数据处理流程的顺畅和高效。选择哪种策略取决于具体的数据分析需求:如果完整性是首要考量,则选择跳过;如果最大化数据保留是目标,则选择填充缺失值。
以上就是解决Pandas数据追加中的列不匹配错误:HTML抓取数据处理教程的详细内容,更多请关注其它相关文章!
# 遍历
# 唐山seo顾问服务
# 网站建设课程标准
# 知乎 seo优化入门
# 陕西seo软件打造
# seo网站产品展示优化
# 云南seo入门如何引流
# 谷歌搜索关键词年度排名
# 宜昌软文推广有哪些网站
# 兴宁seo优化
# 刷手机seo点击 si
# 结束后
# 有效地
# python
# 客服
# 两种
# 数据结构
# 不匹配
# 数据处理
# 跳过
# 不完整
# 优化实践
# 数据清洗
# app
# html
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
PHP与SQL实践:高效实现数据复制与特定列值修改
追剧达人如何发弹幕
AI图层蒙版怎么用_AI图层蒙版应用技巧与设计实例
PHP页面重载后变量状态保持:实现用户档案连续浏览的教程
Keras中Convolution2D层及其核心辅助层详解
PointNet++语义分割模型中类别变更引发的断言错误及标签处理策略
如何在mysql中使用索引提示_mysql索引提示优化方法
CSS如何在页面中引入重置样式_使用Normalize.css或Reset.css统一浏览器默认样式
c++类和对象到底是什么_c++面向对象编程基础
iPhone 13 mini如何清理Safari缓存_iPhone 13 mini浏览器缓存清理方法
FotoBalloon图片左右镜像教程
qq音乐官方网站入口_qq音乐在线听歌网页版链接
向日葵客户端怎么进行语音通话_向日葵客户端语音通话功能使用方法
vivo手机视频通话美颜怎么设置_vivo视频通话美颜开启方法
MongoDB聚合管道:高效统计列表中各项的文档数量
使用VS Code作为你的个人知识管理系统
AO3中文版手机快速通道_AO3最新稳定链接更新
阿里旺旺电脑网页版入口 阿里旺旺电脑版网页登录入口
CSS过渡与滚动滚动事件结合应用_scroll与transition动画
在React中正确处理HTML input type="number"的数值类型
《跳跳舞蹈》循环播放方法
Python类装饰器动态修改方法时的类型提示:Mypy插件实现精确静态分析
163邮箱网页版入口 163邮箱在线使用
VS Code中的Tailwind CSS IntelliSense插件使用技巧
PHP使用DOMDocument与XPath精准追加XML元素教程
多闪电脑版下载_多闪PC端模拟器使用
苹果SE如何开启单手模式_苹果SE单手操作功能
Win10截图远程协助 Win10远程桌面截屏法【场景应用】
解决Pandas DataFrame高度碎片化警告:高效创建多列的策略
composer licenses 命令:如何检查项目依赖的许可证?
使用Selenium在无头Chrome中交互动态菜单和复选框的策略
汽水音乐在线听歌网页版 汽水音乐在线听歌网页版入口
太平年在哪个平台播出
Vue 3中独立响应式实例的创建与应用
解决CSS布局中意外顶部空白问题的教程
知乎APP怎么查看自己被邀请的问题_知乎APP邀请回答记录查看与参与方法
如何在解析前预检查XML文件的完整性? 比如检查文件大小或特定结束标签
漫蛙漫画官方网站使用_漫蛙manwa网页版在线入口教程
抖音官网入口快速访问 抖音网页版账号注册解析
《浙里办》电子发票开具方法
Selenium自动化:利用键盘模拟解决复杂日期输入框输入问题
厨房地面防滑垫的油污怎么洗? 机洗和手洗防滑垫的注意事项
如何在 WordPress 前端实现内容提交:古腾堡编辑器的替代方案与实践
自定义你的VS Code状态栏,监控关键信息
邮编号码查询app有哪些_邮编号码查询推荐app及使用体验
uc浏览器官网网页版使用 uc浏览器官网免费在线首页
Dagster资产间数据传递与用户配置管理教程
附近酒吧怎么找?
使用VS Code调试Python代码:从入门到精通
win11关机几秒又自己开机 Win11关机自动重启问题修复
2025-12-09
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。