Linux 上怎么做文件去重?真实场景示例


使用fdupes或find+md5sum识别并处理内容重复文件,先备份、过滤非目标文件,再通过删除或转硬链接实现安全去重,推荐fdupes交互操作与hardlink节省空间。

linux 上怎么做文件去重?真实场景示例

Linux 上做文件去重,核心是识别内容相同但路径/名称不同的文件,并安全地保留一份、删除或软链接其余。不看文件名、大小,只看内容是否一致——这才是真实去重。

fdupes 快速找并处理重复文件

fdupes 是最常用、可靠的去重工具,按文件内容(MD5 + 比对)识别重复项,支持交互式删除或自动处理。

  • 安装:Ubuntu/Debian 用 sudo apt install fdupes;CentOS/RHEL 用 sudo yum install fdupes(或 dnf)
  • 扫描当前目录及子目录所有普通文件:fdupes -r .
  • 显示重复组并交互式选择保留哪份(其余删除):fdupes -r -d . → 每组出现时输入要保留的编号(如 1),回车即删其余
  • 直接删除所有重复项(只留每组第一个):fdupes -r -f . | xargs -I {} rm -v "{}"-f 输出唯一文件,即每组仅首行;慎用,建议先试运行不带 rm 的版本)

find + md5sum 手动排查(适合脚本集成或无 root 环境)

当不能装 fdupes,或需嵌入自动化流程时,可用 find 配合校验和实现轻量去重逻辑。

  • 生成所有文件的 MD5 和路径:find /path/to/dir -type f -exec md5sum {} \; | sort
  • 提取重复 MD5 块:find /path/to/dir -type f -exec md5sum {} \; | sort | awk '{if ($1 == prev) print; prev=$1}'
  • 更实用的一行去重清理(保留每组第一个,其余加 .dup 后缀):
    find /data/docs -type f -exec md5sum {} \; | sort | awk 'NR==FNR{a[$1]=$2;next} $1 in a{print "mv \"" $2 "\" \"" $2 ".dup\""}' - - | sh -x
    (说明:先建哈希→路径映射,再对重复哈希输出重命名命令,最后执行;-x 可预览操作)

去重前必做的三件事

真实场景中,误删代价高,务必提前验证和防护:

Claude Claude

Anthropic发布的与ChatGPT竞争的聊天机器人

Claude 1166 查看详情 Claude
  • 确认文件类型:避免对日志、数据库文件、正在写的临时文件去重(加 -not -name "*.log" -not -path "/proc/*" 过滤)
  • 备份关键目录:至少用 cp -al 做硬链接快照(节省空间且秒级恢复):cp -al docs docs-backup-$(date +%F)
  • 检查硬链接数:用 ls -li 看 inode 号,相同表示已是硬链接——这类无需去重,它们本就是同一份数据的不同入口

进阶技巧:用 hardlink 把重复内容转为硬链接(省空间不丢文件)

比起删文件,把重复内容统一指向同一个 inode 更安全、可逆,尤其适合备份目录、静态资源库。

  • 安装:sudo apt install hardlink(Debian/Ubuntu)
  • 在目标目录下将内容相同的文件转为硬链接:hardlink -t /path/to/dir
  • 效果:原文件名、权限、时间戳全保留,磁盘占用降为 1 份;注意:仅限同一文件系统内生效

基本上就这些。真实场景里,先用 fdupes -r -d 交互确认,再考虑 hardlink 自动优化,比写一堆 find 脚本更稳更快。关键是别跳过备份和过滤——去重不是目的,释放空间且不出错才是。

以上就是Linux 上怎么做文件去重?真实场景示例的详细内容,更多请关注其它相关文章!


# 进阶  # 云南网站优化关键词排名  # 枣庄网站seo  # 武侯区短视频seo原理  # 安康网络推广营销怎么做  # 浙江测量网站优化口碑好  # 吐鲁番优化网站  # 慈溪网站改版建设  # 宁波seo外包行者seo09  # 网站建设和应用的情况  # 彭水旅游网站建设  # 发行版  # 自动重启  # linux  # 如何选择  # 看不懂  # 一文  # 最容易  # 第一个  # 怎么做  # 每组  # dnf  # 工具  # ubuntu  # node  # centos 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: Google Drive API 认证:服务账户与OAuth 2.0的选择与实践  网易云音乐闹钟铃声设置教程  深入理解J*aScript异步操作:setTimeout与调用栈的真相  Win10如何查看已安装的更新补丁 Win10卸载指定更新教程【教程】  Flexbox布局:实现粘性导航与底部页脚的完美结合  纯CSS实现自适应宽度与响应式布局的水平按钮组  Git命令与VS Code UI操作的对应关系解析  魔法祈幻界兑换码礼包大全  5G和6G的连接密度有什么区别 6G每平方公里能连接多少设备  小红书网页版在线直达 小红书网页版免费登录入口  J*a中逻辑运算符如何使用_逻辑与或非的基础用法讲解  firefox火狐浏览器最新官网主页_ firefox火狐浏览器平台入口直达官方链接  word页码灰色不能用如何解决  C++如何实现单例模式_C++线程安全的单例模式写法  MySQL多重关联查询:利用别名高效获取同一表的多个关联字段  飞飞漫画漫画阅读官网_飞飞漫画漫画阅读官网进入阅读  Flash AS3.0简易相册制作  火狐浏览器如何刷新修复浏览器 火狐浏览器“重置Firefox”功能详解  广州地铁app准妈咪徽章领取方法  一加 Ace 6V 快充无法启用_一加 Ace 6V 充电优化  《雷电模拟器》自动点击设置方法  抖音如何进行蓝V认证 抖音企业号申请所需资料与流程  更换小红书群背景怎么换?小红书群规则怎么设置?  个人所得税办理入口 个人所得税综合所得年度汇算入口  《杖剑传说》食谱大全  yy漫画官方网站登录入口_yy漫画在线阅读页面地址  深入理解随机递归函数的确定性:内部节点、叶节点与时间复杂度分析  键盘测试软件哪个好_键盘故障检测工具推荐  顺丰快递收费标准查询_如何查看顺丰最新收费价格  Win10锁屏时间怎么设置 Win10调整自动锁屏时间方法  菜鸟裹裹怎样获得取件码_菜鸟裹裹获得取件码步骤  解决Flex容器横向滚动内容截断与偏移问题  123平台官方登录入口 123邮箱网页端在线沟通工具  如何快速去除厨房重油污? 2025年最好用的厨房清洁剂推荐  微星主板BIOS怎么调整内存时序_内存参数手动优化BIOS设置教程  KFC邀请码怎么使用领额外优惠_KFC邀请码输入方式与额外优惠代码获取方法  第五人格PC版怎么避免被封号_第五人格PC版防封号注意事项  《幻兽帕鲁》手游帕鲁捕捉技巧分享  如何查找哪个composer包引入了特定的依赖?  《oppo商城》维修服务位置  《狐友》联系客服方法  win11讲述人怎么关闭 Win11屏幕朗读辅助功能禁用方法【技巧】  网页版网易云音乐入口_网易云音乐在线官网登录  重返未来:1999卡戎全方位攻略  Flexbox布局实践:实现底部页脚与顶部粘性导航条的完美结合  cad怎么隐藏指定的图层_cad隐藏或冻结图层方法  夸克浏览器资源嗅探怎么用 夸克浏览器网页资源下载技巧【教程】  冬季去哪个城市旅游更有可能观测到极光  GBA模拟器手柄按键设置  苹果手机手电筒无法开启 

 2025-12-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.