背景
本文将介绍如果工作上遇到了git新手向远程仓库提交大体积文件或者文件夹的处理方法
精简仓库基本流程
- 查找大文件
- 遍历提交记录并删除大文件对象
- 本地仓库回收空间
- 强制推送至远端
- 重新拉取仓库
查看本地仓库体积
1 | git count-objects -vH |
效果如下:
查找大文件
1 | git rev-list --all --objects | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}')" |
效果如下:
git rev-list --all --objects: 按时间倒序遍历时候commit,并罗列出每次提交所有对象和对象IDgit verify-pack -v .git/objects/pack/*.idx:这个命令是用来验证git pack-objects打包的Git归档文件并显示归档详情git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3 | awk -F ' ' '{print $1}': 遍历.git下面idx文件,查找历史大文件,并按照大小进行排序,列出最大的3个对象id
流程:每当git rev-list --all --objects输出一次结果时,先获取"$()"的结果 ,最后通过grep来匹配
弊端: 当对象数量较多时,此命令效率会很低
如果耗时过长可分步骤来查找大文件,步骤如下:
git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -n 3: 查找历史大文件,并按照大小进行排序,列出最大的3个对象id
效果如下:
2. git rev-list --objects --all | grep 60ecdaf1da26086feb8e6cb56f9843f6cf2029b6: 查看指定对象id的对象信息
效果如下:
遍历提交记录并删除大文件对象
注意: 本地仓库不能有修改
1 | git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch 大文件路径' --prune-empty --tag-name-filter cat -- --all |
例如:git filter-branch --force --index-filter 'git rm -rf --cached --ignore-unmatch env/automake-1.15.tar ' --prune-empty --tag-name-filter cat -- --all
效果如下:
本地仓库回收空间
1 | rm -rf .git/refs/original/ # 删除本地仓库引用 |
回收完成之后再次执行git count-objects -vH
结果如下:
强制推送至远端
1 | git push origin --force --all |
重新拉取仓库
不能在原先的本地仓库拉取代码,不然会进行合并,导致本地仓库更大