有两份数据A和B,要求求解A和B的内容差异?
前提条件:
1. A和B使用文件保存,且数据量在G级别;
2. A和B的文件内容是结构化的;
3. A和B的文件内容是乱序的,即A的第一行可能在B中,但是在第n行,也可能不存在,B也一样。
解决方案:
1.linux diff命令
缺点:diff对文件进行按序比较,比如:
a.txt:
1 a 2 b 4 d 3 c
b.txt2 b 4 d 3 c 1 a 5 e
执行命令:diff a.txt b.txt1d0 < 1 a 4a4,5 > 1 a > 5 e
分析结果可知,A和B同时包含的数据依然出现在结果中,需要对结果进行额外处理。当数据量较大时,diff运行超级慢。Read full article from 心如止水: 大数据差异比较
No comments:
Post a Comment