作为网安专家,陈雁行的“看日誌”是一门绝活。
速度快到夸张。
只是扫了一眼,他就发现,没问题。
至少是日誌绝对显现不出来的问题。
没办法了,他只能再自己手动跑一遍测试了。
调出唐一平提交的代码,导入了由他提供的那个数据量为50万的学生档案测试集。
这是一个巨大的csv文档,整体大小大概500m。
陈雁行自己估算过,如果把这些文本文档,转成资料库的格式,理论数据量应该是50m左右。
这是其有效熵值转换成的比特数,也就是这个测试集本身蕴含的信息的比特数。
但是这种单纯的数据是不能使用和检索的,所以才会有“资料库”这种东西,把信息编码索引,安排好位置。
换言之,单纯的信息就像是无数的人,资料库就是盖上一栋大楼,把他们放进各自的房间。
这就要在本身的数据基础上,加上b—tree或者其他tree的索引、哈希表等等,就像是楼梯楼层和门牌號。
通常来说,这些数据转换成资料库格式之后,整体数据量大概在200m—300m。
这大概就是地榜排名前几的水平,其实能做到这个数量级就已经很强了。
但但如果是天榜的话,目前已经强到离谱了。
譬如现在焦灼在天榜前列的两个id:“递归之梦”和“等待戈多”,已经把这个数据压缩到了130m左右。
在这个数据集上,已经可以和商用资料库相媲美,甚至在某些方面犹有过之了,当然,也不同程度的呈现出了过擬合,算是针对性优化。
陈雁行把自己的数据集导入了唐一平的项目里。
导入的速度很快,而且cpu占用率很高,几乎是瞬间拉满,然后导入完成。
陈雁行再次跑了一遍测试流程。
测试结果一行行的输出,和陈雁行在日誌里面看到的一模一样,片刻之后,一模一样的分数出现。
2147483647。
这不对啊,这不可能。
莫非他真的是秦始皇?
作为一个网络安全的大佬,其实陈雁行首先就是个测试方面的专家,他设计的测试用例和测试程序非常完善。
还是那句话。
可能出错,但不可能出现这种低级错误。
陈雁行拉出来了测试细分项,就看到了测试的平均响应时间。
0ms(毫秒)?
果然出错了吧。
正常来说,这种体量的资料库的简单查询应该在几十毫秒。
等等,莫非是查询速度快到了四捨五入之后都是0?
直接低了一到两个数量级。
这会儿,陈雁行其实遇到了和奎哥一样的问题。
位数不够,显示不全的问题。
可是,谁特么的资料库测试响应时间,需要用到比毫秒还小的单位啊!
陈雁行一边吐槽著,一边打开了自己的测试程序,修改了一下代码,把统计单位变成了us(微秒)。
然后又跑了一遍测试。
这次结果终於显示正常了。
不,陈雁行觉得这次更不正常了。
因为测试最终的结果显示为23us。
合著,不是零点几毫秒,是零点零二毫秒!
特么的,这可不是四捨五入到0了吗?
自己之前的测试集能够显示出来才怪!
再特么的,系统的测试噪声都快要10us了好吗!
读数据的延迟都要10us了好吗?
你咋不飞呢?
这怎么可能?
这个查询结果有问题吧。