很多做采集的朋友,大部分使用免费的dedecms,当内容超过百万的时候,就会越来越慢,生成文章列表都慢的没法接受。
我的一个客户就遇到上述问题。
其实很多人做采集的话,根本不需要这么多的功能,要的就是速度快,可以保存海量数据,修改删除数据简单,修改模板容易。
根据上述情况,我采用了数据库群的思路,把原本一个表存放全部数据的思路改成了一个数据库只有一个表,一个表里面最大只存放五万数据。这样的模式理论上可以存放无限的文章。
当然这样一套系统,要比使用一个数据库的复杂多了。搜索的时候不是从一个表中搜索,读取的时候也不是从固定的一个表里面读取。
目前这个程序已经开发完毕。
目前我破解了wenwen.soso.com的防采集技术,已经采集了30几万的文章做速度测试。效果很明显。
欢迎大家光临我的网站http://www.fanrengu.net
http://xiaotouchengxu.tk/index.php
http://xiaotouchengxu.tk/