|
发表于 2005 年 1 月 6 日 19:23:28
|
显示全部楼层
大家知道一些大的网站处理文展都是用一些后台程序进行的,用数据库保存,因此他们生成的文章也是有规律的,一般包括[标题][内容],不可能连这两样都没有吧,当然还有文章的连接地址,不然我们怎么连接到那篇文章(这个我们在浏览器的地址栏可以看到),但后台不同,他们存放[标题][内容]的方式就不同,一般[标题]都是</title>aaaa</title>这种方式,由于"高手"太多,他们存放内容的地方就很多样了,但基本都会放在<td>bbbbbb</td> 一个表格中的, 收集器就把这些不确定一样的[标题][内容]当作变量提取出来,让大家在要收集的网站中找到它的设置特点,然后把这些特别的标记放到收集器的设置[标题][内容]等区域,实现对不同网站的收集.
至于导入就是:既然提取的时候是按[标题][内容]等来收集的,而任何文章系统也必然存在[标题][内容]这两个表,那么就可以把收集的东西塞到你的文章系统数据库的[标题][内容]表中去拉.是吧!
与小偷的区别:
1.多了入库功能,其实不是小偷不可以入库只是入库需要大量的数据库空间,要知道把天空下载或华军下载入库要多大数据库吗?!因此一般小偷不入库,但有个好处是能实时与源站更新^-^.
2.由于小偷要精确地偷需要很多"专业"的设置,而且不是那么光明正大,正如它的名字一样,还有每个人喜欢"偷"的东西不同,(当然读书人可以说成是"盗")因此小偷要定做的.而收集器就把小偷一般要设置的东西提取出来,让各位不懂编程而又喜欢其他站的东西的站长"自助"去"盗".可以说是为人民服务精神!(大家鼓掌谢谢他们~~~长久不息ing...)
最后说明:笔者并无它意,只是看到很到人因为对收集器原理理解问题,遇到很多基本的设置难题.在这里说明白了,有利于他们DIY,毕竟他们将是未来的大站长哦!!希望此文对大家有帮助,但不知能在这个论坛中存活多久?!呵呵 |
|