RSS爬虫时间规则

分类: 网站开发
作者: Syd
发布时间: 2007年11月14日
喜欢: 0% (0)
不喜欢: 0% (0)

忘了从哪儿看的了

RSS的网络爬虫的时间规则的设置:

设定RSS爬虫重新访问的5个级别:

Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes

设定RSS 源的权重为从0到5

RssRank=0 ~ 5

要点:
1.每一个RSS 源对应一个时间T[i],这个时间取整就得到 Level 。例如,这个时间是250分钟,那么就取Level[2],就是每隔200分钟抓取一次。
2.每一次这个对应时间都是改变的,根据这个RSS源有没有变化。
3.当更新了,这个时间就除以1.2 ,当未更新,这个时间就乘以1.2。
4.RssRank起到调整更新时间级别的规则。例如当一个RSS在Level[5],但是它的RssRank是3,那么更新时间调整为Level[5-3] = Level[2] = 200分钟。

总体公式:

T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]

经过长时间的运行,T序列都变动非常稳定。
add to: Diglog 提交到爱发现. 提交天极网摘. 添加到我挖网digbuzz.com 收藏到 inu.cc Add to: Mr. Wong Add to: Webnews Add to: Icio Add to: Oneview Add to: Folkd Add to: Yigg Add to: Linkarena Add to: Digg Add to: Del.icio.us Add to: Reddit Add to: Simpy Add to: StumbleUpon Add to: Slashdot Add to: Netscape Add to: Furl Add to: Yahoo Add to: Spurl Add to: Google Add to: Blinklist Add to: Blogmarks Add to: Diigo Add to: Technorati Add to: Newsvine Add to: Blinkbits Add to: Ma.Gnolia Add to: Smarking Add to: Netvouz Information

可能你也想看


评论

rss feed

谁喜欢

谁看过


Syd