- 注册时间
- 2011-3-7
- 最后登录
- 2012-2-21
- 阅读权限
- 10
- 积分
- 296
- 精华
- 0
- 帖子
- 40

|
感觉tbs的词库的是放在服务器端的,所以监控文件和抓包,估计能奏效也就是一点点微量的词库。
8 [0 G: h' i5 O8 h
8 J$ n8 g4 M' L以下提供一个思路:
3 d2 a& T; O$ G. T" X7 L1 _. x" @% r/ f- J/ z8 O3 e" I5 I) u
1、向tbs作者购买足量多的每日api配额,例如一天可以伪原创2k-1w条数据的api接口。
! b, v h; z% a9 `2、准备好经常要伪原创的文章,每日以最多配额伪原创,注意格式为spin格式,就是{good|best|very good}这样的格式。这块可以程序实现在自动化的。
8 P/ o+ y" r7 @9 B) s& N3、字符截取出spin格式的关键词,入库;入库前检测是否有重复字段。
' p1 l: g" @. b5 t7 h
- ^) M1 w4 Z. ~; R* ^: u; W长期积累就会有一个比较全的关键词库了,其实dat文件打开以后,里面也就是 spin格式。. P+ N1 }$ y4 c# C l8 S
( |' \8 n# P' y* C1 O) v如果文章不够多的话,可以开放一个tbs api接口免费发布给别人用,这样也会有足够多的用户来伪原创可能想到的文章,从而获取到足够的关键词库。2 c/ V3 E! e" ]/ t
1 i2 |& f9 h+ H: k2 G; J; n具体能获取到多少词库,做一个简单计算:# K6 p. {$ O& C2 j ?. e8 n
6 \2 |0 {# ]5 ` g- E4 q$ z
1w的配额*每篇文章30个spin词库*30天=900w的spin词库+ y p$ i; x* \$ U, ?& K
$ H+ s; i T# G1 @4 o9 W) h% p0 v去除常用词组的频率重复机率,就是每次伪原创有些词是相同的。理论上,几十万的tbs词条库获取是不成问题的。! G" a% P3 y+ A- i8 \" _
|
-
总评分: 金钱 + 16
贡献 + 2
九币 + 1
查看全部评分
|