|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
3 T/ e: i$ V5 N U7 J0 e2 N$ A2 U* J+ h* g: a6 G' g
笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
4 g) e+ p- ~1 N" d/ t6 `' X; [: [. A. f, g6 i& H1 D# }0 R
之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。
8 f1 v! ~$ y$ x" R0 q7 p$ X/ g& U7 `: q# {
当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。4 c5 t. ]# e* L8 x; \
' a g9 N, R3 T8 K8 I2 N/ i 百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。2 H2 I- Q2 T8 C4 s$ w/ v
: f/ I7 B% p( B2 z 1、短关键词: W' ~ Z8 S% ]7 v' e! B$ s+ |0 F; }
* M$ O/ w' V0 O+ P# `5 L3 {3 {
以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。5 v3 V. A/ G: q4 b7 W* V
$ M7 ?* h7 y1 K% E$ O* V
打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
' h5 E6 u; Y! z! l4 M
. s- I3 T [& g/ _$ ^ J, s! p1 g4 V 打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。- ^9 J6 N$ V3 o5 h$ V6 ]
! J& f4 e: \! Y6 p7 S7 | 2、长尾关键词/ H% n7 j9 K$ W3 W. X* e
2 |0 r9 ^# y1 S5 J& k
以“小说阅读网”为例,以下是首页搜索结果展示/ M+ C5 N3 Q8 s, f/ |4 ?# G
5 `: q. X, C. U& d
打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。; s+ g) R0 N/ n$ R
: }2 c/ v, c# S4 U: v
但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。) Q/ P8 u' ?( M
: ]7 i1 K0 k( _* }: Q
搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。9 Q0 h0 c: b* P h6 ], ]; q8 s% w* ^
, P! e! J1 H6 n0 |1 N6 T0 k# | 我们或许可以看出两个情况:/ k% Q; I7 o& E8 H- o8 A
5 [6 g1 f; l8 ]# k1 A3 \( r
1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。7 I5 B; b; T2 i z* J! L0 O
9 I% v% g# |. E0 ~* l 2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。6 ^0 d# Z# j \. n/ d
S8 w0 k( |# Y" }+ \
百度快照颜色有何意义?
7 [: }$ o( ^) e2 t- K4 q$ y* V; W) v1 O6 A( X9 _7 O5 o
另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。8 d7 j9 ?$ _1 h, R* W# L( F0 D
! d, H; Y4 c, I9 K' M 笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。0 Y( o* @7 X {8 J- p, U
; _% m" B; a) Q4 ~1 N3 E* T
当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。2 u8 l6 v! w- L4 S ~4 F9 V, s
$ j& Z" i/ ~. c |
|