深圳SEO_深圳网站优化_网络推广公司-深圳百姓云霸屏

b2b推广:基本完成对长尾关键词的处理

未知

以百度为例,思路如下: 1、搜索主关键词,分析相关搜索链接,存入网址库,标记为未抓取。 2、读取数据库中标记为未抓取的网址,抓取后分析相关搜索,存入网址库,标记为未抓取。 3、重复2直到指定深度(一般热门关键词6层左右深度差不多全部读取,一般关键词4层即可,理论上可以无限层,但需要抓取的数据量呈级数增长,相关性也越来越差,没必要)。 4、人工处理长尾词,这里需要人工去除一些无关的关键词,保留合适的(当前搜素引擎的语义处理能力还很弱)。

  以百度搜索为例,构思以下:

  1、检索主关键字,剖析搜索推荐连接,存进网址库,标识为未爬取。

  2、载入数据库查询中标识为未爬取的网站地址,爬取后剖析搜索推荐,存进网址库,标识为未爬取。

  3、反复2直至特定深层(一般热搜词6层上下深层类似所有载入,一般关键字4层就可以,基础理论上能够無限层,但必须爬取的信息量呈等比级数提高,关联性也愈来愈差,没必需)。

  4、人工服务解决长尾关键词,这儿必须人工服务除去一些不相干的关键字,保存适合的(当今搜索模块的词义解决工作能力还太弱)。

  到此,基础进行了对长尾词的解决,能够得到一个较为全的长尾词目录了。因为本人还必须科学研究不一样层级关键字相互关系,因此储存了百度搜索的网页页面,界定了亲子关系,都没有过虑不一样层中间同样的关键字,这种对找长尾关键词用途并不大。

  全自动获得文档特定总体目标关键字的php保持见附注:spider_keywords

  这就是我自购程序流程,出示一个保持方法,准备用得话还必须依据自身应用自然环境改动,规定懂php,SQL。重要一部分如有关关键词挖掘获取早已做的相对稳定,请安心使用。在其中:

  mykeyword.dat为储放关键字的文档,每列一个主关键字。

  $depth为爬取深层,默认设置5层,针对一般关键字够深。

  程序流程发掘数据信息后储放在我的PostgreSQL数据库查询,数据库查询默认设置UTF-8编号,能够依据自身的具体必须改动。数据分析表构造以下:

  –Table:mykeywords

  –DROPTABLEmykeywords;

  CREATETABLEmykeywords

  (idserialNOTNULL,

  fathertext,

  “content”text,

  sonstext,

  depthtext,

  keynametext,

  remarktext,

  is_spideredboolean,

  CONSTRAINTmykeywords_pkeyPRIMARYKEY(id)

  )

  WITH(OIDS=FALSE);

  ALTERTABLEmykeywordsOWNERTOpostgres;