如果我们从搜索引擎蜘蛛的角度来看一个网站,那么在进行爬网,索引和排名时会遇到什么问题? 解决这些问题的网站设计是搜索引擎友好的。
1.搜索引擎蜘蛛可以找到该网页吗?
为了使搜索引擎能够找到网站的首页,必须有指向该首页的外部链接。 在找到主页之后,蜘蛛程序会通过内部链接来查找更深的“内容”页面,因此该站点必须具有良好的结构和逻辑,并且可以通过可爬网的普通HTML链接访问所有页面。 搜索引擎蜘蛛(例如Javascript链接和Flash中的链接)通常无法跟踪爬网,这将导致包含问题。
网站的所有页面离首页的距离都不应太远,最好单击四到五次。 要由搜索引擎建立索引,页面必须具有最基本的权重,并且良好的网站链接结构可以适当地传递权重,以使尽可能多的页面达到包含阈值。
2.找到网页后,我可以抓取页面内容吗?
发现的URL必须是可爬网的。 具有太多参数,会话ID,整个页面是Flash,框架结构,可疑重定向,大量复制内容等的URL可能会使搜索引擎远离。
某些文件管理员可能不想被包括在内。 除了不链接到这些文件之外,使用漫游器文件或元漫游器标签来禁止包含这些文件更为安全。
3.抓取页面后如何提取有用信息
在页面的重要位置合理分配关键字,编写重要标签,简化HTML代码,最低兼容性等, 可以帮助搜索引擎了解页面内容并提取有用的信息。
仅当搜索引擎可以成功找到所有页面,对那些页面进行爬网并提取真正相关的内容时,该网站才被视为对搜索引擎友好。 关于网站结构的优化,有一句话很明确:“良好的参考,良好的结构,良好的导航”。
如果有任何需要,请致电010-57218159。 您也可以扫描下面的QR码并添加我们的项目经理微信,您将获得更多有关此的知识。
如没特殊注明,文章均为酷站科技原创,转载请注明来自http://sdyibangyun.com/wangzhanyouhua/1205.html