如果您想将扫描限制到一个文件夹,只需输入 URL 并单击“开始”,而无需更改任何默认设置。如果您覆盖了原始默认设置,请在文件菜单中将设置重置为默认值。
如果您想在特定文件夹中开始扫何扫描一个子目录描,但需要继续扫描其余子域,请确保在输入特定的起始 URL 之前在 Spider 配置设置中选择“在起始文件夹之外抓取”。
如何扫描一组特定的子域或子目录
要将浏览限制到特定的一组子域或子目录,您可何扫描一个子目录以使用 RegEx 在配置菜单中的包含或排除选项中设置这些规则。
排除
在这个例子中,我们查看了 elit-web.ru 上的每个 印度尼西亚数据 页面,不包括每个子域上的博客页面。
步骤1:
转到配置>排除,使用通配符正则表达式来定义 同样,影响眼睛伪影发生的 何扫描一个子目录要排除的 URL 或参数。
第2步:
在开始抓取之前,测试您的正则表达式以确何扫描一个子目录保它排除了预期的页面:
包括
在下面的例子中,我们只想查看 elit-web.ru 上的团队子文件夹。再次使用“测试”选项卡测试一些 URL,并确保针对您的包含规则正确设置了 RegEx。
这是抓取大型网站的好方法。实际上,Screaming Frog 推何扫描一个子目录荐这种方法,如果您需要拆分和抓取具有大量反向链接的网站。
如何获取我的网站上所有页面的列表
默认情况下,Screaming Frog 设置为扫描 SEO Spider 遇到的所有图像、JavaScript、CSS 和 Flash 文件。要仅抓取 HTML,您需要在蜘蛛配置菜单中取消选中检查图像、检查 CSS、检查 JavaScript 和检查 SWF。
在不选中这些设置的情况下运行 SEO Spider 基本上会为您提供网站上所有具有指向它们的内部链接的页面的列表。
扫描完成后,转到“内部”选项卡并通过 HTML 过滤结果。单击“导出”按钮,您将获得 CSV 格式的完整列表。
提示:如果您倾向于对每次扫描使用相同的设置,Screaming Frog 现在 加拿大數據 允许您保存配置设置:
如何获取特定子目录中所有页面的列表
除了取消选中“检查图像”、“检查 CSS”、“检查 JavaScript”和“ 检查 SWF”之外,您还需要取消选中“蜘蛛配置”设置中的“检查文件夹外的链接”。运行 SEO Spider 并且不选中这些设置将为您提供起始文件夹中所有页面的列表(除非它们是没有内部或外部链接的页面)。