# 抓取一个站点 打开你想要抓取的网站 ### 创建sitemap 在创建sitemap时,你需要做的第一件事是指定起始网址。即从哪个URL开始抓取。如果从多个URL开始抓取,你可以指定多个起始地址。例如,如果你想抓取多个搜索结果,则可以为每个搜索结果创建一个单独的起始网址。 ### 指定范围url 在网站页面URL使用数字编号的情况下,创建范围起始url比建立站点的链接选择器(_Link selectors_)要简单得多。要指定范围url,请使用范围定义替换起始url的数字部分 - `[1-100]`。若网站在网址中使用是零填充,则将零填充添加到范围定义 - `[001-100]`。如果你想跳过一些网址,那么你也可以像这样指定增量`[0-100:10]`。 像这样`http://example.com/page/[1-3]`的链接使用范围URL : * `http://example.com/page/1` * `http://example.com/page/2` * `http://example.com/page/3` 像这样`http://example.com/page/[001-100]` 的链接使用范围URL与零填充: * `http://example.com/page/001` * `http://example.com/page/002` * `http://example.com/page/003` 像这样`http://example.com/page/[0-100:10]`的链接使用范围网址,像这样的链接: * `http://example.com/page/0` * `http://example.com/page/10` * `http://example.com/page/20` ### 创建selector 创建sitemap后,你可以向其中添加选择器(_selector)_。在选择器面板中,你可以对选择器进行添加、删除、修改等操作。web scraper 将按照树结构中的组织顺序执行选择器。例如,有一个新闻网站,你想抓取所有链接在第一页上的文,如图1这样的示例新闻网站。 ![](https://box.kancloud.cn/ffbf4ac30adb699a02396f36f8067399_370x185.png) 图 1: 新闻网站 抓取这个网站,你可以创建一个链接选择器,将提取第一页中的所有文章链接。 然后,你可以添加一个文本选择器作为子选择器(child selector),子选择器将从链接选择器提取到的所有文章链接中,提取链接对应文章。 下图是为新闻站点构建sitemap。 ![](https://box.kancloud.cn/3fb5c2f4a7130fca98667c399e02a57a_550x218.png) 图 2: 新闻网站 sitemap 请注意,创建选择器时,请使用元素预览(Element preview)和数据预览(Data preview)功能确保你选择了正确的元素及数据。 关于选择器树(selector tree)构建的更多信息,你可在选择器文档中找到。 你应该至少阅读以下核心选择器: * 文本选择器 * 链接选择器 * 元素选择器 ### 检查选择器树 完成sitemap选择器创建后,您可以在选择器图形面板中检查选择器的树形结构。 下图为一个示例选择器图。 ![](https://box.kancloud.cn/02d41d654bf2cafcba14e8924be7faf2_288x140.png) 图 3: 新闻网站选择器图 ### 抓取网站 创建sitemap选择器后,您可以通过面板中的Scrape开始进行数据抓取。 运行过程中将打开一个新的窗口,Web Scrape将加载页面并从中提取数据。 运行完成后,弹出的窗口将关闭,并且弹出通知消息。 您可以打开“_Browse_”查看抓取的数据,并通过“_Export data as CSV”_将数据导出。