Enterprise:推出 Elastic App Search Web 爬虫器

我们非常高兴地在 Elastic Enterprise Search 7.11 中发布推出 Elastic App Search Web 爬虫器的 Beta 版,这是一种简单但功能强大的方式,用于提取可公开访问的网络内容,从而可以在你的网站上立即对其进行搜索。

使网站上的内容可搜索可以采用几种形式。 Elastic App Search 已经允许用户通过 JSON 上传,JSON 粘贴以及 API 端点来摄取内容。 在此版本中,Beta Web 爬虫程序的引入为用户提供了另一种便捷的内容提取方法。

Elastic scrawler intro

Web 爬虫器可用于自我管理部署和 Elastic Cloud 部署,可从可公开访问的网站检索信息,并使内容可在 App Search 引擎中搜索。 App Search 代表您在后台进行了大量繁重的工作,以使可搜索的内容相关并易于使用滑块进行调整,而无需编写代码。

现在,让我们深入探讨为什么将 Web 爬虫器引入 App Search。

 

是什么让这个网络爬虫与众不同?

简短答案:看一下 Elastic Cloud。

如果你多年来一直关注 Elastic Enterprise Search(我们热爱我们的粉丝俱乐部),你会记住,Elastic Site Search 中(现在仍然可以使用)Web 爬虫器。但是,在非常流行的 Elastic Cloud 上仅提供 Elastic App Search 和 Workplace Search。

你可能会问,“是吗?”

好的,将完全重新设计和架构的 Web 爬虫程序移动到 Elastic Cloud 上的 App Search 具有以下引人注目的优势:

  • 享受安心:作为 Elasticsearch 和 Kibana 的托管服务,Elastic Cloud 提供了定义 Elastic 的卓越速度,规模和相关性。一键式升级,简单的扩展和索引生命周期管理(ILM)只是客户涌向 Elastic Cloud 的一些原因。而且,如果你已经是 Elastic Observability 或 Elastic Security 客户,则可以在一个功能强大的控制台中管理整个部署。
  • 你的数据,由你选择:Elastic Cloud 在全球顶级云提供商的40多个全球区域中可用:Google Cloud(GCP),Microsoft Azure 和 Amazon Web Services(AWS)。你的数据,你的云,你的方式。
  • 定价:使用 Elastic 基于资源的新颖定价,你不必担心诸如用户数量,查询数量,文档大小或部署的代理等不可思议的指标。无论使用哪种情况,你的成本都将归结为用于存储,搜索和分析数据的硬件资源。

尽管我们在此博客中专注于云部署,但需要注意的是,App Search Web 搜寻器现在也可以作为一种自托管的部署方法来使用 - 该选项在 Elastic Site Search(或 Swiftype)中不可用(Site search 不可以通过自托管的方式来进行部署)。

 

Web 爬虫到底能爬什么?

在深入探讨如何设置网络搜寻器之前,让我们首先回顾一下内容 - 网络爬虫器在你指定的公共网站上进行什么爬行。

当你提供网址(例如 http://www.elastic.co)时,网络爬虫将访问该网页。 从这里开始,网络搜寻器将跟踪它在该页面上找到的每个新链接,并将内容提取到你的 App Search 引擎中。 这是内容发现。 每个发现的链接都以类似的方式进行爬网。 下面的 “树” 图说明了它是如何在高层次上工作的。

在上图中,所有蓝页均可被爬并建立索引。 但是,没有页面链接到粉红色页面,因此不会被爬网或建立索引。 为了使 Web 爬虫器访问未链接的页面,该页面必须直接作为入口点提供或包含在站点地图中。 稍后,我们将在博客中介绍如何设置入口点。

 

提取的内容类型

对于 Web 爬虫器的 beta 版,可以从 HTML 页面中提取以下内容:

  • 页面标题
  • 说明(元)
  • 关键字(元)
  • 正文(标准化,除去了 html 标签)
  • 规范网址
  • 其他网址(用于同一文档)
  • 链接

动手:网络爬虫器入门

Elastic scrawler hand-on

让我们从头开始,在 Elastic Cloud 上创建一个新的 Elastic Enterprise Search 部署。 对于现有的 Elastic Site Search 客户,Swiftype 客户或 Elastic Cloud 的新客户,请务必注册免费的14天试用版,以体验网络爬虫的美丽。

  • www.elastic.co 上,从右上角选择 “Login”。
  • 有几种 SSO 方法可用。 或创建一个新帐户。
  • 登录后,选择 “Create deployment”。
  • 选择 Elastic Enterprise Search 部署模板。 该模板针对 CPU 输出,存储和可用性区域进行了优化。 创建部署后,可以根据你的特定需求定制所有部署模板。
  • 从列表中选择你的云提供商。 选择是你自己的:Google Cloud(GCP),Microsoft Azure 或 Amazon Web Services(AWS)
  • 命名你的部署,然后单击 “Create Deployment”。
  • 你会看到一个通知屏幕,显示你的部署已创建。

Elasticsearch cluster deployment

恭喜! 你正在创建第一个 App Search 引擎。

Elastic Enterprise Search 解决方案包括两个应用程序:App Search 和 Workplace Search。 对于本教程,选择 “Launch App Search” 按钮。

Elastic scrawler demo

做得好! 你现在就在 App Search 中,可以开始创建网络爬虫器。

入门流程可帮助你创建第一个搜索引擎。 只需命名你的引擎(可以使用 “my-elastic-search-engine” 之类的名称),然后你就会看到一个屏幕,其中提供了四种提取数据的方式:粘贴 JSON,上传 JSON 文件,按 API 索引或使用网络爬虫。 现在,你知道该选择哪一个了。

此时,你可以选择添加自己的网站,也可以选择 Elastic.co 作为要爬网的域名 URL。 请记住,在你提供 URL 提取内容的过程中,网络爬虫将访问指定的网页。 从那里开始,它将跟踪发现的页面上的每个新链接,直到 Web 爬虫程序陷入僵局为止。

Elastic scrawler creation

这是入口点功能派上用场的地方。 如果有一个 “孤岛” 页面未与其他页面链接,则只需添加完整的 URL 作为切入点。 从这里开始,Web 爬虫程序将开始为该内容建立索引,并继续查找用于内容提取的新链接,直到无法继续浏览为止。

在同一控制台页面上,你可以创建爬网规则。 这些规则允许管理员包括或排除 URL 与规则匹配的页面。 例如,也许你的营销部门使用了广告系列目标网页-路径模式 /lp 表示。 这些目标网页非常适合通过目标内容来推动新业务,但可能并非你想要包含在搜索引擎中的内容类型。

在 “爬虫规则” 部分中,添加一个新策略,该策略不允许对包含 /lp 的任何 URL 路径建立索引。

悬念! 现在该进行爬网了。 完成所有入口点和爬网规则后,选择 “Start Crawl” 按钮。

Elastic scrawler manage

单击 “Documents” 选项卡,然后观看你的内容被提取到 App Search引 擎中。 或单击屏幕右上方的 Query Tester 图标,以从 App Search UI 中的任何位置搜索引擎。

如果要立即在搜索框中测试结果,请选择 “Reference UI” 选项卡。 在这里,你可以使用现成的基于React 的搜索框。 或者更好的是,使用 Elastic Search UI JavaScript 库构建和定制你自己的搜索体验。

 

现在轮到你了

我们认为你会喜欢网路爬虫工具的强大而简单的设计。 因此,现在轮到你尝试一下!

Elastic App Cloud Web 爬虫器当前处于 beta 版本,并且在所有订阅级别均可用,并且在自我管理和 Elastic Cloud 部署中可用。 现有的 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问企业搜索。

Elastic Cloud 新手? 查看我们的快速入门指南(培训小视频以快速入门),然后开始进行 Elastic Enterprise Search 的14天免费试用。 或免费下载 App Search 或 Workplace Search 的自托管管理版本。

更多阅读,请参阅 “Enterprise:Elastic App Search - Web 爬虫

已标记关键词 清除标记