Oxylabs

自定义解析器

自定义解析器

设置自定义解析指令以提取公司需要的数据。 

  • 接收即用型、解析后数据

  • 提供XPath和CSS选择器

  • 免维护的解析基础架构

*自定义解析器是爬虫API的一项功能

设置自定义解析指令

根据您编写的自定义解析指令,解析器将从HTML中挑出必要的信息,并将其转换为可读的格式。有了自定义解析功能,您就可以设置这些指令,并以JSON格式获取您所需的特定数据。 

  • JSON格式的结构化数据

  • 大规模网络信息

从任何网站获取解析后数据

在数据解析方面不再有任何限制。自定义解析器解决了一些工具无法解析特定目标数据的常见限制。从现在开始,您可以从任何喜欢的网站中解析数据。

  • 为选定目标自定义解析逻辑

  • 从195个国家/地区获取数据

免除解析器维护

有了Oxylabs的自定义解析器功能,您就无需担心托管和维护自己的解析基础架构 — 我们会完成这项工作,确保自定义解析器能够正常运行,无论数据量有多大。

  • 节省时间和资源

  • 解析功能无需额外付费

什么是自定义解析器?

自定义解析器是爬虫API的一项免费功能,能让您自定义在原始HTML抓取结果上执行的解析和数据转化逻辑。


第1步

用户向我们的API提交作业指令(目标URL和解析指令)。


第2步

作业描述被转发到爬虫API。在网站和爬虫API之间发起HTTPS请求。 


第3步

爬虫API会将HTML数据和解析指令一起转发给自定义解析器。 


第4步

自定义解析器将数据从HTML转换为JSON格式。然后,这些信息被转发到用户的数据库。

带有自定义解析器的爬虫API

免费试用我们的任何爬虫API工具一周,试用中已包括自定义解析器功能。

SERP爬虫API

从最大的搜索引擎收集的公共SERP数据。 

  • 可靠、实时的数据

  • 坐标级数据

  • 出色的广告抓取率

最适用于:

SERP数据分析,关键词数据收集,品牌监测。

49美元起/月

免费试用

电商爬虫API

从电子商务网站中收集的定价、产品信息和其他公共数据。 

  • 自适应解析器

  • 大多数电子商务网站

  • 结构化JSON数据

最适用于:

竞争对手分析、定价情报、产品目录图。

49美元起/月

免费试用

Web Scraper API

大多数网站的实时数据。

  • 可定制的请求参数

  • 方便交付

  • JavaScript渲染

最适用于:

网站更改监控、欺诈防护、旅行费用监控。

49美元起/月

免费试用

Aivaras Steponavicius

Oxylabs客户经理

自定义解析器是对爬虫API工具系列的很好补充。通过利用这一额外功能,您可以自始至终获得极致简单的抓取体验。

Ruta Petronyte

Oxylabs客户经理

使用自定义解析器是处理数据的一种超级有效的方式。它不仅能够提供解析过的数据,而且还允许您只检索需要的特定数据 — 不多不少。

来自您专属客户经理的寄言

通过Oxylabs公司和企业套餐,您将获得自己专属的客户经理。

常见问题

我如何创建自己的解析器?

创建自己的解析器有三个主要步骤: 

  1. 创建多种功能,并确保它们足够简洁。每个函数都应该有一个单一的目的,并擅长于此。 
  2. 避免利用正则表达式进行解析任务,因为它们往往是无效的。避免做出假设。 
  3. 如果不确定如何解析某些内容,就提出一个错误,并在错误信息中包括错误位置(行/列)。

自定义解析器的用途?

Oxylabs的自定义解析器是一个将数据从原始数据转为结构化的工具。根据预先写好的代码和规则,解析器将选择必要的信息,并将其转换成可读的JSON格式。

了解更多: 

什么是数据解析?

建立一个解析器有多难?

构建自定义解析器被认为是一项具有相当难度的任务,这取决于您想要提取的数据量。常规的经验是,如果您有一个小规模的网络抓取任务,可以建立自己的自定义解析器,反之亦然 — 如果您要抓取大量的数据,则可以考虑购买一个第三方工具来代替。

我们已经在博文中讨论了构建自定义解析器与购买解析器的主题:

什么是数据解析?

解析器和解析的区别是什么?

解析器是将原始数据转化为可读格式的工具,而解析是其过程

我需要成为爬虫API的客户才能使用自定义解析器吗?

自定义解析器是我们爬虫API的一个免费附加功能。.因此,您需要购买其中任意一款,才能使用自定义解析功能。

什么是专用解析器?

专用解析器是由Oxylabs的爬虫API专家建立和管理的解析工具。它们专门用于从某些目标中提取数据,并根据我们设定的指令组织数据。 

根据他们的需要,我们的爬虫API客户可以选择自定义和专用解析器。不过,他们不能同时使用,因为他们的解析指令将覆盖我们的指令。

XPath和CSS选择器之间有什么区别?

XPath和CSS选择器是在HTML或XML文档中选择特定元素的两种不同方法。一般来说,CSS选择器更容易使用,而XPath表达式则更强大,但使用难度也比较高。

选择Oxylabs®,业务更上一层楼


隐私政策

oxylabs.cn© 2024 保留所有权利©