传统爬虫还是 AI 辅助爬虫？该怎么选？

coderhxl · 2024-04-22T10:07:47+00:00

前言在数据抓取领域，传统爬虫与 AI 辅助爬虫各有千秋。传统爬虫基于规则进行数据抓取，适用于结构稳定、规则明确的网站。然而，随着网站结构的频繁变动和复杂化，传统爬虫逐渐暴露出其局限性。相比之下，AI 辅助爬虫借助人工智能技术，能够智能解析网页、自适应变化，展现出更高的灵活性和准确性。那么，面对不同的抓取需求，我...

传统爬虫还是 AI 辅助爬虫？该怎么选？

coderhxl

gauthier 对于 OpenAI 的话，也可以使用 gpt-3.5-turbo ，默认就是这个了。后续也可能加入其他的 AI 模型，其实看名字就可以知道一点点了 createCrawlOpenAI ，这个是以 OpenAI 命名的，如果加入其他 AI 也会容易兼容。

coderhxl

wujunchuan2008 感谢您的支持。

coderhxl

ospider 哈哈，的确是用了 AI 帮忙，毕竟我文学水平有限，不过用的是百度的文心一言。不是让 AI 直接生成的，而是问他传统爬虫是什么之类的，然后筛选。像 x-crawl 这种，AI 又不认识。

coderhxl

ospider 你可以去问问 AI 了不了解 x-crawl ，毕竟这个工具还是我开发的，AI 版本还是前几天加入的

coderhxl

ospider AI 只是更好的将我想描述的描述出来，相当于换了一句话讲，但意思更完美了

blankmiss

第一步识别是否是机器人，game over

coderhxl

blankmiss 啊？没明白说啥

karatsuba

众所周知爬虫最难的不是拉数据

coderhxl

karatsuba 这篇文章只是讲述传统爬虫与 AI 辅助爬虫的特点与优劣，为您提供决策参考。并没有讲太多的题外话，其他功能 x-crawl 也有，像设备指纹，轮换代理都有哦，https://coder-hxl.github.io/x-crawl/cn/ 下面的特征可以瞧瞧

blankmiss

第一你那个效率很低，第二无法避免风控 #14 说的很对第三对接口逆向没什么帮助第四像八爪鱼这种可视化插件更方便

coderhxl

blankmiss 该文章是面对依赖类名或结构这些元素的爬虫，像逆向这种肯定也很好，但是并非此文章的主题

herozzm

除非用理想本地大模型，不然用 api 的话一天爬上万不得亏惨

herozzm

我觉得 AI 更多用在数据提取过滤和清洗，而不是抓取这个环节

coderhxl

herozzm 这里也是筛选了部分 html 给 AI 进行提取数据

maolon

老实的说用 gpt 做每一次的爬取也太奢侈了吧。
先不说钱，gpt4 的 t/s 本来就不高，gpt3 也没高到哪里去，长一点的内容要处理到啥时候去。
最好还是用 ai 识别爬取 sample 内容，然后用它来自动生成一个 xxx.com.path.parser 的 util, 然后你的爬虫动态调用这个

coderhxl

maolon 传统爬虫可能是一个更经济的选择，文章也有提到

zephyru

的确，这个自己玩玩还行，大规模抓取用 AI 辅助效率不高，当前成本还蛮高的...
与其让 Ai 解析 html 文本，不如让 AI 辅助生成解析用的函数...

coderhxl

zephyru 也是个不错的方法

hahahaii

zephyru 确实，可以加上使用 try 包裹，报错时，爬网页然后调用 gpt 生成新的函数。

enson110

用 AI 的成本呢？每篇都用 AI 成本很高吧？

coderhxl

enson110 要不咱看看总结那部分，“传统爬虫可能是一个更经济、更直接的选择”

624144061

好好好，这就看看实现 star 了

coderhxl

624144061 感谢您，https://coder-hxl.github.io/x-crawl/cn/guide/create-ai-application 这里可以免费领 api key

fank99

更像是自动的页面解析工具。。

coderhxl

fank99 可以这么理解，像依赖类名或结构这些元素的爬虫不也是对页面解析提取数据