nuomiphp
正在加载…
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
传统爬虫 还是 AI 辅助爬虫?该怎么选?
coderhxl
gauthier
对于 OpenAI 的话,也可以使用 gpt-3.5-turbo ,默认就是这个了。后续也可能加入其他的 AI 模型,其实看名字就可以知道一点点了 createCrawlOpenAI ,这个是以 OpenAI 命名的,如果加入其他 AI 也会容易兼容。
coderhxl
wujunchuan2008
感谢您的支持。
coderhxl
ospider
哈哈,的确是用了 AI 帮忙,毕竟我文学水平有限,不过用的是百度的文心一言。不是让 AI 直接生成的,而是问他传统爬虫是什么之类的,然后筛选。像 x-crawl 这种,AI 又不认识。
coderhxl
ospider
你可以去问问 AI 了不了解 x-crawl ,毕竟这个工具还是我开发的,AI 版本还是前几天加入的
coderhxl
ospider
AI 只是更好的将我想描述的描述出来,相当于换了一句话讲,但意思更完美了
blankmiss
第一步识别是否是机器人,game over
coderhxl
blankmiss
啊?没明白说啥
karatsuba
众所周知爬虫最难的不是拉数据
coderhxl
karatsuba
这篇文章只是讲述传统爬虫与 AI 辅助爬虫的特点与优劣,为您提供决策参考。并没有讲太多的题外话,其他功能 x-crawl 也有,像设备指纹,轮换代理都有哦,https://coder-hxl.github.io/x-crawl/cn/ 下面的特征可以瞧瞧
blankmiss
第一你那个效率很低,第二 无法避免风控 #14 说的很对 第三 对接口逆向没什么帮助 第四 像八爪鱼 这种可视化插件 更方便
coderhxl
blankmiss
该文章是面对依赖类名或结构这些元素的爬虫,像逆向这种肯定也很好,但是并非此文章的主题
herozzm
除非用理想本地大模型,不然用 api 的话一天爬上万不得亏惨
herozzm
我觉得 AI 更多用在数据提取过滤和清洗,而不是抓取这个环节
coderhxl
herozzm
这里也是筛选了部分 html 给 AI 进行提取数据
maolon
老实的说用 gpt 做每一次的爬取也太奢侈了吧。
先不说钱,gpt4 的 t/s 本来就不高,gpt3 也没高到哪里去,长一点的内容要处理到啥时候去。
最好还是用 ai 识别爬取 sample 内容,然后用它来自动生成一个 xxx.com.path.parser 的 util, 然后你的爬虫动态调用这个
coderhxl
maolon
传统爬虫可能是一个更经济的选择,文章也有提到
zephyru
的确,这个自己玩玩还行,大规模抓取用 AI 辅助效率不高,当前成本还蛮高的...
与其让 Ai 解析 html 文本,不如让 AI 辅助生成解析用的函数...
coderhxl
zephyru
也是个不错的方法
hahahaii
zephyru
确实,可以加上使用 try 包裹,报错时,爬网页然后调用 gpt 生成新的函数。
enson110
用 AI 的成本呢?每篇都用 AI 成本很高吧?
coderhxl
enson110
要不咱看看总结那部分,“传统爬虫可能是一个更经济、更直接的选择”
624144061
好好好,这就看看实现 star 了
coderhxl
624144061
感谢您,https://coder-hxl.github.io/x-crawl/cn/guide/create-ai-application 这里可以免费领 api key
fank99
更像是自动的页面解析工具。。
coderhxl
fank99
可以这么理解,像依赖类名或结构这些元素的爬虫不也是对页面解析提取数据
下一页 »