https://github.com/X-PLUG/MobileAgent/assets/127390760/26c48fb0-67ed-4df6-97b2-aa0c18386d31
git clone https://github.com/X-PLUG/MobileAgent.git cd MobileAgent pip install -r requirements.txt
/path/to/adb devices
sudo chmod +x /path/to/adb
xx/xx/adb.exe
❗由于 GPT-4V 在感知非英语屏幕截图时会产生严重的幻觉,因此我们强烈建议在纯英语系统和应用程序下使用 Mobile-Agent 以确保性能。 ❗由于当前资源有限,请联系我们获取由 url 和令牌组成的免费 API 密钥。
python run_api.py --adb_path /path/to/adb --url "The url you got" --token "The token you got" --instruction "your instruction"
python run.py --grounding_ckpt /path/to/GroundingDION --adb_path /path/to/adb --api "your API_TOKEN" --instruction "your instruction"
API_TOKEN 是来自 OpenAI 的 API 密钥,具有访问 .
gpt-4-vision-preview
Mobile-Eval 是用于评估移动设备代理性能的基准测试。本次基准测试包括 10 个主流单应用场景和 1 个多应用场景。
对于每个方案,我们设计了三个说明:
Mobile-Eval的详细内容如下:
应用 | 指令 |
---|---|
Alibaba.com | 1. 帮我找到 Alibaba.com 的帽子。 2. 帮我找到 Alibaba.com 的帽子。如果商品信息页面中有“添加到购物车”,请将商品添加到我的购物车。 3.我想买一顶帽子。我听说 Alibaba.com 上的东西很便宜。也许你可以为我找到它。 |
亚马逊音乐 | 1. 在 Amazon Music 中搜索歌手周杰伦。 2. 在 Amazon Music 中搜索有关“agent”的音乐并播放。 3.我想听音乐放松。找一个应用程序来帮助我。 |
铬 | 1. 今天湖人队比赛的搜索结果。 2. 搜索有关泰勒·斯威夫特的信息。 3.我想知道今天湖人队比赛的结果。找一个应用程序来帮助我。 |
Gmail的 | 1. 发送一封空邮件至 {address}。 2. 发送电子邮件到 {address}n 告诉我的新作品。 3.我想让我的朋友知道我的新作品,他的地址是{address}。找一个应用程序来帮助我。 |
谷歌 map | 1. 导航至杭州西湖。 2. 导航到附近的加油站。 3、我想去杭州西湖,但不知道路。找一个应用程序来帮助我。 |
谷歌播放 | 1. 在 Play 商店中下载 WhatsApp。 2. 在 Play 商店中下载 Instagram。 3. 我想要手机上的WhatsApp。找一个应用程序来帮助我。 |
笔记 | 1. 在“备忘录”中创建新备忘录。 2. 在“备忘录”中创建一个新备忘录并写下“你好,这是个备忘录”,然后保存。 3.我突然有东西要录,所以帮我找一个App,写下以下内容:下午3点开会。 |
设置 | 1. 打开黑暗模式。 2. 打开飞行模式。 3.我想查看电池电量的实时网速,请为我打开此设置。 |
抖音 | 1. 在 TikTok 中滑动有关宠物猫的视频,然后单击此视频的“赞”。 2. 在 TikTok 中滑动一段关于宠物猫的视频并评论“哦,好可爱的猫! 3. 在 TikTok 中滑动视频。点击“喜欢”3只宠物视频猫。 |
优酷 | 1. 在 YouTube 上搜索有关斯蒂芬库里的视频。 2. 在 YouTube 上搜索有关斯蒂芬库里的视频,然后打开“评论”评论“以评论”哦,厨师,你的篮球精神一直激励着我”。 3. 我需要你帮我在 YouTube 上表达我对斯蒂芬库里的爱。 |
多应用 | 1.打开日历并查看今天的日期,然后转到“笔记”并创建一个新笔记,写下“今天是{今天的数据}”。 2.检查未来5天的温度,然后在笔记中创建一个新的笔记并写下温度分析。 3. 搜索今天湖人队比赛的结果,然后在笔记中创建一个注释,为这个结果写一个体育新闻。 |
我们在 Mobile-Evoal 上评估了 Mobile-Agent。评估结果可在LINK上获得。
results/Google Maps/2
如果你发现Mobile-Agent对你的研究和应用有用,请使用此BibTeX进行引用:
@article{wang2024mobile, title={Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception}, author={Wang, Junyang and Xu, Haiyang and Ye, Jiabo and Yan, Ming and Shen, Weizhou and Zhang, Ji and Huang, Fei and Sang, Jitao}, journal={arXiv preprint arXiv:2401.16158}, year={2024} }