Web 界面使用指南

本指南介绍 ACS Paper Crawler 的 Web 用户界面。

仪表板

仪表板提供爬取活动的概览:

仪表板截图

主仪表板,包含统计信息、图表和快速访问按钮

功能特性:

  • 统计卡片: 论文总数、任务数、完成率

  • 交互式图表: 按期刊分类的论文、热门作者、时间轴、发表年份

  • 快速访问: 常用期刊的一键式按钮

  • 最近活动: 最新的任务和论文

创建爬取任务

方法一: 从期刊列表选择

  1. 从下拉菜单中选择期刊(提供43个期刊)

  2. (可选)设置 max_results 限制论文数量

  3. 点击”Start Crawling”开始爬取

  4. 在任务页面监控进度

方法二: 自定义 URL

输入任何 ACS 期刊 URL:

https://pubs.acs.org/toc/JOURNAL_CODE/current

示例:

  • https://pubs.acs.org/toc/jacsat/current (JACS)

  • https://pubs.acs.org/toc/jmcmar/current (J. Med. Chem.)

浏览论文

导航到**论文(Papers)**页面以浏览和筛选已收集的论文:

论文列表截图

论文页面,支持高级筛选和搜索

使用方法:

  1. 导航到**论文(Papers)**页面

  2. 使用筛选器:

    • 搜索: 在标题/作者/摘要中搜索关键词

    • 期刊: 选择特定期刊

    • 年份: 按发表年份筛选

    • 摘要: 筛选有/无摘要的论文

  3. 按日期、标题或期刊排序

  4. 点击任意论文查看完整详情

论文详情截图

详细论文视图,包含完整元数据

管理任务

在**任务(Jobs)**页面监控和管理所有爬取任务:

任务页面截图

任务管理页面,包含状态跟踪和控制

功能特性:

  • 查看所有任务及其状态指示器

  • 跟踪进度(已爬取/总论文数)

  • 取消待处理或运行中的任务

  • 查看失败任务的错误信息

导出数据

将论文导出为 Excel 格式:

  1. 导航到论文页面

  2. 点击”Export Excel”按钮

  3. 保存 .xlsx 文件

Excel 格式提供:

  • 专业格式的表头(带颜色样式)

  • 自动调整列宽以提高可读性

  • 原生 Excel 兼容性(无编码问题)

  • 正确处理逗号分隔值(作者、关键词)

导出包含:DOI、标题、作者、期刊、卷号、期号、页码、发表日期、摘要、关键词、URL 和爬取时间戳。

最佳实践

  • 速率限制: 避免同时运行过多任务(最多 1-2 个并发)

  • max_results: 用于测试时限制论文数量(例如 10-50 篇)

  • 监控: 定期在任务页面检查任务状态

  • 数据管理: 定期导出数据作为备份

  • 遵守服务条款: 遵守 ACS 服务条款,不要使其服务器过载