Web 界面使用指南¶
本指南介绍 ACS Paper Crawler 的 Web 用户界面。
仪表板¶
仪表板提供爬取活动的概览:
主仪表板,包含统计信息、图表和快速访问按钮¶
功能特性:
统计卡片: 论文总数、任务数、完成率
交互式图表: 按期刊分类的论文、热门作者、时间轴、发表年份
快速访问: 常用期刊的一键式按钮
最近活动: 最新的任务和论文
创建爬取任务¶
方法一: 从期刊列表选择¶
从下拉菜单中选择期刊(提供43个期刊)
(可选)设置 max_results 限制论文数量
点击”Start Crawling”开始爬取
在任务页面监控进度
方法二: 自定义 URL¶
输入任何 ACS 期刊 URL:
https://pubs.acs.org/toc/JOURNAL_CODE/current
示例:
https://pubs.acs.org/toc/jacsat/current(JACS)https://pubs.acs.org/toc/jmcmar/current(J. Med. Chem.)
浏览论文¶
导航到**论文(Papers)**页面以浏览和筛选已收集的论文:
论文页面,支持高级筛选和搜索¶
使用方法:
导航到**论文(Papers)**页面
使用筛选器:
搜索: 在标题/作者/摘要中搜索关键词
期刊: 选择特定期刊
年份: 按发表年份筛选
摘要: 筛选有/无摘要的论文
按日期、标题或期刊排序
点击任意论文查看完整详情
详细论文视图,包含完整元数据¶
管理任务¶
在**任务(Jobs)**页面监控和管理所有爬取任务:
任务管理页面,包含状态跟踪和控制¶
功能特性:
查看所有任务及其状态指示器
跟踪进度(已爬取/总论文数)
取消待处理或运行中的任务
查看失败任务的错误信息
导出数据¶
将论文导出为 Excel 格式:
导航到论文页面
点击”Export Excel”按钮
保存 .xlsx 文件
Excel 格式提供:
专业格式的表头(带颜色样式)
自动调整列宽以提高可读性
原生 Excel 兼容性(无编码问题)
正确处理逗号分隔值(作者、关键词)
导出包含:DOI、标题、作者、期刊、卷号、期号、页码、发表日期、摘要、关键词、URL 和爬取时间戳。
最佳实践¶
速率限制: 避免同时运行过多任务(最多 1-2 个并发)
max_results: 用于测试时限制论文数量(例如 10-50 篇)
监控: 定期在任务页面检查任务状态
数据管理: 定期导出数据作为备份
遵守服务条款: 遵守 ACS 服务条款,不要使其服务器过载