摘要
摘要:网络信息量的迅猛增长,从海量的信息中准确的搜索到用户需要的信息提出了极大的挑战。网络爬虫具有能够自动提取网页信息的能力。对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用 Scrapyredis对爬虫进行拓展,利用 Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。
出版日期
2020年07月01日(中国Betway体育网页登陆平台首次上网日期,不代表论文的发表时间)