一种解决HTTP抓取网页超时设置无效的方法

yangshangchuan

浏览: 2451155 次
性别:
来自: 北京

最近访客更多访客>>

akingde

feilafei123

wf_chn

hero.niu_126.com

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

superword

superword jsoup java 英语

今天发现superword在获取单词定义的时候，对于不常见单词，网页打开很慢，超过10秒，经检查，发现是利用Jsoup来抓取单词定义的时候，设置的超时3秒无效，_getContent方法的执行时间超过10秒，代码如下：

    public static String getContent(String url) {
        String html = _getContent(url);
        int times = 0;
        while(StringUtils.isNotBlank(html) && html.contains("非常抱歉，来自您ip的请求异常频繁")){
            //使用新的IP地址
            ProxyIp.toNewIp();
            html = _getContent(url);
            if(++times > 2){
                break;
            }
        }
        return html;
    }

    private static String _getContent(String url) {
        Connection conn = Jsoup.connect(url)
                .header("Accept", ACCEPT)
                .header("Accept-Encoding", ENCODING)
                .header("Accept-Language", LANGUAGE)
                .header("Connection", CONNECTION)
                .header("Referer", REFERER)
                .header("Host", HOST)
                .header("User-Agent", USER_AGENT)
                .timeout(3000)
                .ignoreContentType(true);
        String html = "";
        try {
            html = conn.post().html();
            html = html.replaceAll("[\n\r]", "");
        }catch (Exception e){
            LOGGER.error("获取URL：" + url + "页面出错", e);
        }
        return html;
    }

所以想了一个办法来解决这个问题，核心思想是主线程启动一个子线程来抓取单词定义，然后主线程休眠指定的超时时间，当超时时间过去后，从子线程获取抓取结果，这个时候如果子线程抓取还未完成，则主线程返回空的单词定义，代码如下：

    public static String getContent(String url) {
        long start = System.currentTimeMillis();
        String html = _getContent(url, 1000);
        LOGGER.info("获取拼音耗时: {}", TimeUtils.getTimeDes(System.currentTimeMillis()-start));
        int times = 0;
        while(StringUtils.isNotBlank(html) && html.contains("非常抱歉，来自您ip的请求异常频繁")){
            //使用新的IP地址
            ProxyIp.toNewIp();
            html = _getContent(url);
            if(++times > 2){
                break;
            }
        }
        return html;
    }

    private static String _getContent(String url, int timeout) {
        Future<String> future = ThreadPool.EXECUTOR_SERVICE.submit(()->_getContent(url));
        try {
            Thread.sleep(timeout);
            return future.get(1, TimeUnit.NANOSECONDS);
        } catch (Throwable e) {
            LOGGER.error("获取网页异常", e);
        }
        return "";
    }

    private static String _getContent(String url) {
        Connection conn = Jsoup.connect(url)
                .header("Accept", ACCEPT)
                .header("Accept-Encoding", ENCODING)
                .header("Accept-Language", LANGUAGE)
                .header("Connection", CONNECTION)
                .header("Referer", REFERER)
                .header("Host", HOST)
                .header("User-Agent", USER_AGENT)
                .timeout(1000)
                .ignoreContentType(true);
        String html = "";
        try {
            html = conn.post().html();
            html = html.replaceAll("[\n\r]", "");
        }catch (Exception e){
            LOGGER.error("获取URL：" + url + "页面出错", e);
        }
        return html;
    }

详细代码地址：

https://github.com/ysc/superword/commit/e4bc3c4197af95a8d7519856c89d592515a1c18f

1
顶

1
踩

分享到：

Serverless架构：有明云PaaS | 最频繁访问驻留缓存算法

2017-06-17 20:26
浏览 9680
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一种解决HTTP抓取网页超时设置无效的方法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一种解决HTTP抓取网页超时设置无效的方法

评论

发表评论

相关推荐

superword中一次精彩的重构

superword中的模板抽取实践

4000 Essential English Words

6部星球大战用词分析

一种使用随机抽样梯度下降算法来预估词汇量的方法

superword开源项目中的定义相似规则

GRE必备神器superword

电影功夫熊猫2使用的单词分析

这真真是极好的

电影功夫熊猫使用的单词分析

英语学习资源推荐

Commonly Confused Words

312个免费高速HTTP代理IP（能隐藏自己真实IP地址）

网络机器人的识别与攻防的经典案例（也即爬虫与反爬虫的经典案例）

使用Java8实现自己的个性化搜索引擎

利用1189个精选句子彻底掌握2190个单词

JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词

分析在各大考纲词汇中同时拥有前缀后缀和词根的词（一）

根据76大细分词性对单词进行归组（二）

根据76大细分词性对单词进行归组（一）

最近访客更多访客>>