JS计算公式防爬虫技术调研报告

一、核心概念

1.1 JS防爬虫的基本原理

JS防爬虫是指通过JavaScript代码实现的反爬虫措施，其核心思想是：

浏览器执行验证：向客户端返回一段JavaScript代码，只有真实浏览器才能执行
动态参数生成：通过JS计算生成动态token、签名等参数，使得简单的HTTP请求无法成功
环境检测：检测访问者是否为真实浏览器环境（检测无头浏览器、WebDriver等）

1.2 为什么要使用JS防爬虫

防止IP代理池爬虫：IP代理通常使用简单的HTTP请求库（如requests），无法执行JavaScript
降低攻击频率：强制使用Playwright等浏览器自动化工具会大幅降低爬虫访问频率
成本与收益平衡：相比验证码，JS防爬虫对正常用户无感，不影响用户体验

二、主要技术实现方式

2.1 JS Challenge（JS挑战）

工作流程：

用户首次请求 → 服务器返回JS代码
浏览器执行JS代码 → 生成验证结果
浏览器自动发送第二次请求，携带验证结果
服务器验证通过 → 返回真实内容

特点：

对正常用户完全透明（自动进行）
对简单爬虫完全阻止（无法执行JS）
代表：Cloudflare的"正在检查您的浏览器"页面

2.2 动态Token/签名机制

原理：

javascript

// 服务器返回的JS代码示例
function generateSign(data) {
    // 使用时间戳、随机数等因素
    const timestamp = Date.now();
    const random = Math.random();
    // 通过复杂算法生成签名
    return md5(data + timestamp + random + secretKey);
}

// 服务器返回的JS代码示例
function generateSign(data) {
    // 使用时间戳、随机数等因素
    const timestamp = Date.now();
    const random = Math.random();
    // 通过复杂算法生成签名
    return md5(data + timestamp + random + secretKey);
}

特点：

每次请求的参数都不同
参数变化规律隐藏在混淆的JS代码中
爬虫必须逆向JS代码才能破解

2.3 浏览器指纹识别

检测维度：

用户代理（User-Agent）
浏览器版本、操作系统
屏幕分辨率、时区
字体列表、WebGL信息
插件列表、Canvas指纹
是否为WebDriver（navigator.webdriver）
DevTools检测

2.4 Cloudflare的多层防护

三层防护机制：

JS挑战：基础的JavaScript验证
JS验证：更复杂的浏览器环境验证
人机验证：如果前两层失败，弹出验证码

三、技术优势与劣势

3.1 优势

优势	说明
对用户无感	正常用户无需任何操作，自动通过验证
有效阻止IP代理爬虫	简单HTTP请求无法执行JavaScript
降低攻击频率	强制使用浏览器自动化工具会大幅降低效率
成本低	相比验证码，实现成本较低
难以破解	需要逆向复杂的混淆JS代码

3.2 劣势与绕过方式

绕过方式	成本	难度
Playwright/Puppeteer	中等	低
Undetected ChromeDriver	低	低
指纹浏览器	高	中
JS逆向	高	高
云爬虫服务	高	低

四、具体实现建议

4.1 基础实现（推荐）

javascript

// 1. 返回JS Challenge代码
app.get('/api/data', (req, res) => {
    // 检查是否已通过验证
    if (!req.cookies.verified) {
        // 返回JS Challenge页面
        return res.send(generateJSChallenge());
    }
    // 返回真实数据
    res.json(realData);
});

// 1. 返回JS Challenge代码
app.get('/api/data', (req, res) => {
    // 检查是否已通过验证
    if (!req.cookies.verified) {
        // 返回JS Challenge页面
        return res.send(generateJSChallenge());
    }
    // 返回真实数据
    res.json(realData);
});

4.2 增强实现（多层防护）

javascript

// 1. 浏览器环境检测
function detectHeadless() {
    // 检测WebDriver
    if (navigator.webdriver) return true;
    
    // 检测User-Agent
    if (/headless|phantom|bot/i.test(navigator.userAgent)) return true;
    
    // 检测Chrome特征
    if (!window.chrome) return true;
    
    return false;
}

// 1. 浏览器环境检测
function detectHeadless() {
    // 检测WebDriver
    if (navigator.webdriver) return true;
    
    // 检测User-Agent
    if (/headless|phantom|bot/i.test(navigator.userAgent)) return true;
    
    // 检测Chrome特征
    if (!window.chrome) return true;
    
    return false;
}

五、爬虫绕过成本分析

5.1 不同方案的成本对比

防护方案	爬虫绕过难度	访问频率	总成本评估
仅IP限制	低	高	低（使用代理池即可）
JS Challenge	中	低	中（需使用浏览器自动化）
JS Challenge + 指纹检测	高	很低	高（需指纹浏览器或云服务）
多层防护 + 行为分析	很高	极低	很高（基本无法破解）

5.2 访问频率对比

简单HTTP爬虫：可达 1000+ 请求/秒
使用JS Challenge后：降至 10-50 请求/秒（需等待JS执行）
使用Playwright：降至 5-20 请求/秒（浏览器开销大）
使用指纹浏览器：降至 1-5 请求/秒（需要真实浏览器环境）

六、推荐方案

对于中小型网站

第一阶段：实现基础JS Challenge

成本：低
效果：阻止90%的简单爬虫

第二阶段：添加浏览器指纹检测

成本：中等
效果：阻止大部分自动化工具

对于大型网站

完整多层防护：

JS Challenge（基础验证）
浏览器指纹识别（环境检测）
行为分析（人机区分）
速率限制（频率控制）
IP信誉评分（黑名单管理）

完整研究报告 (Full Report)

JS计算公式防爬虫技术调研报告

一、核心概念

1.1 JS防爬虫的基本原理

1.2 为什么要使用JS防爬虫

二、主要技术实现方式

2.1 JS Challenge（JS挑战）

2.2 动态Token/签名机制

2.3 浏览器指纹识别

2.4 Cloudflare的多层防护

三、技术优势与劣势

3.1 优势

3.2 劣势与绕过方式

四、具体实现建议

4.1 基础实现（推荐）

4.2 增强实现（多层防护）

五、爬虫绕过成本分析

5.1 不同方案的成本对比

5.2 访问频率对比

六、推荐方案

对于中小型网站

对于大型网站