【爬虫知识】爬虫常见加密解密算法
【爬虫知识】爬虫常见加密解密算法
Excerpt
简介 本文总结了在爬虫中常见的各种加密算法、编码算法的原理、在 JavaScript 中和 Python 中的基本实现方法,遇到 JS 加密的时候可以快速还原加密过程,有的网站在加密的过程中可能还经过了其他处理,但是大致的方法是一样的。 常见加密算法: 对称加密(加密解密密钥相同):DES、3DES
简介#
本文总结了在爬虫中常见的各种加密算法、编码算法的原理、在 JavaScript 中和 Python 中的基本实现方法,遇到 JS 加密的时候可以快速还原加密过程,有的网站在加密的过程中可能还经过了其他处理,但是大致的方法是一样的。
常见加密算法:
- 对称加密(加密解密密钥相同):DES、3DES、AES、RC4、Rabbit
- 非对称加密(区分公钥和私钥):RSA、DSA、ECC
- 消息摘要算法/签名算法:MD5、SHA、HMAC、PBKDF2
常见编码算法:Base64
JavaScript 加密解密模块#
Crypto-JS#
Crypto-JS 支持 MD5、SHA、RIPEMD-160、HMAC、PBKDF2、AES、DES、3DES(Triple DES)、Rabbit、RC4 等,不支持 RSA、ECC,是应用比较广的加密模块,使用命令 npm install crypto-js
安装。
参考资料:
Crypto-JS 文档:https://cryptojs.gitbook.io/docs/
Crypto-JS Github:https://github.com/brix/crypto-js
Node-RSA#
Node-RSA 对 RSA 算法提供了支持,使用命令 npm install node-rsa
安装。
参考资料:Node-RSA Github:https://github.com/rzcoder/node-rsa
JSEncrypt#
参考资料:JSEncrypt 对 RSA 算法提供了更加全面的支持,使用命令 npm install jsencrypt
安装。
- JSEncrypt 文档:http://travistidwell.com/jsencrypt/
- JSEncrypt Github:https://github.com/travist/jsencrypt
Python 加密解密库#
Cryptodome & Crypto#
在 Python 中有很多算法是通过第三方库 Cryptodome 或者 Crypto 来实现的,Cryptodome 几乎是 Crypto 的替代品,Crypto 已经停止更新好多年了,有很多未知错误,所以不建议安装 Crypto !
Cryptodome 支持几乎所有主流加密算法,包括 MD5、SHA、BLAKE2b、BLAKE2s、HMAC、PBKDF2、AES、DES、3DES(Triple DES)、ECC、RSA、RC4 等。
Cryptodome 使用命令 pip install pycryptodome
进行安装,Crypto 使用命令 pip install pycrypto
进行安装。
参考资料:
Cryptodome 库:https://www.pycryptodome.org/en/latest/
Hashlib#
Python 的标准库 hashlib 提供了常见的摘要算法,如 MD5,SHA、BLAKE2b、BLAKE2s 等。
参考资料:
- hashlib 库:https://docs.python.org/3/library/hashlib.html
- 廖雪峰 hashlib:https://www.liaoxuefeng.com/wiki/1016959663602400/1017686752491744
HMAC#
Python 的标准库 hmac 对 HMAC 算法提供了支持。
参考资料:
- hmac 库:https://docs.python.org/3/library/hmac.html
- 廖雪峰 hmac:https://www.liaoxuefeng.com/wiki/1016959663602400/1183198304823296
pyDes#
Python 的第三方库 pyDes 对 DES 算法提供了支持。使用命令 pip install pydes
进行安装。
参考资料:pyDes 库:https://github.com/twhiteman/pyDes
ESA#
Python 的第三方库 rsa 对 RSA 算法提供了支持。使用命令 pip install rsa
进行安装。
参考资料:rsa 库:https://stuvel.eu/python-rsa-doc/
加密解密基本参数#
在一些对称和非对称加密算法中,经常会用到以下三个参数:初始向量 iv、加密模式 mode、填充方式 padding,先介绍一下这三个参数的含义和作用:
初始向量 iv#
在密码学中,初始向量(initialization vector,缩写为 iv),又称初始变数(starting variable,缩写为 sv),与密钥结合使用,作为加密数据的手段,它是一个固定长度的值,iv 的长度取决于加密方法,通常与使用的加密密钥或密码块的长度相当,一般在使用过程中会要求它是随机数或拟随机数,使用随机数产生的初始向量才能达到语义安全,让攻击者难以对原文一致且使用同一把密钥生成的密文进行破解。
参考资料:维基百科:https://en.wikipedia.org/wiki/Initialization_vector
加密模式 mode#
目前流行的加密和数字认证算法,都是采用块加密方式,就是将需要加密的明文分成固定大小的数据块,然后对其执行密码算法,得到密文。数据块的大小通常采用跟密钥一样的长度。加密模式在加密算法的基础上发展出来,同时也可以独立于加密算法而存在,加密模式定义了怎样通过重复利用加密算法将大于一个数据块大小的明文转化为密文,描述了加密每一数据块的过程。目前利用较多的加密模式有以下几种:
ECB:Electronic Code Book(电子码本模式),是一种基础的加密方式,密文被分割成分组长度相等的块(不足补齐),然后单独一个个加密,一个个输出组成密文。
CBC:Cipher Block Chaining(密码块链接模式),是一种循环模式,前一个分组的密文和当前分组的明文异或操作后再加密,这样做的目的是增强破解难度。
PCBC:Propagating Cipher Block Chaining(填充密码块链接模式),也称为明文密码块链接模式(Plaintext Cipher Block Chaining),是一种可以使密文中的微小更改在解密时导致明文大部分错误的模式,并在加密的时候也具有同样的特性。
CFB:Cipher Feedback(密码反馈模式),可以将块密码变为自同步的流密码,类似于 CBC,CFB 的解密过程几乎就是颠倒的 CBC 的加密过程。
OFB:Output Feedback(输出反馈模式),可以将块密码变成同步的流密码,它产生密钥流的块,然后将其与明文块进行异或,得到密文。与其它流密码一样,密文中一个位的翻转会使明文中同样位置的位也产生翻转。
CTR:Counter mode(计数器模式),也被称为 ICM 模式(Integer Counter Mode,整数计数模式)和 SIC 模式(Segmented Integer Counter),在 CTR 模式中,有一个自增的算子,这个算子用密钥加密之后的输出和明文异或的结果得到密文,相当于一次一密。这种加密方式简单快速,安全可靠,而且可以并行加密,但是在计算器不能维持很长的情况下,密钥只能使用一次。
参考资料:维基百科:https://en.wikipedia.org/wiki/Block_cipher_mode_of_operation
填充方式 padding#
块密码只能对确定长度的数据块进行处理,而消息的长度通常是可变的。因此部分模式最后一块数据在加密前需要进行填充。有数种填充方法,其中最简单的一种是在明文的最后填充空字符以使其长度为块长度的整数倍。常见填充方式有以下几种:
PKCS7:在填充时首先获取需要填充的字节长度 = 块长度 - (数据长度 % 块长度), 在填充字节序列中所有字节填充为需要填充的字节长度值。
PKCS5:PKCS5 作为 PKCS7 的子集算法,概念上没有什么区别,只是在 blockSize 上固定为 8 bytes,即块大小固定为 8 字节。
ZeroPadding:在填充时首先获取需要填充的字节长度 = 块长度 - (数据长度 % 块长度), 在填充字节序列中所有字节填充为 0 。
ISO10126:在填充时首先获取需要填充的字节长度 = 块长度 - (数据长度 % 块长度),在填充字节序列中最后一个字节填充为需要填充的字节长度值,填充字节中其余字节均填充随机数值。
ANSIX923:在填充时首先获取需要填充的字节长度 = 块长度 - (数据长度 % 块长度),在填充字节序列中最后一个字节填充为需要填充的字节长度值,填充字节中其余字节均填充数字零。
参考资料:
- 维基百科:https://en.wikipedia.org/wiki/Padding_(cryptography)
- PKCS7/PKCS5 填充算法:https://segmentfault.com/a/1190000019793040
Base64#
简介:Base64 是一种用 64 个字符来表示任意二进制数据的方法。
参考资料:
- Base64 百度百科:https://baike.baidu.com/item/base64/8545775
- Base64 维基百科:https://en.wikipedia.org/wiki/Base64
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
MD5#
简介:全称 MD5 消息摘要算法(英文名称:MD5 Message-Digest Algorithm),又称哈希算法、散列算法,由美国密码学家罗纳德·李维斯特(Ronald Linn Rivest)设计,于 1992 年作为 RFC 1321 被公布,用以取代 MD4 算法。摘要算法是单向加密的,也就是说明文通过摘要算法加密之后,是不能解密的。摘要算法的第二个特点密文是固定长度的,它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。之所以叫摘要算法,它的算法就是提取明文重要的特征。所以,两个不同的明文,使用了摘要算法之后,有可能他们的密文是一样的,不过这个概率非常的低。
参考资料:
- RFC 1321:https://datatracker.ietf.org/doc/rfc1321/
- MD5 维基百科:https://en.wikipedia.org/wiki/MD5
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
PBKDF2#
简介:英文名称:Password-Based Key Derivation Function 2,PBKDF2 是 RSA 实验室的公钥加密标准(PKCS)系列的一部分,2017 年发布的 RFC 8018 (PKCS #5 v2.1)推荐使用 PBKDF2 进行密码散列。PBKDF2 将伪随机函数(例如 HMAC),把明文和一个盐值(salt)作为输入参数,然后进行重复运算,并最终产生密钥,如果重复的次数足够大,破解的成本就会变得很高。
参考资料:
- RFC 8018:https://datatracker.ietf.org/doc/rfc8018/
- PBKDF2 维基百科:https://en.wikipedia.org/wiki/PBKDF2
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
SHA#
简介:全称安全哈希算法(英文名称:Secure Hash Algorithm),由美国国家安全局(NSA)所设计,主要适用于数字签名标准(Digital Signature Standard DSS)里面定义的数字签名算法(Digital Signature Algorithm DSA),SHA 通常指 SHA 家族的五个算法,分别是 SHA-1、SHA-224、SHA-256、SHA-384、SHA-512,后四者有时并称为 SHA-2,SHA 是比 MD5 更安全一点的摘要算法,MD5 的密文是 32 位,而 SHA-1 是 40 位,版本越强,密文越长,代价是速度越慢。
参考资料:
- RFC 3174:https://datatracker.ietf.org/doc/rfc3174/
- SHA 维基百科:https://en.wikipedia.org/wiki/Secure_Hash_Algorithms
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
HMAC#
简介:全称散列消息认证码、密钥相关的哈希运算消息认证码(英文名称:Hash-based Message Authentication Code 或者 Keyed-hash Message Authentication Code),于 1996 年提出,1997 年作为 RFC 2104 被公布,HMAC 加密算法是一种安全的基于加密 Hash 函数和共享密钥的消息认证协议,它要求通信双方共享密钥 key、约定算法、对报文进行 Hash 运算,形成固定长度的认证码。通信双方通过认证码的校验来确定报文的合法性。
参考资料:
- RFC 2104:https://datatracker.ietf.org/doc/rfc2104/
- HMAC 维基百科:https://en.wikipedia.org/wiki/HMAC
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
DES#
简介:全称数据加密标准(英文名称:Data Encryption Standard),加密与解密使用同一密钥,属于对称加密算法,1977 年被美国联邦政府的国家标准局确定为联邦资料处理标准(FIPS),DES 是一个分组加密算法,使用 56 位的密钥(一般认为密钥是 64 位,但是密钥的每个第 8 位设置为奇偶校验位,所以实际上有效位只有 56 位),由于 56 位密钥长度相对较短,所以 DES 是不安全的,现在基本上已被更高级的加密标准 AES 取代。
- mode 支持:CBC,CFB,CTR,CTRGladman,ECB,OFB 等。
- padding 支持:ZeroPadding,NoPadding,AnsiX923,Iso10126,Iso97971,Pkcs7 等。
参考资料:
- RFC 4772:https://datatracker.ietf.org/doc/rfc4772/
- DES 维基百科:https://en.wikipedia.org/wiki/Data_Encryption_Standard
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
3DES#
简介:全称三重数据加密算法(英文名称:Triple Data Encryption Standard、 Triple Data Encryption Algorithm、TDES、TDEA),是对称加密算法中的一种。70 年代初由 IBM 研发,后 1977 年被美国国家标准局采纳为数据加密标准,它相当于是对每个数据块应用三次 DES 加密算法。由于计算机运算能力的增强,原版 DES 密码的密钥长度变得容易被暴力破解;3DES 即是设计用来提供一种相对简单的方法,即通过增加 DES 的密钥长度来避免破解,所以严格来说 3DES 不是设计一种全新的块密码算法。
- mode 支持:CBC,CFB,CTR,CTRGladman,ECB,OFB 等。
- padding 支持:ZeroPadding,NoPadding,AnsiX923,Iso10126,Iso97971,Pkcs7 等。
参考资料:
- RFC 1851:https://datatracker.ietf.org/doc/rfc1851/
- 3DES 维基百科:https://en.wikipedia.org/wiki/Triple_DES
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
AES#
简介:全称高级加密标准(英文名称:Advanced Encryption Standard),在密码学中又称 Rijndael 加密法,由美国国家标准与技术研究院 (NIST)于 2001 年发布,并在 2002 年成为有效的标准,是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的 DES,已经被多方分析且广为全世界所使用,它本身只有一个密钥,即用来实现加密,也用于解密。
- mode 支持:CBC,CFB,CTR,CTRGladman,ECB,OFB 等。
- padding 支持:ZeroPadding,NoPadding,AnsiX923,Iso10126,Iso97971,Pkcs7 等。
参考资料:
- RFC 3268:https://datatracker.ietf.org/doc/rfc3268/
- AES 维基百科:https://en.wikipedia.org/wiki/Advanced_Encryption_Standard
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
RC4#
简介:英文名称:Rivest Cipher 4,也称为 ARC4 或 ARCFOUR,是一种流加密算法,密钥长度可变。它加解密使用相同的密钥,因此也属于对称加密算法。RC4 是有线等效加密(WEP)中采用的加密算法,也曾经是 TLS 可采用的算法之一,该算法的速度可以达到 DES 加密的 10 倍左右,且具有很高级别的非线性,虽然它在软件方面的简单性和速度非常出色,但在 RC4 中发现了多个漏洞,它特别容易受到攻击,RC4 作为一种老旧的验证和加密算法易于受到黑客攻击,现在逐渐不推荐使用了。
参考资料:
- RFC 7465:https://datatracker.ietf.org/doc/rfc7465/
- RC4 维基百科:https://en.wikipedia.org/wiki/RC4
JavaScript 实现#
1 |
|
Python 实现#
1 |
|
Rabbit#
简介:Rabbit 加密算法是一个高性能的流密码加密方式,2003 年首次被提出,它从 128 位密钥和 64 位初始向量(iv)创建一个密钥流。
参考资料:
- RFC 4503:https://datatracker.ietf.org/doc/rfc4503/
- Rabbit 维基百科:https://en.wikipedia.org/wiki/Rabbit_(cipher)
JavaScript 实现#
1 |
|
Python 实现#
目前没有找到有第三方库可以直接实现 Rabbit 算法,在 Python 中实现可以参考:https://asecuritysite.com/encryption/rabbit2
RSA#
简介:英文名称:Rivest-Shamir-Adleman,是 1977 年由罗纳德·李维斯特(Ron Rivest)、阿迪·萨莫尔(Adi Shamir)和伦纳德·阿德曼(Leonard Adleman)一起提出的,RSA 就是他们三人姓氏开头字母拼在一起组成的,RSA 加密算法是一种非对称加密算法。在公开密钥加密和电子商业中RSA被广泛使用。它被普遍认为是目前比较优秀的公钥方案之一。RSA是第一个能同时用于加密和数字签名的算法,它能够抵抗到目前为止已知的所有密码攻击。
参考资料:
JavaScript 实现#
1 |
|
Python 实现#
模块:rsa:
1 |
|
模块 Cryptodome:
1 |
|