字体反爬----字体加密

学习用字体对数据进行加密来反爬

  字体加密首先得准备一个字体库,测试的话可以在网上随便找,本例字体是本墨悠圆,链接:http://www.zhaozi.cn/html/fonts/china/benmo/2019-02-01/25085.html

  字体重命名成bmyy.ttf

  从字体库提取要加密的字符需要用到fonttools

fonttools安装:

pip install fonttools

使用方法:

pyftsubset <字体文件> --text=<需要的字形> --output-file=<输出>

还有很多其他工具,见说明:https://github.com/fonttools/fonttools

提取1234567890作为要加密的字符:

直接执行命令,会在字体相同文件夹生成一个bmyy.subset.ttf 字体文件,里面就是提取出的要加密字符。

对字体库修改

把ttf转成svg,链接:https://cloudconvert.com/ttf-to-svg

http://fontello.com/在线创建字体,将上面转换的svg直接拖入网页,选择要创建的字符,这里选了0~9

选customize codes对字符重新编码

数字下面的unicode可以随便写,数字上面的是要显示出来的字符,这里要记住数字和unicode的对应关系,左上角改名下载新字体。

压缩包font文件夹内是生成的新字体,具体用法见:https://github.com/fontello/fontello/wiki/How-to-create-my-own-font

 

测试

在页面上用自定义的新字体,数字部分用unicode替代

在浏览器上显示正常

按F12检查

数字部分全部变成方块

原文地址:https://www.cnblogs.com/shenyiyangle/p/10703860.html

时间: 2024-11-05 06:04:54

字体反爬----字体加密的相关文章

python解析字体反爬

爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用python爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码.这种一般是网站设置了字体反爬 一.58同城 用谷歌浏览器打开58同城:https://sz.58.com/chuzu/,按F12用开发者模式查看网页源代码,可以看到有些房屋出租标题和月租是乱码,但是在网页上浏览却显示是正常的. 用python爬取下来也是乱码: 回到网页上,右键查看网页源代码,搜索font-face关键字,可以看到一大串用base64加密的字

字体反爬-动态字库

这次是动态字体库的字体反爬 猫眼电影榜单国内票房榜,地址:https://maoyan.com/board/1 可以看出又是字体反爬,需要获得字体文件,定位字体文件的url,在页面或css里搜@font-face或font-famil 在network选font标签刷新页面几次发现每次用的字体都不一,加密用的字体库是动态的,手动建立关系表然后全局替换的方法不管用了. 解决方案 建立字符和动态字体库unicode的联系 原理 首先要了解字体文件内部有很多表,上篇用到记录unicode索引和字形关系

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二

说说这个网站 汽车之家,反爬神一般的存在,字体反爬的鼻祖网站,这个网站的开发团队,一定擅长前端吧,2019年4月19日开始写这篇博客,不保证这个代码可以存活到月底,希望后来爬虫coder,继续和汽车之间对抗. CSDN上关于汽车之家的反爬文章千千万万了,但是爬虫就是这点有意思,这一刻写完,下一刻还能不能用就不知道了,所以可以一直不断有人写下去.希望今天的博客能帮你学会一个反爬技巧. 今天要爬去的网页 https://car.autohome.com.cn/config/series/59.htm

Python爬虫进阶 | 某音字体反爬分析

字体反爬案例 爬取一些网站的信息时,偶尔会碰到这样一种情况:网页浏览显示是正常的,用 python 爬取下来是乱码,F12用开发者模式查看网页源代码也是乱码.这种一般是网站设置了字体反爬. 1. 准备url 网址: https://www.iesdouyin.com/share/user/88445518961 2. 获取数据 分析字体加密方式 任务:爬取个人信息展示页中的关注.粉丝人数和点赞数据,页面内容如图 下 所示. 在编写代码之前,我们需要确定目标数据的元素定位.定位时,我们在 HTML

58同城 字体反爬理解...和猫眼不同

import requests import re import base64 import io from lxml import etree from fontTools.ttLib import TTFont url = 'https://gz.58.com/zufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d100000-0000-31f5-5967-5384271a3920&Click

爬虫之路: 字体文件反爬二(动态字体文件)

上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况 源码在最后 冷静分析页面 打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则, 就可以动态匹配出来 先下载下来一个新页面的字体文件, 做一下对比, 如图 mmp, 发现编码, 字体顺序那那都不一样, 这可就过分了, 心里一万个xxx在奔腾 头脑风暴ing.gif (与伙伴对话ing...) 不着急, 还是要冷静下来, 再想想哪里还有突破点 同一个页面的字体文件地址是动态的, 但是,

想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,这里可以为你解决。

全面超越Appium,使用Airtest超快速开发App爬虫 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D.Cocos2dx-*.Android 原生 App.iOS App.Windows Mobile……. Airtest是网易开发的手机UI界面自动化测试工具,它原本的目的是通过所见即所得,截图点击等等功能,简化手机App图形界面测试代码编写工作. 安

Python3爬虫反反爬之搞定同程旅游加密参数 antitoken

一.前言简介 在现在各个网站使用的反爬措施中,使用 JavaScript 加密算是很常用的了,通常会使用 JavaScript 加密某个参数,例如 token 或者 sign.在这次的例子中,就采取了这种措施来反爬,使用 JavaScript 加密了一个参数 antitoken,而本篇博客要写的就是如何应对和解决的. 二.站点分析 本次爬取的站点链接为: https://www.ly.com/hotel/beijing53/?spm0=10002.2001.1.0.1.4.17. 等页面加载完毕

python反反爬,爬取猫眼评分

python反反爬,爬取猫眼评分.解决网站爬取时,内容类似:$#x12E0;样式,且每次字体文件变化.下载FontCreator . 用FontCreator打开base.woff.查看对应字体关系 初始化时将对应关系写入字典中. 1 #!/usr/bin/env python 2 # coding:utf-8 3 # __author__ = "南楼" 4 5 6 import requests 7 import re 8 import os 9 10 from fontTools.