&#x开头的是什么编码?

2025-12-13 0 148

在 Node 层利用cheerio解析网页时,输出的中文内容都是以&#x开头一堆乱码一样的东西,尝试过各种编码都无效,而且神奇的是,将这一堆“乱码”保存成网页后,通过浏览器打开又可以正常显示。这到底是什么????

缩减后的示例代码如下:

constcheerio=require(‘cheerio‘);

const$=cheerio.load(‘<divid=\"content\">你好</div>‘)
console.log($(‘#content‘).html())//&#x4F60;&#x597D; 

其实,上面那一堆乱码一样的东西,它的学名叫实体编码 entity code。

下面引用下知乎搜到的答案。

在 HTML 中,某些字符是预留的,例如小于号「<」、大于号「>」等,浏览器会将它们视作标签。如果想要在HTML中显示这些预留字符,我们就要用到字符实体(character entities)。我们比较熟悉的字符实体有空格「&nbsp;」,小于号「&lt;」,大于号「&gt;」等。这样的格式比较语义化,容易记忆,但其实字符实体有其他的格式:

&name;&#dddd;&#xhhhh;
  1. 这三种转义方式都称作 character reference,第一种是 character entity reference,「&」符号后接预先定义好的 entity 名称。

  2. 后两种是 numeric character reference,数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,「&#x」开头的后接十六进制数字。

从 HTML4 开始,numeric character reference 以 Unicode 为准,与文档编码无关。「你好」二字分别是 Unicode 字符 U+4F60 和 U+597D,十六进制表示的 code point 数值「4F60」和「597D」,同时也就是十进制的「20320」和「22909」。所以

在HTML中输入

&#x4F60;&#x597D;&#20320;&#22909;

都会显示为“你好”。

知道原因后,那么如何解决上述的问题呢?

方法一:使用cheerio提供的属性

cheerio默认会对entity进行decode,我们只需要关闭该功能即可

constcheerio=require(‘cheerio‘);
const$=cheerio.load(‘<divid=\"content\">你好</div>‘,{decodeEntities:false})
console.log($(‘#content‘).html())//你好

方法二:手动decode

functiondecode(str){//一般可以先转换为标准unicode格式(有需要就添加:当返回的数据呈现太多\\\\\\u之类的时)
str=unescape(str.replace(/\\\\u/g,\"%u\"));//再对实体符进行转义
//有x则表示是16进制,$1就是匹配是否有x,$2就是匹配出的第二个括号捕获到的内容,将$2以对应进制表示转换
str=str.replace(/&#(x)?(\\w+);/g,function($,$1,$2){returnString.fromCharCode(parseInt($2,$1?16:10));
});returnstr;
}
附:在线Html实体编码/解码网址:https://config.net.cn/tools/HtmlEncode.html

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 &#x开头的是什么编码? https://www.zuozi.net/36261.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务