Java之Normalizer(归一化)
发布日期:2021-07-01 05:38:14
浏览次数:2
分类:技术文章
本文共 1965 字,大约阅读时间需要 6 分钟。
文章目录
什么是归一化?
归一化的概念在人工智能领域会普通看到, 比如使用TensorFlow框架编码时,就会出现数据归一化的步骤或函数。
简单来说, 归一化就是对一组数据进行转换,使这组数据具备相同的格式或特性。举例来说: 一组任意的整数数组:1,2,400,5000, 如果每个数都除以这组元素中的最大值的话(这里是5000),则这个数组元素的值位于0-1之间,满足数学上概率的值的区间。在AI中,对培训数据进行归一化的好处有:
1、保持合适的样本间距 以上面的示例来说, 1和5000相差甚远,如果以坐标图绘制,则相差的太远, 归一化之后就好多了。 2、平等对待多个特征向量。 有个例子示房子面积和房子的数量对房价的影响。面积的体量明显大于房子的数目,面积的因素很容易掩盖数量的影响。所以,归一化之后,更容易找到问题的解。归一化的数学方法
归一化常见的数学方法有:
-
线性归一化
也称作(0,1)标准化 线性归一化 , Min-Max标准化和离差标准化。是对原始数据进行线性变换,变换后的结果值在0到1之间。 公式是: X = (x-Min)/(Max-Min) -
均值标准差归一化
使用均值和标准差进行数据的标准化。转换后的数据符合正态分布, 即均值为0, 标准差为1。 公式是:X= x-均值/标准差 -
Sigmoid函数归一化
Java归一化类Normalizer
JDK中提供了一个归一化类:java.text.Normalizer , 和传统的归一化有点区别, 这个类主要是对字符串编码的转换。从该类的包名也可以看出,这个类处理的是文本的数据。
为什么会有编码的问题呢? 这个还要从计算机的原理说起, 计算机中使用1表示高电平,使用0表示低电平,简单点理解就是电源要么开,要么关。 ASCII码应该是最早熟悉的字符编码了,(American Standard Code for Information Interchange): 美国信息交换标准代码,其实用的是8个比特位(1)个字节来表示拉丁字母以及一些特殊字符,但是8个比特位最多能有256种表示方式(比如0100 0001 表示大写的A, 换算成十进制是65,十六进制表示是0x41),但是汉字等有成千上百个,于是出现了 GB2312、GBK、Unicode等编码。 Unicode(统一码、万国码、单一码),是业界统一的标准,该标准更多两个字节来表示字符(最多可以表示65536个字符)。 但这个标准又有不同的版本,比如UTF-8、UTF-16和UTF-32。同一个字符可能出现不同的编码方式。 比如 á (小写a上面有一个第四声),就有两种编码方式:- 编码方式1:
00C1
, 一个字符表示 - 编码方式2:
0041
+0301
, 两个字符表示
虽然同是á , 但是在Java中进行字符串匹配是不相同的, 所以需要进行归一化处理。 示例代码如下:
public class NormalizerTest { // á @Test public void base() { // 归一化前 String str1 = "\u00C1"; System.out.println(str1); String str2 = "\u0041" + "\u0301"; System.out.println(str2); // Assert.assertTrue(str1.equals(str2)); //失败 // 归一化后 str1 = Normalizer.normalize(str1, Normalizer.Form.NFC); str2 = Normalizer.normalize(str2, Normalizer.Form.NFC); System.out.println(str1); System.out.println(str2); Assert.assertTrue(str1.equals(str2)); // 成功 }}
normalize()方法有两个参数:
-
第一个参数是需要归一化的字符串
-
第二个参数是Unicode规范化的类型,该类型参数有四种:
- NFD 典型分解
- NFC 兼容性分解
- NFKD 规范分解,规范组成
- NFKC 兼容性分解,规范组成
NF 是normalization-type的简写。
类型细节参考: http://www.unicode.org/reports/tr15/tr15-23.html
Java的Normalizer类的说明参考:
https://docs.oracle.com/javase/7/docs/api/java/text/Normalizer.html转载地址:https://oscar.blog.csdn.net/article/details/105326270 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月27日 08时50分45秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
vs中动态DLL与静态LIB工程中加入版本信息的方法
2019-05-01
大数据分析技术与应用一站式学习(值得收藏)_v20200418
2019-05-01
Qt 在windows下的串口读写
2019-05-01
自定义Starter
2019-05-01
分布式事务原理探究(一)
2019-05-01
spring cloud consul 应用的多实例名的解决
2019-05-01
映 射 ALT 键
2019-05-01
vim使用快捷键F4生成文件头注释、F5生成main函数模板、F6生成.h文件框架模板
2019-05-01
OV5620的视频驱动
2019-05-01
C++中两个类交叉定义或递归定义的解决办法
2019-05-01
记一次Hive 行转列 引起的GC overhead limit exceeded
2019-05-01
OpenGL ES八 - 交叉存取顶点数据
2019-05-01
crontab定时任务写法
2019-05-01
nginx: [emerg] unknown directive "if($remote_addr" in /usr/local/tools/nginx/conf/nginx.conf:57
2019-05-01
module pip has no attribute main问题解决
2019-05-01
LeetCode 134.Gas Station (加油站)
2019-05-01
Python之命名元组 (namedtuple)
2019-05-01
使用libpcap过滤arp
2019-05-01
[转帖]Robots.txt指南
2019-05-01