1.Hermes源码分析(二)——解析字节码
2.死磕以太坊源码分析之Kademlia算法
3.C#浅析C# Dictionary实现原理
4.HashMap实现原理一步一步分析(1-put方法源码整体过程)
5.面试官:HashSet如何保证元素不重复?
6.String源码分析(1)--哈希篇
Hermes源码分析(二)——解析字节码
前面一节 讲到字节码序列化为二进制是哈希哈希有固定的格式的,这里我们分析一下源码里面是运算源码源码怎么处理的这里可以看到首先写入的是魔数,他的算法值为
对应的二进制见下图,注意是哈希哈希小端字节序
第二项是字节码的版本,笔者的运算源码源码版本是,也即 上图中的算法天气html源码4a
第三项是源码的hash,这里采用的哈希哈希是SHA1算法,生成的运算源码源码哈希值是位,因此占用了个字节
第四项是算法文件长度,这个字段是哈希哈希位的,也就是运算源码源码下图中的为0aa,转换成十进制就是算法,实际文件大小也是哈希哈希这么多
后面的字段类似,就不一一分析了,运算源码源码头部所有字段的算法类型都可以在BytecodeFileHeader.h中看到,Hermes按照既定的内存布局把字段写入后再序列化,就得到了我们看到的字节码文件。
这里写入的数据很多,以函数头的写入为例,我们调用了visitFunctionHeader方法,并通过byteCodeModule拿到函数的签名,将其写入函数表(存疑,在实际的文件中并没有看到这一部分)。注意这些数据必须按顺序写入,因为读出的时候也是按对应顺序来的。
我们知道react-native 在加载字节码的时候需要调用hermes的prepareJavaScript方法, 那这个方法做了些什么事呢?
这里做了两件事情:
1. 判断是否是字节码,如果是则调用createBCProviderFromBuffer,否则调用createBCProviderFromSrc,我们这里只关注createBCProviderFromBuffer
2.通过BCProviderFromBuffer的构造方法得到文件头和函数头的信息(populateFromBuffer方法),下面是这个方法的实现。
BytecodeFileFields的populateFromBuffer方法也是一个模版方法,注意这里调用populateFromBuffer方法的是一个 ConstBytecodeFileFields对象,他代表的是不可变的字节码字段。
细心的读者会发现这里也有visitFunctionHeaders方法, 这里主要为了复用visitBytecodeSegmentsInOrder的逻辑,把populator当作一个visitor来按顺序读取buffer的内容,并提前加载到BytecodeFileFields里面,以减少后面执行字节码时解析的时间。
Hermes引擎在读取了字节码之后会通过解析BytecodeFileHeader这个结构体中的字段来获取一些关键信息,例如bundle是否是字节码格式,是app用户源码否包含了函数,字节码的版本是否匹配等。注意这里我们只是解析了头部,没有解析整个字节码,后面执行字节码时才会解析剩余的部分。
evaluatePreparedJavaScript这个方法,主要是调用了HermesRuntime的 runBytecode方法,这里hermesPrep时上一步解析头部时获取的BCProviderFromBuffer实例。
runBytecode这个方法比较长,主要做了几件事情:
这里说明一下,Domain是用于垃圾回收的运行时模块的代理, Domain被创建时是空的,并跟随着运行时模块进行传播, 在运行时模块的整个生命周期内都一直存在。在某个Domain下创建的所有函数都会保持着对这个Domain的强引用。当Domain被回收的时候,这个Domain下的所有函数都不能使用。
未完待续。。。
死磕以太坊源码分析之Kademlia算法
Kademlia算法是一种点对点分布式哈希表(DHT),它在复杂环境中保持一致性和高效性。该算法基于异或指标构建拓扑结构,简化了路由过程并确保了信息的有效传递。通过并发的异步查询,系统能适应节点故障,而不会导致用户等待过长。
在Kad网络中,每个节点被视作一棵二叉树的叶子,其位置由ID值的最短前缀唯一确定。节点能够通过将整棵树分割为连续、不包含自身的子树来找到其他节点。例如,节点可以将树分解为以0、、、为前缀的子树。节点通过连续查询和学习,逐步接近目标节点,最终实现定位。每个节点都需知道其各子树至少一个节点,这有助于通过ID值找到任意节点。联盟程序源码
判断节点间距离基于异或操作。例如,节点与节点的距离为,高位差异对结果影响更大。异或操作的单向性确保了查询路径的稳定性,不同起始节点进行查询后会逐步收敛至同一路径,减轻热门节点的存储压力,加快查询速度。
Kad路由表通过K桶构建,每个节点保存距离特定范围内的节点信息。K桶根据ID值的前缀划分距离范围,每个桶内信息按最近至最远的顺序排列。K桶大小有限,确保网络负载平衡。当节点收到PRC消息时,会更新相应的K桶,保持网络稳定性和减少维护成本。K桶老化机制通过随机选择节点执行RPC_PING操作,避免网络流量瓶颈。
Kademlia协议包括PING、STORE、FIND_NODE、FIND_VALUE四种远程操作。这些操作通过K桶获得节点信息,并根据信息数量返回K个节点。系统存储数据以键值对形式,BitTorrent中key值为info_hash,value值与文件紧密相关。RPC操作中,接收者响应随机ID值以防止地址伪造,并在回复中包含PING操作校验发送者状态。
Kad提供快速节点查找机制,通过参数调节查找速度。节点x查找ID值为t的节点,递归查询最近的节点,直至t或查询失败。递归过程保证了收敛速度为O(logN),N为网络节点总数。查找键值对时,选择最近节点执行FIND_VALUE操作,缓存数据以提高下次查询速度。负10源码
数据存储过程涉及节点间数据复制和更新,确保一致性。加入Kad网络的节点通过与现有节点联系,并执行FIND_NODE操作更新路由表。节点离开时,系统自动更新数据,无需发布信息。Kad协议设计用于适应节点失效,周期性更新数据到最近邻居,确保数据及时刷新。
C#浅析C# Dictionary实现原理
在探索新领域时,往往急于求成,依赖网络答案和他人指导,忽视了独立思考与总结的重要性。我作为一位使用C#两三年的开发者,最近被问及C#字典的基本实现原理,这促使我反思自己的学习方法。字典这种看似日常使用的工具,其实隐藏着不少底层架构的奥秘。本文将带你一起学习C#字典的源码,深入理解字典实现的细节。
我们从源码出发,解析C#字典的核心组件与操作流程。字典内部主要有两个关键数据结构:桶(buckets)和项(entries)。桶用于存储碰撞后的元素,entries则存放实际的键值对。字典在创建时,会根据需要选择一个大于字典容量的最小质数作为桶的数量,从而为元素提供稳定的位置。
在字典的添加操作中,我们通过哈希算法计算键的哈希值,以此定位到桶的位置,并在桶内的entries数组中找到合适的位置存放新元素。当桶内已存在元素时,字典会通过链接方式(如链表)处理碰撞,确保元素不会丢失。字典在添加元素时会自动管理内存,利用空闲链表(FreeList)来优化空间使用,减少内存分配的开销。
删除操作则更为直接,通过哈希算法找到元素所在的cfm模块源码位置,并从链表中移除。字典在删除元素后会利用空闲链表,将被删除的元素链接到链表的末尾,以便在后续添加元素时优先利用这些空闲资源。
当字典的容量达到预设阈值或桶内元素过多导致性能下降时,字典会触发扩容操作。此时,字典会创建新的桶和entries数组,将原有元素重新分布,以保持良好的性能。扩容的过程需要仔细考虑桶的数量和大小,以避免过度分配或频繁调整带来的性能损耗。
在字典的实现中,有两样关键的算法不容忽视:哈希算法和桶算法。哈希算法负责将键映射到桶的位置,而桶算法则通过链表或其他方式解决元素碰撞问题。通过理解这些算法的工作原理,我们可以更加深入地掌握字典的内部运作机制,从而在实际开发中做出更加高效和灵活的决策。
总结而言,C#字典的实现是一个巧妙结合了数据结构和算法优化的过程。通过源码学习,我们可以清晰地看到字典如何在添加、删除、扩容等操作中保持高效和灵活。深入理解这些细节不仅有助于提升我们的编程能力,还能在后续项目中做出更加精妙的设计决策。
HashMap实现原理一步一步分析(1-put方法源码整体过程)
本文分享了HashMap内部的实现原理,重点解析了哈希(hash)、散列表(hash table)、哈希码(hashcode)以及hashCode()方法等基本概念。
哈希(hash)是将任意长度的输入通过散列算法转换为固定长度输出的过程,建立一一对应关系。常见算法包括MD5加密和ASCII码表。
散列表(hash table)是一种数据结构,通过关键码值映射到表中特定位置进行快速访问。
哈希码(hashcode)是散列表中对象的存储位置标识,用于查找效率。
Object类中的hashCode()方法用于获取对象的哈希码值,以在散列存储结构中确定对象存储地址。
在存储字母时,使用哈希码值对数组大小取模以适应存储范围,防止哈希碰撞。
HashMap在JDK1.7中使用数组+链表结构,而JDK1.8引入了红黑树以优化性能。
HashMap内部数据结构包含数组和Entry对象,数组用于存储Entry对象,Entry对象用于存储键值对。
在put方法中,首先判断数组是否为空并初始化,然后计算键的哈希码值对数组长度取模,用于定位存储位置。如果发生哈希碰撞,使用链表解决。
本文详细介绍了HashMap的存储机制,包括数组+链表的实现方式,以及如何处理哈希碰撞。后续文章将继续深入探讨HashMap的其他特性,如数组长度的优化、多线程环境下的性能优化和红黑树的引入。
面试官:HashSet如何保证元素不重复?
HashSet 实现了 Set 接口,由哈希表(实际是 HashMap)提供支持。HashSet 不保证集合的迭代顺序,但允许插入 null 值。这意味着它可以将集合中的重复元素自动过滤掉,保证存储在 HashSet 中的元素都是唯一的。
HashSet 基本操作方法有:add(添加)、remove(删除)、contains(判断某个元素是否存在)和 size(集合数量)。这些方法的性能都是固定操作时间,如果哈希函数是将元素分散在桶中的正确位置。HashSet 的基本使用方式如下:
HashSet 不能保证插入元素的顺序和循环输出元素的顺序一致,实际上,HashSet 是无序的集合。具体代码示例如下:
这表明,HashSet 的插入顺序为:深圳 -> 北京 -> 西安,而循环打印的顺序是:西安 -> 深圳 -> 北京。因此,HashSet 是无序的,不能保证插入和迭代的顺序一致。
如果要保证插入顺序和迭代顺序一致,可以使用 LinkedHashSet 替换 HashSet。
有人说 HashSet 只能保证基础数据类型不重复,却不能保证自定义对象不重复?其实不是这样的。使用 HashSet 存储基本数据类型,可以实现去重。将自定义对象存储到 HashSet 中时,HashSet 会依赖元素的 hashCode 和 equals 方法判断元素是否重复。如果两个对象的 hashCode 和 equals 返回 true,说明它们是相同的对象。例如,Long 类型元素之所以能实现去重,是因为 Long 类型中已经重写了 hashCode 和 equals 方法。
为了使 HashSet 支持自定义对象去重,只需在自定义对象中重写 hashCode 和 equals 方法即可。这样,HashSet 就可以根据对象的 hashCode 和 equals 判断是否重复,从而实现自定义对象的去重。
HashSet 保证元素不重复是通过计算对象的 hashcode 值来判断对象的存储位置。当添加对象时,HashSet 首先计算对象的 hashcode 值,然后与其他对象的 hashcode 值进行比较。如果发现相同 hashcode 值的对象,HashSet 会调用对象的 equals() 方法来检查对象是否相同。如果相同,则不会让重复的对象加入到 HashSet 中,这样就保证了元素的不重复。具体实现源码基于 JDK 8,HashSet 的 add 方法实际调用了 HashMap 的 put 方法,而 put 方法又调用了 putVal 方法。在 putVal 方法中,首先根据 key 的 hashCode 返回值决定 Entry 的存储位置。如果有两个 key 的 hash 值相同,则会判断这两个元素 key 的 equals() 是否相同。如果相同,说明是重复键值对,HashSet 的 add 方法会返回 false,表示添加元素失败。如果 key 不重复,put 方法最终会返回 null,表示添加成功。
总结而言,HashSet 底层是由 HashMap 实现的,它可以实现重复元素的去重功能。如果存储的是自定义对象,必须重写 hashCode 和 equals 方法。HashSet 通过在存储之前判断 key 的 hashCode 和 equals 来保证元素的不重复。
String源码分析(1)--哈希篇
本文基于JDK1.8,从Java中==符号的使用开始,解释了它判断的是对象的内存地址而非内容是否相等。接着,通过分析String类的equals()方法实现,说明了在比较字符串时,应使用equals()而非==,因为equals()方法可以准确判断字符串内容是否相等。
深入探讨了String类作为“值类”的特性,即它需要覆盖Object类的equals()方法,以满足比较字符串时逻辑上相等的需求。同时,强调了在覆盖equals()方法时也必须覆盖hashCode()方法,以确保基于散列的集合(如HashMap、HashSet和Hashtable)可以正常工作。解释了哈希码(hashcode)在将不同的输入映射成唯一值中的作用,以及它与字符串内容的关系。
在分析String类的hashcode()方法时,介绍了计算哈希值的公式,包括使用这个奇素数的原因,以及其在计算性能上的优势。进一步探讨了哈希碰撞的概念及其产生的影响,提出了防止哈希碰撞的有效方法之一是扩大哈希值的取值空间,并介绍了生日攻击这一概念,解释了它如何在哈希空间不足够大时制造碰撞。
最后,总结了哈希碰撞与散列表性能的关系,以及在满足安全与成本之间找到平衡的重要性。提出了确保哈希值的最短长度的考虑因素,并提醒读者在理解和学习JDK源码时,可以关注相关公众号以获取更多源码分析文章。
Redis7.0源码阅读:哈希表扩容、缩容以及rehash
当哈希值相同发生冲突时,Redis 使用链表法解决,将冲突的键值对通过链表连接,但随着数据量增加,冲突加剧,查找效率降低。负载因子衡量冲突程度,负载因子越大,冲突越严重。为优化性能,Redis 需适时扩容,将新增键值对放入新哈希桶,减少冲突。
扩容发生在 setCommand 部分,其中 dictKeyIndex 获取键值对索引,判断是否需要扩容。_dictExpandIfNeeded 函数执行扩容逻辑,条件包括:不在 rehash 过程中,哈希表初始大小为0时需扩容,或负载因子大于1且允许扩容或负载因子超过阈值。
扩容大小依据当前键值对数量计算,如哈希表长度为4,实际有9个键值对,扩容至(最小的2的n次幂大于9)。子进程存在时,dict_can_resize 为0,反之为1。fork 子进程用于写时复制,确保持久化操作的稳定性。
哈希表缩容由 tryResizeHashTables 判断负载因子是否小于0.1,条件满足则重新调整大小。此操作在数据库定时检查,且无子进程时执行。
rehash 是为解决链式哈希效率问题,通过增加哈希桶数量分散存储,减少冲突。dictRehash 函数完成这一任务,移动键值对至新哈希表,使用位运算优化哈希计算。渐进式 rehash 通过分步操作,减少响应时间,适应不同负载情况。定时任务检测服务器空闲时,进行大步挪动哈希桶。
在 rehash 过程中,数据查询首先在原始哈希表进行,若未找到,则在新哈希表中查找。rehash 完成后,哈希表结构调整,原始表指向新表,新表内容返回原始表,实现 rehash 结果的整合。
综上所述,Redis 通过哈希表的扩容、缩容以及 rehash 动态调整哈希桶大小,优化查找效率,确保数据存储与检索的高效性。这不仅提高了 Redis 的性能,也为复杂数据存储与管理提供了有力支持。
文件哈希计算工具
NetFileHash是一款基于C#开发的文件哈希计算工具,支持MD5、SHA1、SHA、SHA、SHA算法。
功能特点包括:视频演示、下载地址、VirusTotal检测、微步沙箱报告以及源码地址。
项目展示三个阶段:未计算、计算中、计算完成。
举例校验信息,以文件"C:\Users\Master\Desktop\FileHash.exe"为例,大小为字节,计算得到以下哈希值:
MD5: DA7CAAAA3CD8D9CBD
SHA1: DD2FECFA6E0DCEE3FC6
SHA: EAECD9BDB8BAFDACDCBFCEFB2AB
SHA: BC3EBB8CBCD6DFCFDE2DEBAFB2DCDFDEFDA7FEA
SHA: CAE7D3EE1AD7BEDBFABCDA6EBBCC4BFF5AEB2ECEE1EEA3F5B