内存优化！Lua进程内存优化方案总结

作者：benderzhao

方案

常见的内存优化方法有很多，针对不同的场景有不同的解决方案，下面按照由简到繁的顺序一一道来。

字段裁剪

显而易见，把没用的字段干掉，就可以省内存。根据前文的内存计算公式，哪怕只存了一个bool值，占用也是16字节。因此，首先考虑是去掉一些完全没用的字段，其次是去掉一些默认值的字段。

比如游戏里常见的物品，有id、数量、各种属性等。如果出于方便或者可读性，亦或者C++良好的编码习惯，为每个字段都设置一个初始值，那么物品结构就大概长这样:

local item = { id = 123123, count = 1, property1 = 0, property2 = 0, property3 = "", property4 = false,}

这种写法property1到property4的默认值占用了大量的内存，单个item从2个Key-Value变为了6个，内存也膨胀了3倍。

比较节省内存的做法是无默认值，在使用时or下即可:

local property1 = item.property1 or 0

当然，如果使用的地方特别多，比如有上万处地方直接使用了item.property1，这种改动还是太大。这个后面会讲到还有别的方法。

结构调整

如果不熟悉Lua的实现，雀食会设计出一些常见于C++，但不友好于Lua内存的结构。

还是用物品举例，假设一个玩家有1000个物品，每个物品有一些属性。比较符合直觉的数据结构是这样:

local items = { [10001] = {count = 1, property1 = 1}, [10002] = {count = 2, property2 = 4}, [10003] = {count = 4, property4 = 10}, ... [11000] = {count = 3, property1 = 2},}

使用一个Table来存储所有的物品，每个Key是物品id，Value是具体的属性。

这种结构浅显易懂，但是有个问题，总共有1000+个Table，而Table不同于C++的struct，它是有很大的内存开销的，这种数据结构占用的内存会出乎意料的大，在这里光Table的占用就会有几十KB。

考虑换成另一种结构:

local items = { count = { [10001] = 1, ... [11000] = 3, }, property1 = { [10001] = 1 ... [11000] = 2, } ...}

这里把相同的字段放在一起，比如所有的count是一个Table，Key是物品id，Value是数量。这种结构与前面的对比，Key-Value的数量是没差别的，但是只有个位数的Table，对比前面的1000+，有几个数量级的差距。

当然，改动还是比较大的，但是如果对于这个结构的访问都收敛到物品模块内，对外只提供接口，那就还可以接受。

对于其他结构也是一样，主旨就是减少Table的使用。

提取公共表

前面字段裁剪提到，如果有一些默认字段不好剔除，比如有上万次使用的地方，挨个去加判断肯定不现实，因此可以考虑提取元表来优化。

还是用物品举例，假设有1000个物品，每个物品有3个属性，绝大部分情况下都是默认值0。

local items = { [10001] = {count = 1, property1 = 0, property2 = 0, property3 = 0}, [10002] = {count = 2, property1 = 0, property2 = 0, property3 = 0}, [10003] = {count = 4, property1 = 0, property2 = 0, property3 = 0}, ... [11000] = {count = 3, property1 = 1, property2 = 0, property3 = 0},}

因为每个物品结构的字段都是一样，且大部分都是相同的值为0，因此我们提取一个元表base:

local base = { property1 = 0, property2 = 0, property3 = 0}

然后将原始数据里与base内容一样的字段剔除掉，变为:

local items = { [10001] = {count = 1}, [10002] = {count = 2}, [10003] = {count = 4}, ... [11000] = {count = 3, property1 = 1,}

再为每个物品设置元表，get不到的字段就去base里找。set则只在自己的Table里设置。所有物品共用一张元表。

显而易见，通过共用base的默认值，很多重复的Key-Value被优化掉了，也就节省了内存。

这种方法适合于结构一致，且有大量相同值的情况。

内存压缩

假如结构不一致，或者字段的值都各不相同，又该如何优化呢？例如我们已经把没用的字段剔除了，现在物品结构长这样:

local items = { [10001] = {count = 1}, [10002] = {count = 2}, [10003] = {count = 4}, ... [11000] = {count = 3, property1 = 1,}

考虑前面的指导思想，就是减少Table的使用，因此我们可以考虑把Table序列化为字符串，例如变成:

local items = { [10001] = "count=1", [10002] = "count=2", [10003] = "count=4", ... [11000] = "count=3,property1=1",}

这样就少了一大堆的二级的Table。当然，这种序列化格式还是比较占内存，这里只是举个例子方便理解。实际可以序列化为紧凑的二进制形式。

改为字符串后，要是想访问里面的count，怎么办？还是设置元表，在使用的时候还原回Table即可。

而既然都序列化为二进制字符串了，那干脆再调用下lz4压缩下，牺牲一点点CPU换来更高的优化效果。比如变为:

local items = { [10001] = "\01\FF", [10002] = "\01\FE", [10003] = "\01\1F", ... [11000] = "\01\3F\24",}

到此为止了吗？不，还可以进一步优化，考虑每个结构其实都是长差不多的，比如都有count字段存放整数，那与其挨个结构压缩，不如聚合N个结构一起压缩，那样的压缩比更好。

假设N取10，将原来的id除10聚合，先变为临时结构:

local items = { [1000] = { [10001] = {count = 1}, [10002] = {count = 2}, ... [10009] = {count = 4}, }, [1001] = {...} ... [1100] = {...}}

这样10个一组，再分别对每一组序列化后压缩，变为：

local items = { [1000] = "\01\FF\12\22", [1001] = "\01\FE\12\22", ... [1100] = "\01\3F\24\12\22",}

这样可节省的内存将会更多。访问的方式也是一样，当访问到某id时，除10找到对应的组，解压缩反序列化即可。

这种优化方式对于一些冷数据的，尤为有效，因为大部分情况下都不会访问它们。

下沉C++

在前面的优化方法都尝试之后，还想继续优化内存，怎么办？考虑一个问题，似乎C++很少因为定义几个字段几个Struct就内存炸了的情况，究其原因，有以下几点:

C++的Struct或者Class无额外消耗，一个空Class几乎不消耗内存。而Lua的Table本质是一个很复杂的HashTable与Vector结构，即使是个空Table也消耗了一大坨内存。C++的字段是紧密排列，一个int就是固定的4字节，无额外消耗。而Lua因为是弱类型的解释语言，除了本身的数据存储，还需要类型描述以及GC等信息，单个字段的消耗是16字节+，相比C++膨胀了数倍，虽然实际上Lua已经实现的很精巧了。

那么，我们也仿照C++实现一套内存布局，是不是就可以了？

比如某个Table结构有a、b、c三个字段，都为int范围的整数，那我们在C++中开辟一块12字节的内存来存放就行了，干掉Lua中的Table，把对a、b、c的读写操作都映射到C++里的这块内存上。

如何映射呢？当然也是用元表了。也许你会说元表不也会占用空间？是会占用，所以我们要把所有类型相同的结构共用一份元表，比如有1000个Item，只有一份元表。

理论上来说，这种方式就可以达到接近C++的内存使用，从而优化Lua的内存占用，顺便还减轻了GC的压力，因为Lua中已经没有复杂的Table结构了。

将大象装进冰箱的思路有了，下面就讲下具体的几步。

结构定义

首先第一步，是要先描述结构的定义，可以采用自定义的格式，比如还是物品的例子，干脆直接用Lua描述它的格式:

local Item = { [id] = {size = 4}, [count] = {size = 4}, [property1] = {size = 4}, ...}

Item有3个字段，每个字段4字节。或者也可以使用json、protobuf等格式，比如protobuf:

message Item { int32 id = 1; int32 count = 2; int32 property1 = 3; ...}

考虑到生态，使用protobuf来描述最好。各种工具齐全，且大部分人都了解这个语法，无需再重新学习。

内存布局

有了protobuf的定义后，接下来就是在内存里把这些字段排列开来，也许你突然想到，既然都用了protobuf，那直接用它的反射库不就好了？

protobuf反射库

protobuf的反射库做的事情与我们要做的差不多，解析proto文件，生成一套描述信息Reflection，然后就可以根据Reflection初始化一块内存Message，并动态的读写其中的字段。

比如典型的接口：

最终的实现，也是将内存地址强转成类型指针，直接copy进内存，与我们的思路可以说一模一样。

那看起来底层实现直接用protobuf就好了？然而，protobuf的反射库除了太重，还有个最大的问题，是没法支持热更新。

反射需求

Lua天生就支持热更新，因此，在将Lua内存下沉到C++时，也必须考虑这个问题。考虑之前的物品的Lua结构：

local Item = { id = 123123, count = 1, property1 = 0}

对应的protobuf定义:

message Item { int32 id = 1; int32 count = 2; int32 property1 = 3;}

最开始id写在了分配的C++的内存的偏移0，count写在了偏移4，以此类推。

当我们业务需要，假设需要增加一个字段time，出于可读性考虑，我们加在了中间位置。Lua结构变为:

local Item = { id = 123123, count = 1, time = 1212123123, property1 = 0}

对应的新的protobuf定义:

message Item { int32 id = 1; int32 count = 2; int32 time = 3; int32 property1 = 4;}

这时候，再使用新的protobuf的偏移，去读写我们之前分配好的内存，会明显错位了，比如现在property1的偏移是12，但是在旧的内存布局里，偏移是8。

怎么办？也许你已经想到了，首先protobuf的定义不能乱来，应该兼容旧版本，比如新增字段后，新的定义应该为:

message Item { int32 id = 1; int32 count = 2; int32 time = 4; // 插在中间可以，tag必须兼容 int32 property1 = 3;}

其次，在内存中永久维护一份message对应的layout，当加载新的protobuf定义后，根据tag修补layout的结构。

在这个例子中，旧的layout是(id, 0), (count, 4), (property1, 8)，后面的数字是字段开始的偏移。

加载新定义之后，新的tag只会往后补充，layout变为(id, 0), (count, 4), (property1, 8), (time, 12)。

这样，使用新的layout访问旧内存布局，是兼容没问题的。

也许你会问，要是删除字段怎么办？岂不是会留有一个空洞？比如某天property1废弃了，那layout变为了(id, 0), (count, 4), (废弃, 8), (time, 12)，有几种办法：新增的同类型字段可复用这个tag；等待重启；当看不见。

另外又因为热更并不频繁，所以这部分兼容的代码，可以做在Lua里，实现更简单，也不会造成性能的困扰。

小结

所以考虑热更新需求和代码复杂度，我们并不直接使用protobuf的反射库，改为自己实现一套类似的内存布局管理。

同时protobuf的内存生命周期管理也不是我们期望的，这个下面会讲到。

内存管理

熟悉Lua的人都知道，Lua把所有的短字符串都放到一个HashMap存起来，这样内存里只会存一份字符串的拷贝。比如:

local a = "test"local b = "test"

a与b都指向了同样的字符串地址，节省了内存，而且这样判断a与b是否相等时，可以直接使用指针比较，而无需调用strcmp，也提高了性能。

而什么时候从hashmap删掉呢？自然是没有使用了，Lua通过GC来删掉。比如:

local a = "test"a = nil

其他需要GC的类型比如Table、UserData也是同理。

那既然我们把Lua内存下沉到C++，Lua复杂的结构如何保证既不会内存泄露，又不会野指针呢？要知道，Lua的Table是可以随便相互各种引用的。

是不是也要复刻这套GC呢？其实大可不必，我们使用最简单的引用计数即可。

引用计数

引用计数众所周知，引用+1，取消引用-1，为0表示没人引用了，就释放掉。比如std::shared_ptr就是干这个的。

但是引用计数有个问题是循环引用，比如:

local a = {}local b = {}a.b = bb.a = a

这样a与b相互引用，就没机会减到0了。Lua为了避免这个问题，采用三色标记法来一波一波的回收。

那为什么Lua内存下沉到C++中，反倒可以使用引用计数，没有循环引用的问题呢？

原因很简单，我们使用了protobuf来描述结构。直接不让这么定义就行了，比如这种是不允许的:

message A { B b = 1;}message B { A a = 1;}

实际上也几乎不会有必须这样写的业务需求。大部分是分层的定义:

message A { Base b = 1;}message B { Base a = 1;}message Base { ...}

当去掉了循环的边，所有的结构都变成了一颗树，只要使用引用计数管理即可，简单又高效。

又因为Lua都是单线程的，所以使用一个单线程版本的shared_ptr即可，性能更佳。

复杂结构

当然，我们的结构不可能总全是int，必须要支持嵌套、repeated、map的定义，比如:

message Player { string name = 1; int32 score = 2; bool is_vip = 3; float experience = 4; repeated Item items = 5; Pet pet = 6; map<string, Friend> friends = 7;}

在前面我们知道各个字段是按照偏移来存放在内存里的，那这里的name、items、pet、friends成员应该如何存？毕竟几乎都是编译期未知的大小。

那么很简单，只存放指针即可，固定8字节。指针索引到具体的实例上去，对应的就是String、Array、Map。

字符串池子

如前所述，我们也仿照Lua，把所有C++里的字符串用一个hashmap管理起来。

虽然实际上不需要在C++中用到字符串的比对，因为访问a.b时，Lua层已经把b映射到某个偏移了，C++也就无需在用b再做字符串比较查找字段。

这种设计的主要目的还是减少内存的占用，毕竟程序中还是存在大量的相同字符串的。

另外String虽然也使用了引用计数管理，但是在释放时，需要从池子中删掉，并且池子是不能增加计数的，不然永远到不了0，这里要用到weakptr了。

Array实现

Array对应的就是Lua中的数组，比如:

local array = {"a", "b", "c"}

也是protobuf里的repeated，对应的定义:

repeated string array = 1;

虽然repeated看起来和普通的message区别很大，但是在C++里实现是差不多的。

message是在访问a.b时，把b映射到某个偏移读写。

repeated则是在访问a[1]时，把1也映射到某个偏移，逻辑更简单了，乘以单个的元素大小即可。

不过这里需要注意的是，在设置元素时，要确保是符合protobuf的定义的，毕竟Lua是可以随便写，如果上面的例子:

array[1] = 2

把整数设置到了字符串数组中，C++层要能够检测并抛出异常出来。

Map实现

Map在Lua里虽然也是Table，但是是用来存放未知的KV的，典型的比如一个好友的集合:

local friends = { ["123123"] = {name = "张三"}, ["123124"] = {name = "李四"},}

对应到protobuf的定义:

map<string, Friend> friends = 1;

这个Map就不能靠偏移来实现了，是放KV的也就只能用HashMap结构。

而既然要节省内存，那自然要用最精确的字段来存储了，比如:

map<int32, int32> map1 = 1;map<int64, int32> map2 = 2;map<int32, int64> map1 = 3;map<int64, int64> map1 = 4;

这有4种尺寸的KV排列组合，如果我们想简单实现，定义个union，比如:

union Data { int32_t i32; int32_t i64; ...};

然后用一个C++的std::unordered_map<Data, Data>来存放所有类型的KV。这种方式固然简单，但是内存明显并没有做到最优。

怎么办呢？似乎也没什么好方法，罗列下所有的可能性，然后定一个指针union，像这样:

union Map { std::unordered_map<int32_t, int32_t> * i32_32; std::unordered_map<int32_t, int64_t> * i32_64; ...};

然后根据protobuf的定义，初始化对应的类型，并按照那个类型来读写。

看起来很蠢，但是却是最简单有效的做法。也许你会说，有字节对齐，i32_32与i32_64占用的实际内存会不会其实是一样的？

是有这个可能，但是我们没法假定std::unordered_map内部实现的结构定义，而且哪怕是一样的，除了代码多一点，CPU和内存均无损失。

而代码方面，可以借助template以及C++17的if constexpr，最大程度的减少冗余。

测试结果

废了好大劲，终于正确无误的把Lua内存下沉到C++中，现在是检验优化成果的时候了。

分成了普通结构、Array、Map三种场景。

普通结构

就是最普通简单的结构体，定义如下:

message SimpleStruct { int32 a = 1; int32 b = 2; int32 c = 3; ... int32 y = 25; int32 z = 26;}

初始化了5000份数据，实测下沉C++后，内存为Lua的1/3左右。

Array

也采用了最简单的数组类型，定义如下:

repeated int32 labels = 6;

插入1000w条数据后，C++内存为Lua的1/4左右。

Map

最后是Map类型，定义为:

map<int32, int32> params = 9;

插入1000w条数据后，C++的内存居然和Lua差不多，甚至还稍大些。这就尴尬了。

Map优化

分析代码，Map下沉之后，内存不减反增。而我们只是封装了一层std::unordered_map，所以问题必然出现在它与Lua的实现的不同上面。

根据资料，std::unordered_map采用的是拉链法，除了KV本身的存储外，还有桶、链表等消耗，那是会多耗费些内存。

再观察Lua的实现，它其实用的是Coalesced hashing，这种实现虽然Set稍显麻烦，但是Get却很简单，同时因为是一整块内存，内存利用率更高。

既然std::unordered_map比不过它，那么我们自己实现一个类似的coalesced_map即可，同样的算法，不过做了些变种，比如支持Delete。

将coalesced_map与std::unordered_map比较下性能，Set会稍慢点，Get是一致的，符合预期。实际上程序中也是读多写少，Lua这种策略没错。

优化后测试

最后，重新跑一遍测试，C++内存为Lua的1/2左右。不得不说，Lua实现真的很精巧。

总体来说，下沉方案效果还可以，但是还有继续扣内存的空间。

总结

Lua确实是嵌入式脚本语言一哥，开发效率高，运行效率也不差。

不过如果一不注意，就容易陷入CPU与内存的陷阱中，大量使用时还是要多加注意。

幸福双城资讯网

技术最新也最全