[NOI2015] 荷马史诗

GitHub 跳转原题关系图返回列表

补零后执行 K 叉 Huffman 合并，堆中同时维护权重与子树高度。

OJ: luogu

题目 ID: P2168

难度:提高+/省选-

标签:K叉Huffman贪心heapqpython

日期: 2026-07-16 21:00

题意

构造最优 K 进制前缀编码，先最小化加权总长度，再最小化最大码长。

思路

K 叉 Huffman 每次合并最小的 K 个权重。完整 K 叉树叶数满足 (leaf-1) % (K-1)==0，不足时补权重 0 的虚叶。

堆元素为 (weight, depth)。合并费用增加所选权重和，新节点高度是最大子高度加一；元组在权重相同时优先较小高度，得到第二关键字最优。

Python 知识

元组由左到右比较，天然实现两级优先级。
列表推导式连续 heappop K 次。
heapq.heapify 线性建堆。

代码

python

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21import heapq
import sys


data = iter(map(int, sys.stdin.buffer.read().split()))
n, base = next(data), next(data)
heap = [(next(data), 0) for _ in range(n)]
padding = (base - 1 - (n - 1) % (base - 1)) % (base - 1)
heap.extend([(0, 0)] * padding)
heapq.heapify(heap)
total_cost = 0

while len(heap) > 1:
    chosen = [heapq.heappop(heap) for _ in range(base)]
    weight = sum(item[0] for item in chosen)
    depth = max(item[1] for item in chosen) + 1
    total_cost += weight
    heapq.heappush(heap, (weight, depth))

print(total_cost)
print(heap[0][1])

复杂度

时间 $O(n\log n)$ ，空间 $O(n)$ 。

总结

K 叉 Huffman 相比二叉版多了“补零使叶数合法”和“同权重按高度决策”两个细节。

P2168 [NOI2015] 荷马史诗

题目背景

追逐影子的人，自己就是影子 —— 荷马

题目描述

Allison 最近迷上了文学。她喜欢在一个慵懒的午后，细细地品上一杯卡布奇诺，静静地阅读她爱不释手的《荷马史诗》。但是由《奥德赛》和《伊利亚特》组成的鸿篇巨制《荷马史诗》实在是太长了，Allison 想通过一种编码方式使得它变得短一些。

一部《荷马史诗》中有 $n$ 种不同的单词，从 $1$ 到 $n$ 进行编号。其中第 $i$ 种单词出现的总次数为 $w_i$ 。Allison 想要用 $k$ 进制串 $s_i$ 来替换第 $i$ 种单词，使得其满足如下要求：

对于任意的 $1\leq i, j\leq n$ ， $i\ne j$ ，都有： $s_i$ 不是 $s_j$ 的前缀。

现在 Allison 想要知道，如何选择 $s_i$ ，才能使替换以后得到的新的《荷马史诗》长度最小。在确保总长度最小的情况下，Allison 还想知道最长的 $s_i$ 的最短长度是多少？

一个字符串被称为 $k$ 进制字符串，当且仅当它的每个字符是 $0$ 到 $k-1$ 之间（包括 $0$ 和 $k-1$ ）的整数。

字符串 $str1$ 被称为字符串 $str2$ 的前缀，当且仅当：存在 $1 \leq t\leq m$ ，使得 $str1 = str2[1..t]$ 。其中， $m$ 是字符串 $str2$ 的长度， $str2[1..t]$ 表示 $str2$ 的前 $t$ 个字符组成的字符串。

输入格式

输入的第 $1$ 行包含 $2$ 个正整数 $n, k$ ，中间用单个空格隔开，表示共有 $n$ 种单词，需要使用 $k$ 进制字符串进行替换。

接下来 $n$ 行，第 $i + 1$ 行包含 $1$ 个非负整数 $w_i$ ，表示第 $i$ 种单词的出现次数。

输出格式

输出包括 $2$ 行。

第 $1$ 行输出 $1$ 个整数，为《荷马史诗》经过重新编码以后的最短长度。

第 $2$ 行输出 $1$ 个整数，为保证最短总长度的情况下，最长字符串 $s_i$ 的最短长度。

输入输出样例 #1

输入 #1

text

输出 #1

text

1
212
2

输入输出样例 #2

输入 #2

text

输出 #2

text

1
236
3

说明/提示

【样例解释】

样例 1 解释

用 $X(k)$ 表示 $X$ 是以 $k$ 进制表示的字符串。

一种最优方案：令 $00(2)$ 替换第 $1$ 种单词， $01(2)$ 替换第 $2$ 种单词， $10(2)$ 替换第 $3$ 种单词， $11(2)$ 替换第 $4$ 种单词。在这种方案下，编码以后的最短长度为：

1 × 2 + 1 × 2 + 2 × 2 + 2 × 2 = 12

最长字符串 $s_i$ 的长度为 $2$ 。

一种非最优方案：令 $000(2)$ 替换第 $1$ 种单词， $001(2)$ 替换第 $2$ 种单词， $01(2)$ 替换第 $3$ 种单词， $1(2)$ 替换第 $4$ 种单词。在这种方案下，编码以后的最短长度为：

1 × 3 + 1 × 3 + 2 × 2 + 2 × 1 = 12

最长字符串 $s_i$ 的长度为 $3$ 。与最优方案相比，文章的长度相同，但是最长字符串的长度更长一些。

样例 2 解释

一种最优方案：令 $000(3)$ 替换第 $1$ 种单词， $001(3)$ 替换第 $2$ 种单词， $01(3)$ 替换第 $3$ 种单词， $02(3)$ 替换第 $4$ 种单词， $1(3)$ 替换第 $5$ 种单词， $2(3)$ 替换第 $6$ 种单词。

【数据规模与约定】

所有测试数据的范围和特点如下表所示（所有数据均满足 $0 < w_i \leq 10^{11}$ ）：

::cute-table{tuack}

测试点编号	$n$ 的规模	$k$ 的规模	备注
$1$	$n=3$	$k=2$
$2$	$n=5$	^	^
$3$	$n=16$	^	所有 $w_i$ 均相等
$4$	$n=1\,000$	^	$w_i$ 在取值范围内均匀随机
$5$	^	^
$6$	$n=100\,000$	^	^
$7$	^	^	所有 $w_i$ 均相等
$8$	^	^
$9$	$n=7$	$k=3$	^
$10$	$n=16$	^	所有 $w_i$ 均相等
$11$	$n=1\,001$	^	^
$12$	$n=99\,999$	$k=4$	^
$13$	$n=100\,000$	^	^
$14$	^	^	^
$15$	$n=1\,000$	$k=5$	^
$16$	$n=100\,000$	$k=7$	$w_i$ 在取值范围内均匀随机
$17$	^	^
$18$	^	$k=8$	$w_i$ 在取值范围内均匀随机
$19$	^	$k=9$
$20$	^	^	^

【提示】

选手请注意使用 64 位整数进行输入输出、存储和计算。

【评分方式】

对于每个测试点：

若输出文件的第 $1$ 行正确，得到该测试点 $40\%$ 的分数；
若输出文件完全正确，得到该测试点 $100\%$ 的分数。

[NOI2015] 荷马史诗

目录

题意

思路

Python 知识

代码

复杂度

总结