Renfen Hu

胡韧奋

副教授、硕士生导师

北京师范大学文学院应用语言学研究所

北京师范大学汉字汉语研究与社会应用实验室

北京师范大学国际中文教育学院数字人文系

研究方向：计算语言学

Email: irishu@mail.bnu.edu.cn

News & Updates｜课题组新闻

AI太炎3.0：2025/12 古汉语大语言模型“AI太炎3.0”接入国家智慧教育平台·研究生教育模块。详情
AI太炎3.0：2025/11 “AI太炎3.0”参展第七届教博会，新增历时词义演变查询、文言文阅读分级、“小炎”数字人等功能。详情
EMNLP 2025：2025/08 本组三篇论文（丘子靓、杨智惠、田思雨同学分别担任一作）被自然语言处理顶会EMNLP录用。
CCL 2025评测：2025/07 李宏宇、杨智惠同学获得首届中文叙实性推理评测二等奖。
2025届研究生顺利毕业：2025/06 莫凯洁、丘子靓、王予沛等同学顺利毕业，将赴美UT Austin, UIUC, UCSD等校攻读博士学位。
腾讯犀牛鸟计划：2025/05 本组课题获得“2025腾讯基础平台技术犀牛鸟专项研究计划”资助。
CLRA中文词汇特征分析器：2025/02 徐云洁同学研发的CLRA分析器发布V2.2版更新。详情
招新：课题组招收计算语言学、自然语言处理方向的研究生和科研助理，欢迎中文、外文、计算机、数学等相关专业的同学联络申请。

个人简介

语言学及应用语言学博士，2017年至今于北京师范大学承担教学科研工作，2017至2019年于互联网教育智能技术及应用国家工程实验室做师资博士后。担任中文信息学会青工委、社会媒体处理专委会委员。
主持国家自然科学基金(青年)、国家社科基金(青年)、北京市社科基金(重点)、教育部语合中心中外合作项目等十余项科研课题，入选北京市社科青年学术带头人项目。作为核心成员参与国家863计划、国家语委重大项目、CMU RoboTutor等课题的研究工作。
在ACL、EMNLP、COLING、Language Learning、Behavior Research Methods、《语言文字应用》、《中文信息学报》、《北京大学学报》等国内外高水平期刊会议上发表论文五十余篇，获国家发明专利授权6项，指导研究生于2018年、2021年、2023年三次获得中国计算语言学大会“最佳论文”奖项。

研究兴趣

近年来，语言智能技术日新月异，我很庆幸生活在这样一个充满机遇和挑战的时代。结合专业和兴趣，我希望探索语言学和智能技术紧密融合的计算语言学研究，例如： (1) 以语言学知识为指导，设计语言分析算法和语言资源，以服务于AI模型的的评测、改进和可解释性研究； (2) 以智能技术助力语言学研究，对大规模语言数据进行深层次语义分析，从而实现语言现象的系统描写和语言规律的挖掘； (3) 计算语言学方法在语言教学、文化研究、古籍整理、医疗健康等领域的应用。

教育背景

2011年于北京师范大学文学院获得学士学位（信息管理与信息系统专业转入），后进入中文信息处理研究所攻读硕士和博士学位，师从晋耀红教授、许嘉璐教授。
2015-2016年赴美国卡内基梅隆大学计算机系访问学习，导师为Jack Mostow教授。

讲授课程

Python编程与数据分析（课程主页）
面向对象的程序设计（课程主页）
自然语言处理
中国文化史专题（计算视角的语言与文化研究）
现代教育技术应用
第二语言测试与评估

研究成果

1. 代表性论文（*标记通讯作者）

Xi Cheng, Haroon Popal, Huanqing Wang, Renfen Hu, Yinyin Zang, Mingzhe Zhang, Mark A. Thornton, Yina Ma, Huajian Cai, Yanchao Bi, Jamie Reilly, Ingrid R. Olson and Yin Wang*. The conceptual structure of human relationships across modern and historical cultures. Nature Human Behaviour, 2025. [Website]
Nan Hu, Xiaofei Lu and Renfen Hu*. Developing fine-grained sense-aware lexical sophistication indices based on the CEFR levels of word senses. Behavior Research Methods (SSCI Q1), 2025, 57.
Mahmoud Abdi Tabari, Xiaofei Lu and Renfen Hu*. The effects of task complexity and task repetition on sense-aware frequency-based lexical sophistication indices in L2 writing. Language Teaching Research (SSCI Q1), 2025.
Ziliang Qiu and Renfen Hu*. Deep Associations, High Creativity: A Simple yet Effective Metric for Evaluating Large Language Models. EMNLP, 2025.
Zhihui Yang, Yupei Wang, Kaijie Mo, Zhe Zhao and Renfen Hu*. Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models? Findings of EMNLP, 2025 .
Siyu Tian, Kaijie Mo, Yupei Wang and Renfen Hu*. CMT-Eval: A Novel Chinese Multi-turn Dialogue Evaluation Dataset Addressing Real-world Conversational Challenges. Findings of EMNLP, 2025.
Xiaofei Lu and Renfen Hu*. Sense-aware connective-based indices of cohesion and their relationship to cohesion ratings of English language learners' written production. Studies in Second Language Acquisition (SSCI Q1), 2024, 46(3).
Yupei Wang, Renfen Hu* and Zhe Zhao. Beyond agreement: diagnosing the rationale alignment of automated essay scoring methods based on linguistically-informed counterfactuals. Findings of EMNLP, 2024.
Kaijie Mo and Renfen Hu*. ExpertEase: a multi-agent framework for grade-specific document simplification with large language models. Findings of EMNLP, 2024.
Renfen Hu, Jifeng Wu and Xiaofei Lu*. Word-combination-based measures of phraseological diversity, sophistication and complexity and their relationship to L2 Chinese proficiency and writing quality. Language Learning (SSCI Q1), 2022, 72(4).
Xiaofei Lu and Renfen Hu*. Sense-aware lexical sophistication indices and their relationship to second language writing quality. Behavior Research Methods (SSCI Q1), 2022, 54(3).
Yupei Wang and Renfen Hu*. A prompt-independent and interpretable automated essay scoring method for Chinese second language writing. CCL 2021.
Renfen Hu, Shen Li and Shichen Liang. Diachronic sense modeling with deep contextualized word embeddings: an ecological view. ACL 2019.
Shen Li, Zhe Zhao, Renfen Hu*, Wensi Li, Tao Liu and Xiaoyong Du. Analogical reasoning on Chinese morphological and semantic relations. ACL 2018.
Yuanyuan Qiu, Hongzheng Li, Shen Li, Yingdi Jiang, Renfen Hu* and Lijiao Yang. Revisiting correlations between intrinsic and extrinsic evaluations of word embeddings. CCL NLP-NABD 2018 (Best Paper Award).
Shen Li, Zhe Zhao, Tao Liu, Renfen Hu* and Xiaoyong Du. Initializing convolutional filters with semantic features for text classification. EMNLP 2017.
Renfen Hu, Jiayong Chen and Kuang-hua Chen*. The construction of a Chinese collocational Knowledge resource and its application for second language acquisition. COLING 2016.
徐云洁, 胡韧奋*. 汉语词汇丰富性的自动分析研究. 国际中文教育(中英文), 2025, 10(03).
丘子靓, 胡韧奋*, 莫凯洁等. 基于大语言模型的文史知识库构建研究. 数字人文, 2024, (04).
杨尔弘, 胡韧奋. 大语言模型与语言研究的双向赋能与融合发展. 语言战略研究, 2024, 9(05).
李绅, 胡韧奋, 王立军. 古汉语大语言模型的构建及应用研究. 语言战略研究, 2024, 9(5).
莫凯洁, 丘子靓, 胡韧奋*, 王予沛. 古汉语典故资源库的构建及应用研究. 中文信息学报, 2024, 38(11).
王兆基, 张诗睿, 胡韧奋*, 张学涛. 古汉语通假字资源库的构建及应用研究. 中文信息学报, 2024, 38(03). CCL 2023 最佳中文论文奖
莫凯洁, 胡韧奋*. 现代汉语词汇语体属性探测模型研究. 语言文字应用, 2023(04).
李绅, 胡韧奋, 诸雨辰. 古籍标点与专名的智能识别技术研究. 数字人文, 2023(03).
彭一平, 胡韧奋*, 吴继峰. 汉语语篇衔接特征的自动分析和应用研究. 语言文字应用, 2023(01).
舒蕾, 郭懿鸾, 王慧萍, 张学涛, 胡韧奋*. 古汉语词义标注语料库的构建及应用研究. 中文信息学报, 2022, 36(5). CCL 2021 最佳资源论文奖
胡楠, 张文强, 胡韧奋*. 基于跨语言对齐词向量的汉日词汇意义比较研究. 语言文字应用, 2022(02).
胡韧奋. 基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究. 语言文字应用, 2021(01).
胡韧奋, 李绅, 诸雨辰. 基于深层语言模型的古汉语知识表示及自动断句研究. 中文信息学报, 2021(4).
梁诗尘, 唐雪梅, 胡韧奋, 吴金闪, 刘智颖. 基于分布式表示的汉字部件表义能力测量与应用. 中文信息学报, 2021,35(05).
胡韧奋. 汉语词汇测试自动命题研究. 中文信息学报, 2017(01).
胡韧奋, 朱琦, 杨丽姣. 对外汉语教学领域话题语料库的研究与构建. 中文信息学报, 2015(6).
胡韧奋. 面向汉英专利机器翻译的介词短语自动识别策略. 语言文字应用, 2015(01).
胡韧奋, 诸雨辰. 唐诗题材自动分类研究. 北京大学学报(自然科学版), 2015(02).
胡韧奋, 曹冰, 杜健一. 现代汉字形声字声符在普通话中的表音度测查. 中文信息学报, 2013(3).

2. 发明专利（已授权）

李绅, 胡韧奋, 王立军. 基于语言模型的古汉语文本处理方法、装置及存储介质[P]. 北京市: CN202410295431.9, 2024-08-27.
胡韧奋, 李绅, 诸雨辰. 一种生成古汉语标注模型的方法和系统[P]. 北京市: CN112613316B, 2023-06-20.
闫真, 胡韧奋. 一种预训练语言模型的评测方法、装置以及存储介质[P]. CN113673702A, 2021-11-19.
胡韧奋, 唐雪梅, 折钰, 梁诗尘, 王慧萍, 周伟, 杨丽姣. 一种用于汉语评测的自动命题方法和系统[P]. CN110516232B, 2021-06-22.
胡韧奋, 李绅, 诸雨辰. 对古汉语进行断句的方法、装置以及存储介质[P]. CN110909549B, 2021-05-18.
胡韧奋, 李艳燕, 黄荣怀, 诸雨辰, 王碧华, 王慧萍, 周伟. 一种面向古诗词测评的自动命题方法和系统[P]. CN110232180B, 2020-11-03.

开源项目·工具应用

Chinese Word Vectors
https://github.com/Embedding/Chinese-Word-Vectors
该项目覆盖上百种中文语言向量资源，在Github已获得超过12000星。

“AI太炎”古汉语大语言模型
https://t.shenshen.wiki
支持字词释义、文白翻译、句读标点、用典分析、文言文阅读分级等多种具有挑战性的文言文理解任务。

古汉语自动句读标点和专名识别
https://seg.shenshen.wiki
该系统曾获CCL 2020“古联杯”古籍文献命名实体识别评测大赛一等奖。

DiscoCC 古汉语历时词义语料库
https://corpus.shenshen.wiki
追踪近3000年汉语词汇语义演变脉络，收录语料近2亿字，涵盖65698词，126865义项。

英文历时词义演变数据及可视化工具
https://github.com/iris2hu/diachronic-sense-modeling
该项目开源了近200年（1810-2009）3220个英文多义词词义历时演变数据及可视化方法。

CCA中文搭配助手
http://cca.irishu.cn
该项目提供了中文搭配知识查询网站、中文搭配分析器及开源的中文搭配知识库。其中，中文搭配分析器支持句法搭配自动抽取和25项句法复杂度指标测量。

CLRA中文词汇特征分析器
https://github.com/whynot777/CLRA-doc
该工具参考《国际中文教育中文水平等级标准》《义务教育常用词表（草案）》，支持文本标注（分词、词性、词语等级）和词表生成，提供词汇复杂度、词汇多样性、词汇密度和词汇长度等四个维度共60余项词汇丰富性指标的自动分析。

L2C-Cohesion汉语语篇衔接特征自动分析工具
https://github.com/mybluue/l2c-cohesion
该工具支持词汇、语法和话题三个层面的语篇衔接特征分析和27项相关指标计算。

L2C-rater汉语二语作文自动评分工具
https://l2c.shenshen.wiki/

京师汉语·词汇自适应测试平台
http://hanyu.ironpy.cn/hy/anon/index