郑康杰的个人主页

关于我

我目前在英国剑桥的 Wellcome Sanger Institute 从事博士后研究，与 Dr. Mo Lotfollahi 合作开发面向大规模生物数据的可扩展、可泛化基础模型。自 2026 年 1 月起，我同时担任剑桥大学 Wolfson College 青年研究员。我的研究聚焦于序列数据建模（蛋白质、基因组）与结构数据建模（3D 分子结构）两个部分，致力于实现跨生物模态的一体化理解。博士期间，我主要研究面向分子建模的基础模型，相关成果构成博士论文 《基于预训练模型的分子建模研究》 的核心内容，并荣获 ACM 北京分会优秀博士学位论文奖。

学术经历

青年研究员 ， Wolfson College, 剑桥大学 (2026 年 1 月 – 至今)
博士后研究员， Wellcome Sanger Institute (2025 年 9 月 – 至今)
导师： Dr. Mo Lotfollahi
计算机科学博士，北京大学 (2020 年 8 月 – 2025 年 6 月)
导师：张铭教授
计算机科学学士，哈尔滨工业大学 (2016 年 8 月 – 2020 年 6 月)
毕业于哈工大英才学院，并荣获英才学院十佳毕业生。

业界经历

研究实习生，清华大学智能产业研究院 (2022 年 8 月 – 2024 年 11 月)
导师：马维英教授 , 周浩教授

研究方向：面向蛋白质与药物分子的 AI 建模
研究实习生，腾讯 AI Lab (2021 年 8 月 – 2022 年 8 月)
导师：王龙跃博士 , 涂兆鹏博士

研究方向：非自回归文本生成
研究实习生，百度研究院 (2019 年 8 月 – 2020 年 5 月)
导师：孙明明教授
研究方向：信息抽取

研究亮点

围绕四个关键方向，我构建了一套面向多模态、多尺度生物数据的基础模型体系，覆盖多种大规模数据集与实际应用场景，并发表于机器学习领域顶级会议ICML或ICLR之上

代表性论文

* 表示共同一作 · 完整论文列表见 Google Scholar 。

科学智能

ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling. ICML 2024.
Kangjie Zheng^*, Siyu Long^*, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou.

PDF OpenReview Code
SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision. ICLR 2025.
Kangjie Zheng, Siyue Liang, Junwei Yang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang.

PDF OpenReview Code
Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective. ICML 2024.
Junwei Yang^*, Kangjie Zheng^*, Siyu Long, Zaiqing Nie, Ming Zhang, Xinyu Dai, Wei-Ying Ma, Hao Zhou.

PDF OpenReview Code

语言建模

ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models. ICML 2025.
Kangjie Zheng, Junwei Yang, Siyue Liang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang.

PDF OpenReview Code
Towards A Unified Training for Levenshtein Transformer. ICASSP 2023.
Kangjie Zheng, Longyue Wang, Zhihao Wang, Binqi Chen, Ming Zhang, Zhaopeng Tu.

Publisher Code
A Decoding Algorithm Based on Directed Acyclic Transformers for Length-Control Summarization. EMNLP Findings 2024.
Chenyang Huang, Hao Zhou, Cameron Jen, Kangjie Zheng, Osmar Zaiane, Lili Mou.

PDF Code
Gloss Matters: Unlocking the Potential of Non-Autoregressive Sign Language Translation. ACM MM 2025.
Zhihao Wang, Shiyu Liu, Zhiwei He, Kangjie Zheng, Liangying Shao, Junfeng Yao, Jinsong Su.

Publisher Code

GNN 与数据挖掘

Learning Generalizable Contrastive Representations for Graph Zero-shot Learning. IEEE Trans. Multimedia (2025).
Siyu Yi, Zhengyang Mao, Kangjie Zheng, Zhiping Xiao, Ziyue Qiao, Chong Chen, Xian-Sheng Hua, Yongdao Zhou, Ming Zhang, Wei Ju.

PDF Publisher
Zero-shot Node Classification with Graph Contrastive Embedding Network. Trans. on Machine Learning Research (2023).
Wei Ju, Yifang Qin, Siyu Yi, Zhengyang Mao, Kangjie Zheng, Luchen Liu, Xiao Luo, Ming Zhang.

PDF OpenReview
Constrained Truth Discovery. IEEE Trans. on Knowledge and Data Engineering (2020).
Chen Ye, Hongzhi Wang, Kangjie Zheng, Youkang Kong, Rong Zhu, Jing Gao, Jianzhong Li.

Publisher
Multi-Source Data Repairing Powered by Integrity Constraints and Source Reliability. Information Sciences (2020).
Chen Ye, Hongzhi Wang, Kangjie Zheng, Jing Gao, Jianzhong Li.

Publisher