郑康杰照片

郑康杰 欢迎来一起做一些有趣的事情!

博士后研究员 · 桑格研究所(Wellcome Sanger Institute)
青年研究员 · 沃尔森学院(Wolfson College), 剑桥大学
AI for Biology · Genomics · Biomolecules

我专注于构建可扩展的数据驱动型 AI 模型,让机器能够从海量生物数据中学习,破译生命的“语言”,并挖掘其中潜藏的生命系统新规律。

关于我

我目前在英国剑桥的 Wellcome Sanger Institute 从事博士后研究,与 Dr. Mo Lotfollahi 合作开发面向大规模生物数据的可扩展、可泛化基础模型。自 2026 年 1 月起,我同时担任剑桥大学 Wolfson College 青年研究员。 我的研究聚焦于序列数据建模(蛋白质、基因组)与结构数据建模(3D 分子结构)两个部分,致力于实现跨生物模态的一体化理解。 博士期间,我主要研究面向分子建模的基础模型,相关成果构成博士论文 《基于预训练模型的分子建模研究》 的核心内容,并荣获 ACM 北京分会优秀博士学位论文奖

学术经历

  • 青年研究员 , Wolfson College, 剑桥大学 (2026 年 1 月 – 至今)
  • 博士后研究员, Wellcome Sanger Institute (2025 年 9 月 – 至今)
  • 计算机科学博士, 北京大学 (2020 年 8 月 – 2025 年 6 月)
    导师: 张铭教授
  • 计算机科学学士, 哈尔滨工业大学 (2016 年 8 月 – 2020 年 6 月)
    毕业于哈工大英才学院,并荣获英才学院十佳毕业生

业界经历

  • 研究实习生, 清华大学智能产业研究院 (2022 年 8 月 – 2024 年 11 月)
    研究方向: 面向蛋白质与药物分子的 AI 建模
  • 研究实习生, 腾讯 AI Lab (2021 年 8 月 – 2022 年 8 月)
    研究方向: 非自回归文本生成
  • 研究实习生, 百度研究院 (2019 年 8 月 – 2020 年 5 月)
    导师: 孙明明教授
    研究方向: 信息抽取

研究亮点

围绕四个关键方向,我构建了一套面向多模态、多尺度生物数据的基础模型体系,覆盖多种大规模数据集与实际应用场景,并发表于机器学习领域顶级会议ICML或ICLR之上

代表性论文

* 表示共同一作 · 完整论文列表见 Google Scholar

科学智能

  1. ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling. ICML 2024.
    Kangjie Zheng*, Siyu Long*, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou.
  2. SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision. ICLR 2025.
    Kangjie Zheng, Siyue Liang, Junwei Yang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang.
  3. Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective. ICML 2024.
    Junwei Yang*, Kangjie Zheng*, Siyu Long, Zaiqing Nie, Ming Zhang, Xinyu Dai, Wei-Ying Ma, Hao Zhou.

语言建模

  1. ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models. ICML 2025.
    Kangjie Zheng, Junwei Yang, Siyue Liang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang.
  2. Towards A Unified Training for Levenshtein Transformer. ICASSP 2023.
    Kangjie Zheng, Longyue Wang, Zhihao Wang, Binqi Chen, Ming Zhang, Zhaopeng Tu.
  3. A Decoding Algorithm Based on Directed Acyclic Transformers for Length-Control Summarization. EMNLP Findings 2024.
    Chenyang Huang, Hao Zhou, Cameron Jen, Kangjie Zheng, Osmar Zaiane, Lili Mou.
  4. Gloss Matters: Unlocking the Potential of Non-Autoregressive Sign Language Translation. ACM MM 2025.
    Zhihao Wang, Shiyu Liu, Zhiwei He, Kangjie Zheng, Liangying Shao, Junfeng Yao, Jinsong Su.

GNN 与数据挖掘

  1. Learning Generalizable Contrastive Representations for Graph Zero-shot Learning. IEEE Trans. Multimedia (2025).
    Siyu Yi, Zhengyang Mao, Kangjie Zheng, Zhiping Xiao, Ziyue Qiao, Chong Chen, Xian-Sheng Hua, Yongdao Zhou, Ming Zhang, Wei Ju.
  2. Zero-shot Node Classification with Graph Contrastive Embedding Network. Trans. on Machine Learning Research (2023).
    Wei Ju, Yifang Qin, Siyu Yi, Zhengyang Mao, Kangjie Zheng, Luchen Liu, Xiao Luo, Ming Zhang.
  3. Constrained Truth Discovery. IEEE Trans. on Knowledge and Data Engineering (2020).
    Chen Ye, Hongzhi Wang, Kangjie Zheng, Youkang Kong, Rong Zhu, Jing Gao, Jianzhong Li.
  4. Multi-Source Data Repairing Powered by Integrity Constraints and Source Reliability. Information Sciences (2020).
    Chen Ye, Hongzhi Wang, Kangjie Zheng, Jing Gao, Jianzhong Li.

学术服务与报告

学术服务

程序委员会 / 审稿

  • Conference on Neural Information Processing Systems (NeurIPS’25) — 审稿人
  • International Conference on Learning Representations (ICLR’24, ’25) — 审稿人
  • International Conference on Machine Learning (ICML’24, ’25) — 审稿人
  • AAAI Conference on Artificial Intelligence (AAAI’25) — 审稿人
  • ACL Rolling Review (ACL ARR) — 审稿人

报告与展示

联系我

欢迎来信交流合作、讨论研究,或进一步了解我的工作。