"人生就是一个字:Passion!!!"
算法工程师 · AIGC 全流程研发
参与海内外 AI 长视频生成产品全流程算法研发,覆盖 文本 → 图像 → 视频 全链路,深入理解 AIGC 业务流与算法落地。
重构故事转剧本 LLM;优化影视内容提示词工程;调用成本降低 40%;FLUX 提示词扩写优化。
从零构建人脸处理模块:人物重定位 + InstantID / PuLID 一致性 + 人脸融合,达到消费级图像质量。
基于 Kolors 实现 Attention 层区域隔离 + IPAdapter,实现生成内容与人物的区域控制。
Inpainting + Pose + IPAdapter 方案,缓解区域间干扰,减少人物动作畸形。
Audio2Lips + FaceDriven 融合方案,短耗时低开销,提升人脸动态效果与对口型精准度。
开源 DynamiCrafter / CogVideoX / Wan2.1;闭源 Pika / RunWay / MiniMax API 对接与优化。
All Voice Lab 事业部 · 高级算法工程师
优化视频字幕 OCR 系统架构与难样本训练,效果 98% / 性能提升 85%;微调 VLM-based OCR 达 99%+ 准确率、80IPS;构建含 3 类指标 15 个模型的 Benchmark。
V1: 3D-Speaker + 唇动检测 + 人脸追踪 + 改进聚类,相对纯声纹提升 10 个点;
V2: 多模态大模型匹配(ASR + OCR + 多轮对话 + 全局角色管理)。
基于 Gemini 为长视频(2h+)做细粒度多维度数据标注,覆盖 对话、场景、镜头、角色 等类别,支撑下游模型训练。
期待与 Qwen 团队一起探索智能创作的边界