刘程程:评估不仅是回顾过去,更是在创造价值

2025-10-15

微信图片_2025-12-01_140028_010.png

刘程程

北京春泽社会服务能力促进与评估中心主任

CFF:请用一两句话来说明您对“评估”的定义。评估是否重要且必须?

刘程程:

广义来看,评估是在事实依据与价值观念基础上系统地对优缺点、价值、意义等进行评价的过程。我们公益行业评估支持平台的伙伴们常用一句话来概括我们心中的评估:“用恰当的方法,让不可见的价值被看见。”这个过程需要好的方法和专业的视角去呈现。

我认为评估本身未必重要且必须,但评估所代表的不断发现、反思和改进的这种做法或过程,是非常必要的。有两个非常重要的问题是评估必须回答的,第一个是为什么要做,也就是公益的价值是什么?这关系到我们投入公益的动机。第二个是改变是如何发生的,这关系到我们做事的方法。

CFF:对一家基金会来说,可能会遇到哪些评估?哪些环节需要何种评估?

刘程程:

按照时间顺序来看,事前评估包括需求评估、可行性评估,以及政府购买服务中的立项评审或证据综合分析类的评估。这些评估的目的是要看你做这件事的必要性、可行性和合理性在哪里,同时帮助你建立做事的假设和预期。

在项目运作过程中,我们可以进行项目监测和过程评估。项目监测的核心是搜集数据,并通过建立评估监测意识持续观察项目进展,本质上是一种改进思维。

事后评估主要集中在效果层面,如果项目逻辑简单且清晰,我们可以只进行执行评估,即评价项目的执行情况,以推导出项目的结果与效果。如果较为复杂,则需要对项目效果、影响评估等单独进行评价。

不同的流派和方法也很多,比如曾经很热门的社会价值货币化的评估。很多人想知道,项目中那些“复杂的投入和产出”换算成金钱大概是什么样的,则需要一系列价值确定的方法来进行转换和计算,最终得出一个简单的投入产出比值,便于表达。

除了项目层面的评估之外,也有从组织层面进行的评估,最常见的就是战略评估、组织绩效评估、合规与管理评估等。例如民政部门指导开展的社会组织等级评估则属于组织层面的评估;基金会透明指数(FTI)的评价则是对单一维度上健康度的评价。

最后,还有一种我们容易忽略的类型,即对联合行动和行动网络的评估,对于许多议题网络和联合行动网络组织来说,评估可以用来理解它们的效果结构和价值。

当然,并非所有项目都需要进行评估。评估是一种工具,基金会应根据自身的发展需求来选择。

CFF:基金会参与不同的评估,有哪些方面的动机?

刘程程:

从现实来看,基金会参与评估主要有四类动机。

第一类是证明或问责的需求。早期的证明性评估背后的核心是问责,它解决的问题是我们需要向资助方甚至全社会去证明我们在合法合规、合理有效地做公益,向内也对团队交代,了解我们做的这件事有没有效果。

第二类评估动机是发展型、支持型或学习型评估,这种评估背后的基本诉求是改进。主动要求做评估、由执行方自己购买服务的评估,绝大多数是出于项目改进的需求。

第三类评估动机是寻求公信力背书,例如等级评估。背书或荣誉能够表明组织具备相应的资质,带来诸多益处,比如可以申请免税资格。这类情形是最普遍的,但通常距离评估的内核是最远的。

第四类,也是评估的一个重要功能,是行业生态的塑造。一些构建议题网络的基金会,例如关注残障、教育等议题的机构,不仅关注单个项目,更着眼于一个议题的发展或一个小型生态的塑造。这种评估会带有更强的研究意味,目的是帮助整个网络去看清某一议题下整体的发展格局,以及我们应该如何去认知和解决这个问题。

CFF:近年来,基金会在评估领域存在哪些认识误区?

刘程程:

第一个常见误区是将评估等同于检查。在等级评估的场景中,由于评估由政府部门发起,与行政、税收等权力直接挂钩,评估结果对被评估方非常重要,这天然地造成了权力上的不对等。于是,评估很容易变成检查。另一个原因则可能是评估者缺乏足够的专业性。由于缺乏专业性,评估者只能通过严肃的态度以及检查资料等严肃的动作来核验被评估方是否“跌破了底线”,从形式和实质上都像极了检查。在权力不对等的关系下,被评估方会产生应对和抵触的情绪,评估者也通常会产生“只看资历,不看专业”的情形,获得的资料很可能是不准确的,不利于得出相对准确的评估结果。评估双方应该是平等的合作关系。

第二个常见误区是将评估等同于背书或荣誉。评估成为背书工具,可能会产生寻租空间。例如当下一些荣誉奖项的评选过程中常会将“是否进行了项目评估”作为一项评价标准,这本身是行业进步的表现,但由于过于强调评估形式而忽略了实质,导致评估出现变异。比如我们常收到一些不合理的需求,包括三天内产出一个项目评估报告,或是基金会自己的评估总结让第三方机构盖章等。但最终都会有机构愿意接单,导致评估沦为形式,成为赚快钱的工具。对于公益评估行业而言,这种“速成评估”让劣币驱逐良币,真正做实事的机构处于劣势,评估价格和价值双双下滑。

第三个常见误区,尤其出现在项目评估合作中,基金会往往认为评估者“无所不能”——仿佛只要出钱,评估方就能把项目讲得清清楚楚。事实上,评估的效果很大程度上取决于基金会自身对评估的理解。如果机构项目设计清晰、评估目标明确、有日常的素材积累,评估质量自然更高。基金会对此认知越深,越能判断自己需要什么样的第三方机构、什么样的评估方案,而不再以团队高级职称人数、低价格等来作为购买评估服务的筛选标准。

第四个常见误区,是将评估报告视为评估的唯一成果。但事实是,报告往往无人阅读、无人理解。现在,我们更重视评估过程中的参与和共创,它本身是一种赋能过程。报告只是起点,关键在于后续的内部学习与对话,通过评估促进共识的形成与目标的深化,才是评估真正的价值所在。这恰恰是我们以往做得不够的部分。

我们现在也在反思:评估到底给基金会带来了什么样的改变?或许,评估工作本身也需要一个评估,来衡量它的效果。

CFF:与基金会有关的两项税收优惠政策,直接与评估挂钩。其中,非营利组织免税资格强调非营利性,公益性捐赠税前扣除资格强调公益性。您如何看待非营利性和公益性的评估或判定?其中存在哪些难点?

刘程程:

非营利性的判断相对简单,形式上体现为不分红,实质上则关注是否存在利益分配或输送,验证方式包括:审查章程中对盈余资金的使用与管理规定;考察治理结构是否具有制衡机制和公共性;核查财务信息中是否存在异常支出;以及项目是否涉及实质性利益输送等。

但公益性从本质上讲则是一个相对复杂的概念,具有程度差别,即公益性高低。正是这种“度”的判断,使得公益性的衡量极具挑战。

评价公益性是系统性的,首先需要明确三个边界:一是与市场的边界,区分哪些事应由市场机制完成,哪些应由公益组织承担;二是与政府的边界,明确公益组织的行为与政府通过税收提供公共服务的区别;三是第三部门内部与互益的界限。其次则进入项目内部,在标准制定、受益人筛选、物资采购、劳务发放等具体环节中去判断其公正性、合理性与公益性。这是一个综合性判断的过程,要求财务和项目两方面的信息必须整合在一起,并具备对三部门理论和现实的理解能力。

关于非营利性和公益性的判断,我认为当前面临两个难点,首先是形式和实质的统一。非营利性或公益性都是对组织实质的判断,不同于是否有免税资格这类形式上的标准,后者可以简单地通过“有或无”来判断。在既有的评估中,由于公益性判断的重要性,往往追求评估的标准化、量化和公平性,多数时候我们只能通过财务和项目的痕迹资料来进行判断。然而,对于公益性这一复杂和综合特征的判断,恰恰需要系统的思维、对多元相关方互动的理解、丰富的事实以及对当下经济社会背景的理解。

第二个难点是标准的统一。对于“公益性”的理解,或许很难有两个人是完全一致的,因为它本身就是一个复杂的概念。在进行评估时,如何找到一个统一的判断标准,本身也是非常困难的。

CFF:慈善领域由于现金流基本是单向的,导致价值的量化成为一大难点。捐赠人投入资金、工作人员及志愿者投入时间和精力获得怎样的回报,产生了什么样的价值,罕有量化。量化需要更多的外部介入及更复杂的技术和设计才能达到。您如何看待慈善领域的价值量化问题?如何改变慈善领域相关方的投入与产出普遍被漠视的现象?

刘程程:

要回答这个问题,首先要回到“为什么要量化”的起点处。早期出现在公共服务领域的量化评估,其逻辑是:公共服务通常从探索与创新开始,但当创新需要推广或政策化时,就必须有准确的验证机制。量化评估的作用正是在于通过清晰衡量投入与产出,证明效果,为政府决策提供依据。

制度化、可量化的结果证据一直占据主导地位,其中以随机对照实验(RCT)为代表的方法被认为是量化中的极致,也被认为是最科学的。然而,评估研究者们也一直在探讨其弊端,比如在社会领域中线性思维过度简化了因果关系,这种归因为核心的评估对现实的指导意义不足。随机对照实验的一系列前提条件在真实的社会环境中难以做到,准确性很低,并且受到复杂的因果影响,很难被梳理成研究设计的样子。因此,现在许多前沿研究者开始推崇新的方法,努力探究如何纳入更多的要素和相关方,用系统的方式去整体性、深度地呈现一个事物。

前沿的评估理念已开始关注贡献而非归因。传统随机对照实验强调归因,而现在的核心在于,评估不仅是回顾过去,更是在创造价值。从伦理视角来看,这也与早期要求评估者必须是客观中立的外部人形成对比,如今评估者被视为实践中的创造者,带来了根本性的转变。在大多数情境下,量化评估本身的必要性并没有那么强,关键在于你要用量化来做什么。此外,用是否量化来代表是否客观,是不对的。质性研究中所运用的文本资料也是客观事实的反映,例如服务对象表达了特定的感受,这个事件本身也是客观的。与量化方法相同,最终的评估优劣取决于评估设计、数据采集及评估者的专业度,而不在于选择的方法本身。

我认为当前公益慈善组织常常陷入到被量化拷问的困境中,很大的一个原因是我们目前缺乏一套能够良好自我表达的话语体系。由于我们的资助方大多来自于企业和市场,他们对事情的表达偏好更倾向于量化和图表的形式。为了迎合资方,我们也开始使用量化和图表,但又往往不得精髓,于是当我们用拙劣的量化方式去迎合资方的时候,又会遭到资方的质疑。

常见的情形是,资方要求量化效果,而深度服务的公益项目很难做到,于是我们用一些形式化产出数量甚至是投入数量来表达,比如在多少地区、开展了多少次课程、覆盖了多少孩子等,接下来就会遭到质疑,可是有没有效果呢?于是我们试图用更复杂的量化方法去解决问题,采用对照组、采用前后测、建个模型等,得出一个孩子的自信心提升了0.25的结果,资方仍然不买账,什么叫提升了0.25呢?是多还是少呢?最终,整个行业会陷入一种焦虑的恶性循环,大家误认为是量化本身做得不够好,但这不是事实。试图用一种简单化、线性的方式去表达复杂、高维的内容,怎么可能好呢?

关于如何改变投入与产出被普遍忽视的情况,从评估者的角度来说,我觉得提升表达能力是关键,要能够有信服力地将项目的内容、结果和价值传达给他人,这也是我们当下在探索的内容。

CFF:徐永光老师曾经提出“任性公益”的观察:不讲投入的效率,觉得情怀最伟大、过程很享受、结果不重要。他介绍,国外一些基金会做项目投入的评估费占总支出的6%,很烧钱,但很值得,只有经过评估,才能够帮助你有效投入,不浪费有限的公益资源。您认为重视评估工作需要付出哪些成本?在项目评估方面,多大的比例是相对科学的?

刘程程:

长期以来,国际组织对项目评估的投入一直保持在较高水平,但国内的情况有所不同。尽管国内也有少数基金会对评估有较大的投入,但整体数量仍然很小。根据我的观察,国内基金会对评估的态度可以分为两大类:视之如珍宝,弃之如敝履。

前者多是所谓的治理型或专业型基金会,他们相信公益项目的良性发展是安身立命之本,比较依赖评估来做决策和改进。后者多是个人(也可能是个人所代表的企业)意志较强的基金会,这类机构通常不太有原生的评估需求,即使评估也是迫于外部压力,常会有“有钱评估不如直接捐给孩子的”的看法。在当下公益评估领域的专业能力尚未被完全证明和认可的阶段,各种态度都有其合理性,因此评估在我国当下仍是“一把手工程”。我们长期以来一直在思考如何影响和推动评估的发展,但最终发现,你必须去影响关键的人。这是因为我们目前还没有建立起一种制度化的体系,来保障评估的普遍应用环境。

费用上来讲,专业的评估成本挺高的,很难有评估收费的标准。收费通常有两种计算方法,第一个是按比例计算,根据以往的经验得出一个比例作为基础费用;第二个是成本的计算方法,包括差旅、调研人员、专家,根据实际情况做预算,整体边际成本递减。

CFF:作为上游捐赠资源的受赠人,基金会如何通过重视评估工作增强向上游说服的能力,从而获得上游捐赠人更多的信任和支持?

刘程程:

我认为,问题的核心仍然在于谁的话语体系占据主导地位。在当前这种无效的对话中,双方都有一种无力感。捐赠人并不是公益领域的专业人士,他们需要例如数字、货币化的信息、个案等简单易懂的信息来快速支持自己的决策。而在基金会一端,因为没有一套可以说服捐赠人的表达体系,所以只能选择迎合,去做一些货币化的、数字化的、案例的呈现。然而,这些迎合性的工作又会立刻受到第二轮质疑:这些数字真的能代表效果吗?能说明问题吗?如果你呈现一个感人的案例,捐赠人第一次会感动,但第二次就会问:这个个案有什么代表性?如果陷入无限自证,证明永远不会结束。

我们真正缺乏的,是一套基于“公益慈善专业领域”的价值描述方式。不应该再用流程性的东西来理解项目,而应该用逻辑和价值链的方式来理解项目,比如我要解决什么问题、用了什么模式、为什么这个模式能解决这个问题、现在解决到什么程度、以及我需要各个利益相关方如何参与?捐赠人通常具有一定的经济或知识基础,如果你能用这样一套逻辑体系简单地阐述出来,他们能很快理解,也未必会再向你要量化数据。

我举两个例子。第一个例子,我们帮助一个做教育的草根组织梳理他们的项目。他们此前的募资演示文稿通常是罗列自己做了什么、获得了什么荣誉、有多么困难。我们协助他们解释为什么做,用几个维度表述他们当下的效果,其中既有事实也有数据,最后再将整个发展过程中的需求表达出来。后来这一套表述方式,帮助他们在一次资助筛选会上“击败”了另外两家专业化程度远高于他们的教育类基金会,获得了一笔不小的资助。这远比华丽的传播文稿更具说服力,需要的是学会一套清晰、专业的表达方式。

第二个案例是一家做教育资源均等化的机构,他们的项目做得非常认真,但始终处于无力与资方对话的状态,资方让他们去证明项目的效果,但教育项目是一个很长远、复杂、体系化的东西,一个人的改变很难被量化研究来简单证明。在我们第三年合作评估的时候,该机构让我们一同去与资方进行对话。结果,那次资方没有再提出“奇怪的要求”,我们看到的资方也与该机构所形容的形象不太一样,他们是真心想捐赠并且能够做出理性判断的人。该机构觉得很神奇,因为他们觉得自己也是按照评估梳理的方式说的。

基金会和被资助方天然地处于甲乙方的权力关系中,当第三方独立且具有专业权威的角色介入时,它本身就对这种关系具有缓和与增益的作用。再加上专业机构的表达可能比项目方更具说服力,一件看似复杂的事情竟然就水到渠成了。

以上例子至少可以看到评估的两大关键作用,一是帮助组织和项目用清晰的逻辑去表达项目的价值和模式;二是评估的价值可以有更多延伸,比如给筹款和传播提供支持。

CFF:业内人士也在思考,到底是项目“结项”重要,还是“事情做好”更重要。这与当前资助方式、评估体系的设计密切相关。资助方和被资助方之间在项目设计、执行和评估中,如果不能留出足够的灵活空间,就容易让所有人都只关注把指标完成、把项目做完。您对此有何回应与思考?

刘程程:

这个问题很重要,我也有同感,它不只发生在公益领域。背后可能是一种“只许成功”的社会文化在起作用,认为一旦失败就意味着完全失败。

社会组织在自我发展过程中,会面临很多模糊地带。若用等级评估的标准去衡量这些模糊环节,往往会被认定为不得分或得低分,但这些情形实际上难以简单评判。社会组织所代表的第三部门本身的价值之一就在于探索和创造,项目过程中的反思、调整、改进和再实践,本身也会带来很多涌现性价值。但我们为了甄别和做出资助选择,往往用一个简单的标准或是对流程的要求来做出评价,这在政府购买服务的评审中很常见,结果就是导致社会组织去“巧妙”地设置目标并“认真”应对目标,项目效果可想而知。这也是为什么我们在评估时不单纯依赖固定模式,而更多关注组织的建构过程。

好的公益项目往往是有机生长的,实践中可以看到的道理、内容远远超出当下我们研究者的认知。我们评估者所能做的,是保持谦卑,深入观察,看能否为组织的发展贡献更多。

如果探讨如何改变这种状况,从资方入手当然是最直接有效的。如果有一些资方愿意采取更开放的方式,资助申请流程和项目表现可能会有所改善。当然,有的基金会资助要求非常灵活,整体理念和社会价值也很高,但在实际运作中,资方自身也会承受来自不同方面的巨大压力,以及对资助者的专业性会有极高要求。

CFF:中国基金会发展论坛2025年会将于11月21日至23日在昆明举办,这是连续第十七年举办的基金会论坛年会,主题为“共建可持续价值”。您对基金会论坛2025年会有哪些期待?

刘程程:

一是将一线实践者所创造的价值真实表达出来。我期待听到更多一线做得很好的草根机构的声音,而不是一个特定圈层内的交流,或是一种自上而下的表达和传递。

二是关于共建。公益行业内的联合更多是基于一个浅层共性的联合,大家都做公益、关注同一个议题,就希望聚合力量。但对比商业领域的联合,无论是因资源、利益还是专业而联合,本质上都是有明确价值增益的逻辑。因此,要实现真正的共建,需要强有力的互益基础。仅靠价值理念或情感,很难形成有效的共建。

三是更明确地阐述公益领域所代表的可持续价值,不要停留在宏观层面,要更加落地。在我们这个领域以外的人眼中,公益往往只是一些喊着口号的“道德高尚者”,如何让更多人真正理解并看到理性的、实际的效果,是可持续价值表达的关键。

CFF:可持续价值是否也包含失败的价值?

刘程程:

与其单纯谈失败本身有没有价值,不如关注如何从失败中吸取可改进的经验,以及如何构建一个支持性的环境去包容失败的发生。大家都明白失败有价值,但现实是,当组织的预算减少,为了生存,他们不得不完成既定的任务,假装自己是一个“成功”的能人,但没有人愿意这样。如果能为了理想而活,谁愿意仅仅为了吃饭而活?这不仅是公益人的困境,任何人在现实面前都是如此。

微信图片_2025-12-01_140032_785.jpg

(来源:中国基金会发展论坛)

返回列表