Table Of ContentSmoothing Spline ANOVA with Component(cid:2)Wise Bayesian
(cid:3)Con(cid:4)dence Intervals(cid:5)
To Appear(cid:2) J(cid:3) Computationaland Graphical Statistics
CHONG GU and GRACE WAHBA(cid:0)
November (cid:2)(cid:2)(cid:3) (cid:2)(cid:4)(cid:4)(cid:5)
Abstract
We study a multivariatesmoothingspline estimate of a function of several variables(cid:2) based
on an ANOVA decomposition as sums of main e(cid:4)ect functions (cid:5)of one variable(cid:6)(cid:2) two(cid:7)factor
interaction functions (cid:5)of two variables(cid:6)(cid:2) etc(cid:3) We derive the Bayesian (cid:8)con(cid:9)dence intervals(cid:10) for
the components of this decomposition and demonstrate that(cid:2) even with multiple smoothing
parameters(cid:2)theycanbe e(cid:11)cientlycomputedusingthe publiclyavailablecode RKPACK(cid:2)which
wasoriginallydesigned just to computethe estimates(cid:3) Wecarry out asmallMonte Carlostudy
toseehowcloselytheactualproperties ofthesecomponent(cid:7)wisecon(cid:9)dence intervalsmatchtheir
nominal con(cid:9)dence levels(cid:3) Lastly(cid:2) we analyze some lake acidity data as a function of calcium
concentration(cid:2) latitude(cid:2)andlongitude(cid:2)using bothpolynomialand thinplatespline maine(cid:4)ects
in the same model(cid:3)
KEYWORDS(cid:12)Bayesian(cid:8)con(cid:9)denceintervals(cid:10)(cid:13)Multivariatefunctionestimation(cid:13)RKPACK(cid:13)
Smoothingspline ANOVA(cid:3)
(cid:0)
ChongGuchong(cid:2)pop(cid:3)stat(cid:3)purdue(cid:3)eduisAssistantProfessor(cid:2)DepartmentofStatistics(cid:2)PurdueUniversity(cid:2)West
Lafayette(cid:2) IN (cid:3)(cid:4)(cid:5)(cid:6)(cid:4)(cid:7) His research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:9)(cid:6)(cid:9)(cid:4)(cid:10)(cid:6)(cid:7)
Grace Wahba wahba(cid:2)stat(cid:3)wisc(cid:3)eduis John Bascom Professor(cid:2) Department of Statistics(cid:2) University of Wisconsin(cid:2)
Madison(cid:2) WI (cid:11)(cid:10)(cid:4)(cid:6)(cid:12)(cid:7) Her research was supported by the National Science Foundation under Grant DMS(cid:8)(cid:5)(cid:6)(cid:6)(cid:13)(cid:11)(cid:12)(cid:12)(cid:7)
(cid:0) Introduction
We consider the model
yi (cid:2) f(cid:3)t(cid:0)(cid:3)i(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n (cid:3)(cid:6)(cid:4)(cid:6)(cid:4)
(cid:2) (cid:2) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
where (cid:3)i (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) (cid:4)(cid:2)(cid:5) unknown(cid:8) and t(cid:2)(cid:8) the (cid:6)th (cid:9)variable(cid:10) is in T (cid:8) where T is some
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4)
measurable space(cid:11) In the examples we will study(cid:8) either T (cid:2) (cid:12)(cid:7)(cid:2)(cid:6)(cid:13) or(cid:8) T (cid:2) E (cid:8) Euclidean
k(cid:3)(cid:6)(cid:4) space(cid:8) and then t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) is in EK space(cid:8) where K (cid:2) (cid:2)k(cid:3)(cid:6)(cid:4)(cid:11) By setting k(cid:3)(cid:6)(cid:4) to be
(cid:14) or (cid:15)(cid:8) we will be able to include geographic(cid:8) atmospheric or ocePanic variables(cid:8) along with other
(cid:2)
concomitant variables(cid:8) in a natural way(cid:11) We wish to estimate f(cid:8) given the data y (cid:2) (cid:3)y(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)yn(cid:4)(cid:8) in
suchawayastoavoidthe(cid:9)curseofdimensionality(cid:10)(cid:8) and(cid:8) in addition(cid:8) toprovide useful information
concerning the accuracy of such estimates(cid:11)
Nonparametric function estimation is a major research area at the present time and we just
mention representative examples of modern techniques for multivariate function estimation in sev(cid:16)
eral dimensions(cid:17) ACE (cid:3)Breiman and Friedman(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) MARS (cid:3)Friedman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) CART (cid:3)Breiman(cid:8)
Friedman(cid:8) Olshen and Stone(cid:8) (cid:6)(cid:18)(cid:19)(cid:21)(cid:4)(cid:8) Projection Pursuit (cid:3)Huber(cid:8) (cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:8) Regression Splines (cid:3)Stone(cid:8)
(cid:6)(cid:18)(cid:19)(cid:20)(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) the (cid:16)method (cid:3)Breiman(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:8) Additive Models (cid:3)Buja(cid:8) Hastie and Tibshirani(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:8)
Hastie and TibshQirani(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Neural net research is partly concerned with multivariate function
estimation in thesense thatweuse it here(cid:8) see for example Moody and Utans(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4)(cid:11) Each method
hasunique problems and successes in providing accuracy statementswhich wewill notdiscuss here(cid:11)
In this paper(cid:8) we will be providing accuracy statementswithin the frameworkof a general form
ofsmoothingspline analysisofvariance(cid:3)SS(cid:16)ANOVA(cid:4)inreproducing kernelHilbert spaces(cid:3)RKHS(cid:4)(cid:11)
An overview of SS(cid:16)ANOVA as it applies to polynomial splines and tensor products of polynomial
splines can be found in Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) More recently this framework has been generalized to show
how to include thin plate splines in an SS(cid:16)ANOVA model (cid:3)Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)a(cid:8) (cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) The use
of thin plate splines as part of the SS(cid:16)ANOVA model allows the modeling of geographic and other
variables as variables in main e(cid:22)ects(cid:8) interaction terms(cid:8) and so forth(cid:11)
In SS(cid:16)ANOVA (cid:3)and other ANOVA in function space approaches(cid:8) see(cid:8) e(cid:11)g(cid:11) Friedman(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)(cid:4) and
Stone(cid:3)(cid:6)(cid:18)(cid:19)(cid:20)(cid:4)(cid:4)(cid:8) f has a representation of the form
f(cid:3)t(cid:4)(cid:2) C (cid:5) f(cid:2)(cid:3)t(cid:2)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:4)(cid:5) f(cid:2)(cid:4)(cid:5)(cid:3)t(cid:2)(cid:2)t(cid:4)(cid:2)t(cid:5)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:14)(cid:4)
(cid:2) (cid:2)(cid:3)(cid:4) (cid:2)(cid:3)(cid:4)(cid:3)(cid:5)
X X X
where the expansion is made unique and (cid:3)usually(cid:4) truncated in some manner(cid:11)
(cid:6)
In the SS(cid:16)ANOVA context(cid:8) the estimate f(cid:6) of f is obtained by (cid:23)nding f(cid:6) in an appropriate
RKHS to minimize an expression similar to
n
(cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:2)(cid:4)(cid:0)J(cid:2)(cid:3)f(cid:2)(cid:4)(cid:5) (cid:8)(cid:2)(cid:4)(cid:4)(cid:0)J(cid:2)(cid:4)(cid:3)f(cid:2)(cid:4)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0) (cid:3)(cid:6)(cid:4)(cid:15)(cid:4)
n (cid:2) (cid:4)
i(cid:5)(cid:0) (cid:2)(cid:3)IM (cid:2)(cid:7)(cid:4)(cid:3)IM
X X X
(cid:3) (cid:5)
whereIMisthecollection ofindicesforcomponentstobeincluded inthemodel(cid:8)andtheJ(cid:2)(cid:2)J(cid:2)(cid:4) and
so forth are quadratic (cid:9)smoothness(cid:10) penalty functionals(cid:11) (cid:7) is the main smoothing parameter(cid:8) and
the (cid:8)(cid:24)s aresubsidiary smoothing parameters(cid:8)satisfying an appropriate constraintforidenti(cid:23)ability(cid:11)
In previous work relevant to the present paper(cid:8) a mathematical framework has been developed for
(cid:23)tting these models by penalized likelihood and in particular smoothing spline methods (cid:3)Wahba(cid:8)
(cid:6)(cid:18)(cid:19)(cid:25)(cid:26) Chen(cid:8) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) Numerical methods for (cid:23)tting the smoothing
spline models have been developed (cid:3)Gu(cid:8) Bates(cid:8) Chen and Wahba(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:26) Gu and Wahba(cid:8) (cid:6)(cid:18)(cid:18)(cid:6)b(cid:4)(cid:8)
and publicly available code developed (cid:3)RKPACK(cid:8) Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:11)
Thegoalofthepresentworkis theestablishmentofcomponent(cid:16)wise Bayesian(cid:9)con(cid:23)dence inter(cid:16)
vals(cid:10) in the SS(cid:16)ANOVA context(cid:8) which generalize the univariate Bayesian (cid:9)con(cid:23)dence intervals(cid:10) of
Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and further studied by Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8)Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) and Hall and Titterington
(cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and recently extended to the non(cid:16)Gaussian case by Gu (cid:3)(cid:6)(cid:18)(cid:18)(cid:14)(cid:4)(cid:11) In this paper we derive
these intervals for each component f(cid:2)(cid:2)f(cid:2)(cid:4)(cid:8) etc(cid:11) to be included in the ANOVA decomposition(cid:11)
More importantly we obtain them in a manner which allows a stable and e(cid:28)cient calculation(cid:11) In
addition we demonstrate how they may be computed using RKPACK(cid:11) We suggest their properties
via a Monte Carlo study(cid:11)
It is a major task of nonparametric regression to provide some sort of accuracy information
concerning the resulting estimate(cid:11) Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) described Bayesian (cid:9)con(cid:23)dence intervals(cid:10) for
the (cid:3)one component(cid:4) smoothing spline model by deriving the posterior covariance for f given the
Bayes model which is associated with spline smoothing(cid:8) and showed by a Monte Carlo study that
these con(cid:23)dence intervals appeared to have a certain frequentist property for f in certain function
spaces(cid:11) Thispropertyisan(cid:9)across(cid:16)the(cid:16)function(cid:10)property(cid:11) (cid:9)Across(cid:16)the(cid:16)function(cid:10)meansthatwhen
restricting the (cid:18)(cid:20)(cid:29) con(cid:23)dence intervals to the n data points(cid:8) around (cid:18)(cid:20)(cid:29) of them will cover the
values of the true curve there(cid:11) A partly heuristic theoretical argument why this could be expected
was given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:8) and later Nychka (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:8) and
Cox (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4) provided theorems concerning when and why they should work(cid:11) Other de(cid:23)nitions of
(cid:14)
con(cid:23)dence regions are of interest(cid:8) in particular(cid:8) a set of intervals that are required to cover (cid:6)(cid:7)(cid:7)(cid:29)
of the points with probability (cid:11)(cid:18)(cid:20)(cid:11) Such intervals can be expected to be wider that the intervals
considered in Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) See for example Li (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) Hall and Titterington (cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:4)(cid:11) To us(cid:8) it
is important and useful that the weaker de(cid:23)nition of (cid:9)con(cid:23)dence interval(cid:10) which is adopted in
Wahba (cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4) and assumed here leads to intervals which are easy to interpret psychologically(cid:11) In
simulations(cid:8) when the intervals cover about (cid:18)(cid:20)(cid:29) of the values of the true curve at the data points(cid:8)
the intervals more or less (cid:9)graze(cid:10) the truth(cid:8) and the width of the intervals is visually interpretable
by an unsophisticated user as an accuracy indicator(cid:11) We note that these con(cid:23)dence intervals are
not in general pointwise con(cid:23)dence intervals (cid:3)there aren(cid:24)t many (cid:9)free lunches(cid:10) in nonparametric
regression(cid:4) (cid:30) the coverage will tend to be less than nominal where the true curve has sharp peaks
or kinks and more where the true curve is smooth(cid:11) If the user interprets them appropriately across
the function(cid:8) he or she will have a reasonable feel for the overall accuracy of the estimate(cid:11)
The results of the Monte Carlo study described here are suggestive that the componentwise
con(cid:23)dence intervals roughly have the same (cid:9)across(cid:16)the function(cid:10) coverage property for each com(cid:2)
ponent(cid:8)intheexampleswehavechosen(cid:11) Thereadermayjudgefromtheplottedcon(cid:23)dence intervals
overlaying the true function the psychological information that is conveyed by the intervals(cid:11)
As a byproduct(cid:8) we obtain another useful graphical tool(cid:17) In estimating functions of two (cid:3)or
more(cid:4) variables by nonparametric methods(cid:8) the data are frequently arranged irregularly(cid:11) This is
particularly true for geographic data(cid:11) While it is tempting to plot the estimate in(cid:8) say(cid:8) a rectangle(cid:8)
once one is su(cid:28)ciently far from the data the nonparametric estimates become meaningless(cid:11) We
propose using certain contours of constant posterior standard deviation to bound an area within
which the estimated function is to be displayed(cid:11)
In Section (cid:14) we brie(cid:31)y review and slightly extend the SS(cid:16)ANOVA framework given in Gu and
Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:6)a(cid:8)(cid:6)(cid:18)(cid:18)(cid:15)(cid:4)(cid:11) This will establish notation and demonstrate the key ingredients of a general
SS(cid:16)ANOVA(cid:11) In Section (cid:15) we give the component(cid:16)wise posterior covariance functions(cid:11) The proof is
relegated to Appendix A(cid:11) In Section (cid:21) we review some known reproducing kernels which are useful
in SS(cid:16)ANOVA(cid:11) In Section (cid:20) we provide the details of how RKPACK may be used to carry out
the calculations of the Bayesian (cid:9)con(cid:23)dence intervals(cid:10) (cid:8) and in Section (cid:25) we present the results of
a small Monte(cid:16)Carlo study on simulated data(cid:11) In Section (cid:27) we describe the application to some
data on lake acidity as a function of geographical location and calcium concentration from the
(cid:15)
Eastern Lake Survey (cid:3)Douglas and Delampady (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:4)(cid:11) In our original submission we suggested
whatassumptions and lemmas might be necessary toextend the main theoretical results of Nychka
(cid:3)(cid:6)(cid:18)(cid:19)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4) concerning the properties of the (cid:3)single component(cid:4) Bayesian (cid:9)con(cid:23)dence intervals(cid:10)
to the component(cid:16)wise case considered here(cid:11) This part has been deleted at the suggestion of the
referees(cid:8) but may be found in Gu and Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:6)c(cid:4)(cid:8) Appendix B(cid:11)
(cid:2) Analysis of Variance in RKHS
Wewill alwaysassumethatf is in someRKHS(cid:8) thatis(cid:8) a Hilbert space offunctions in which all the
point evaluations are bounded(cid:11) See Aronszajn (cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:8) Weinert (cid:3)(cid:6)(cid:18)(cid:19)(cid:14)(cid:4)(cid:8) Mate (cid:3)(cid:6)(cid:18)(cid:19)(cid:18)(cid:4)(cid:8) and Wahba
(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The last two give an expository description of facts about RKHS that are used here(cid:11)
Let now H be some RKHS of real(cid:16)valued functions of t (cid:2) (cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4) (cid:4) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5)T(cid:3)d(cid:4)(cid:8)
(cid:3)(cid:2)(cid:4)
where we may allow t(cid:2) (cid:4) T (cid:8) an arbitrary measureable index set(cid:8) and(cid:8) furthermore(cid:8) suppose the
one dimensional space of constant functions on T is a subspace of H(cid:11) Then there are many ways
that an ANOVA(cid:16)like decomposition of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4)can be de(cid:23)ned for f in such a space(cid:11) We now
(cid:3)(cid:2)(cid:4)
give a general construction(cid:11) For each (cid:6) (cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)d(cid:8) construct a probability measure d(cid:9)(cid:2) on T (cid:8)
with the property that the symbol (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:8) de(cid:23)ned by
(cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4)(cid:2) f(cid:3)t(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)td(cid:4)d(cid:9)(cid:2)(cid:3)t(cid:2)(cid:4)
T(cid:0)(cid:2)(cid:4)
Z
is well de(cid:23)ned and (cid:23)nite for every f (cid:4) H and t(cid:4) T (cid:3)although of course (cid:3)E(cid:2)f(cid:4)(cid:3)t(cid:4) will not vary with
t(cid:2)(cid:4)(cid:11) We need the further assumption(cid:8) that considering (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4) as a function of t(cid:8) then it de(cid:23)nes
an element of H(cid:11) We will henceforth assume that this condition holds (cid:3)we will construct a generic
example shortly(cid:4)(cid:8) then we can consider E(cid:2) as an operator fromH to H(cid:11) We will call such operators
averaging operators(cid:11) Consider
I (cid:2) (cid:3)E(cid:2)(cid:5)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4)(cid:2) E(cid:2)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4) E(cid:4)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) E(cid:5)(cid:5)(cid:0)(cid:0)(cid:0)(cid:5) (cid:3)I(cid:3)E(cid:2)(cid:4)(cid:4)
(cid:2) (cid:2) (cid:2) (cid:4)(cid:5)(cid:5)(cid:2) (cid:2)(cid:3)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4) (cid:2)
Y Y X Y X Y Y
(cid:3)(cid:14)(cid:4)(cid:6)(cid:4)
Thisdecompositionoftheidentitythenalwaysgeneratesaunique(cid:3)ANOVA(cid:16)like(cid:4)decompositionoff
oftheform(cid:3)(cid:6)(cid:11)(cid:14)(cid:4)whereC (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4) (cid:4)(cid:5)(cid:5)(cid:2)E(cid:4)(cid:4)f(cid:2)f(cid:2)(cid:4) (cid:2) (cid:3)(cid:3)I(cid:3)E(cid:2)(cid:4)(cid:3)I(cid:3)E(cid:4)(cid:4) (cid:5)(cid:5)(cid:5)(cid:2)(cid:7)(cid:4)E(cid:5)(cid:4)f(cid:8)
etc(cid:8) are the mean(cid:8) main e(cid:22)ecQts(cid:8) two factorinteractioQns(cid:8) etc(cid:11) Note that the componentsQwill depend
on the measures d(cid:9)(cid:2) and these should be chosen in a speci(cid:23)c application so that the (cid:23)tted mean(cid:8)
main e(cid:22)ects(cid:8) etc(cid:11) have reasonable interpretations(cid:11)
(cid:21)
(cid:3)(cid:2)(cid:4)
This construction specializes to the ordinary two way layout by taking d (cid:2) (cid:14) and T (cid:2)
f(cid:6)(cid:2)(cid:14)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)K(cid:2)g for (cid:6) (cid:2) (cid:6)(cid:2)(cid:14)(cid:8) T (cid:2) T(cid:3)(cid:0)(cid:4)(cid:5)T(cid:3)(cid:2)(cid:4) and letting E(cid:0)f(cid:3)t(cid:4)(cid:2) K(cid:0)(cid:2) K(cid:5)(cid:5)(cid:2)(cid:0)f(cid:3)(cid:10)(cid:2)t(cid:2)(cid:4)(cid:8) and similarly for
E(cid:2)(cid:11) f(cid:3)(cid:0)(cid:4)and (cid:3)E(cid:2)f(cid:4)(cid:3)(cid:0)(cid:4)should be thought of as K (cid:2) K(cid:0)(cid:6)K(cid:2) vectorshPere(cid:11) Although other averaging
operators are obviously possible(cid:8) this pair seems to be in common use in the usual two(cid:16)way layout
without much particular justi(cid:23)cation(cid:11) Note that if we adopt the ordinary Euclidean inner product
for functions de(cid:23)ned on K dimensional Euclidean space(cid:8) then the ranges of the four operators
E(cid:0)E(cid:2)(cid:2)E(cid:0)(cid:3)I (cid:3)E(cid:2)(cid:4)(cid:2)(cid:3)I(cid:3)E(cid:0)(cid:4)E(cid:2)(cid:8)and (cid:3)I (cid:3)E(cid:0)(cid:4)(cid:3)I (cid:3)E(cid:2)(cid:4) consist of four orthogonal subspaces of Euclidean
K(cid:16)space whose direct sum is Euclidean K(cid:16)space(cid:11) In that case the components are easy to estimate
and have an intuitive meaning for the user(cid:11) Note that in the usual d(cid:16)way layout(cid:8) the functions of
interest are only de(cid:23)ned on the design points(cid:8) but that with the ANOVA that we will study(cid:8) the
functions may have a much larger domain(cid:8) and(cid:8) although the domain is required to have a tensor
product structure(cid:8) we will see that the design may not(cid:11)
In the general RKHS case(cid:8) the rangeofeach operatorof theform (cid:2)(cid:2)(cid:7)(cid:6)(cid:6)(cid:6)(cid:7)(cid:2)kE(cid:2) (cid:2)k(cid:3)(cid:2)(cid:7)(cid:8)(cid:8)(cid:7)(cid:2)d(cid:3)I(cid:3)E(cid:4)(cid:4)
is a subspace of H(cid:8) however(cid:8) these subspaces are not necessarily orQthogonal wiQth respect to the
inner product in H(cid:11) In this paper we will restrict ourselves to ANOVA decompositions in RKHS
such that the ranges of these operators are orthogonal(cid:11) This will result in components that are
relatively easy to estimate and that may have an intuitive meaning for the user(cid:11)
We will now show how to construct generic RKHS(cid:24)s satisfying the above conditions(cid:8) so that
the subspaces which are ranges of sums of products of the E(cid:2) and I (cid:3)E(cid:2) are all orthogonal in the
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
inner product of the space(cid:11) Let H be an RKHS of functions on T with T(cid:0)(cid:2)(cid:4)f(cid:3)t(cid:2)(cid:4)d(cid:9)(cid:2) (cid:2) (cid:7)(cid:8)
f (cid:4) H(cid:3)(cid:2)(cid:4)(cid:8) and let (cid:12)(cid:6)(cid:3)(cid:2)(cid:4)(cid:13) be the one dimensional space of constant functions onRT(cid:3)(cid:2)(cid:4)(cid:11) Consider the
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
space (cid:12)(cid:6) (cid:13)(cid:7)H (cid:8) where (cid:7) is tensor (cid:3)or direct(cid:4) sum(cid:11) Then any f in this space will have a unique
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
decomposition f (cid:2) Pcf (cid:5)(cid:3)f (cid:3)Pcf(cid:4)(cid:8) with Pcf (cid:2) fd(cid:9)(cid:2) (cid:4) (cid:12)(cid:6) (cid:13) and (cid:3)f (cid:3)Pcf(cid:4) (cid:4) H (cid:8) we endow
this space with the square norm kfk(cid:2) (cid:2) (cid:3)Pcf(cid:4)(cid:2)(cid:5)Rkf (cid:3)Pcfk(cid:2)H(cid:0)(cid:2)(cid:4)(cid:11) Now(cid:8) let
d (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
H (cid:2) (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:12)(cid:6) (cid:13)(cid:7)H (cid:13)(cid:2) (cid:3)(cid:14)(cid:4)(cid:14)(cid:4)
d
where (cid:5)(cid:2)(cid:5)(cid:0) is the tensor product of the d Hilbert spaces in brackets(cid:11) See Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4) for a
detailed discussion of tensor sums and tensor products of RKHS and Wahba(cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:8) Section (cid:6)(cid:7)(cid:4) for
examples(cid:11) Further examples will be given later(cid:11)
(cid:20)
The right hand side of (cid:3)(cid:14)(cid:11)(cid:14)(cid:4) can be expanded as
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
H (cid:2) (cid:12)(cid:6)(cid:13)(cid:7) (cid:12)H (cid:13)(cid:7) (cid:12)H (cid:5)H (cid:13)(cid:7)(cid:0)(cid:0)(cid:0)(cid:2) (cid:3)(cid:14)(cid:4)(cid:15)(cid:4)
(cid:2) (cid:4)(cid:3)(cid:2)
X X
d (cid:3)(cid:2)(cid:4)
where we have written (cid:12)(cid:6)(cid:13) to denote (cid:5)(cid:2)(cid:5)(cid:0)(cid:12)(cid:6) (cid:13)(cid:8) the constant functions on T and(cid:8) with some abuse
(cid:3)(cid:2)(cid:4)
of notation(cid:8) we have supressed (cid:12)(cid:6) (cid:13) whenever it multiplies a term of a di(cid:22)erent form(cid:11) That is(cid:8) we
(cid:3)(cid:0)(cid:4) (cid:3)(cid:0)(cid:4) d (cid:3)(cid:2)(cid:4)
have written H instead of H (cid:5)(cid:2)(cid:5)(cid:2) (cid:12)(cid:6) (cid:13)(cid:8) and so forth(cid:11) Hopefully this makes clear that the
terms in brackets in (cid:3)(cid:14)(cid:11)(cid:15)(cid:4) are all subspaces of functions on T(cid:8) even though the functions in them
do not all depend on all of the variables t(cid:0)(cid:2)(cid:4)(cid:4)(cid:4)(cid:2)td(cid:11)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
Here f(cid:2) (cid:4) H is called a main e(cid:22)ect(cid:8) f(cid:2)(cid:4) (cid:4) H (cid:5)H is a two factor interaction(cid:8) and so
forth(cid:11) We are continuing with this notational convention(cid:8) that is(cid:8) f(cid:2) is considered as an element of
H even though it is a constant function of all the t(cid:4)(cid:24)s except for (cid:11) (cid:2) (cid:6)(cid:11)
The subspaces in brackets in (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)are all orthogonalin the tensor product norm induced by the
original inner products(cid:11) Thus the decomposition of f of the form (cid:3)(cid:6)(cid:11)(cid:14)(cid:4) with C (cid:2) (cid:3) (cid:2)E(cid:2)(cid:4)f(cid:2)f(cid:2) (cid:4)
H(cid:3)(cid:2)(cid:4)(cid:8)f(cid:2)(cid:4) (cid:4) H(cid:3)(cid:2)(cid:4)(cid:5)H(cid:3)(cid:4)(cid:4) will beanorthogonaldecomposition(cid:11) ForotherinterestingvieQwsofanalysis
of variance(cid:8) see Antoniadis (cid:3)(cid:6)(cid:18)(cid:19)(cid:21)(cid:4) and Speed (cid:3)(cid:6)(cid:18)(cid:19)(cid:27)(cid:4)(cid:11)
We want one further decomposition(cid:8) to allow for the imposition of spline and related penalty
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
functionals(cid:11) Let H have an orthogonal decomposition H(cid:9) (cid:7)Hs (cid:8) where H(cid:9) is (cid:23)nite dimen(cid:16)
(cid:3)(cid:2)(cid:4)
sional (cid:3)the(cid:9)parametric(cid:10)part(cid:26) usually(cid:8) but not always(cid:8)polynomials(cid:4)(cid:8) and Hs (cid:3)the(cid:9)smooth(cid:10)part(cid:4)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4)
is the orthocomplement of H(cid:9) in H (cid:11) We will later let J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) kPs f(cid:2)kH(cid:0)(cid:2)(cid:4)(cid:8) where Ps is
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
the orthogonal projection operator in H onto Hs (cid:11) Thus the null space of J(cid:2) in H is H(cid:9) (cid:11)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
H (cid:5)H will be a direct sum of four orthogonal subspaces(cid:17)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
H (cid:5)H (cid:2) H(cid:9) (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:21)(cid:4)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
(cid:5) H(cid:9) (cid:5)Hs (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
(cid:5) Hs (cid:5)H(cid:9) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
(cid:5) Hs (cid:5)Hs (cid:4) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)
(cid:3)(cid:2)(cid:4) (cid:3)(cid:4)(cid:4)
By convention the elements of the (cid:23)nite dimensional space H(cid:9) (cid:5)H(cid:9) are not penalized(cid:11) We will
in Section (cid:21) let the penalties in the other subspaces be their square norms(cid:11)
At this point we have (cid:3)orthogonally(cid:4) decomposed H into sums of products of unpenalized (cid:23)nite
dimensional subspaces(cid:8) plus main e(cid:22)ects subspaces(cid:8) plus two factor interaction spaces of the form
(cid:25)
parametric (cid:5) smooth (cid:3)(cid:12)(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) smooth (cid:5) parametric (cid:3)s(cid:2)(cid:12)(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) and
smooth (cid:5) smooth (cid:3)s(cid:2)s(cid:4) of the form (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) and so on for the three and higher factor subspaces(cid:11)
Now we suppose that we have selected the model M(cid:8) that is(cid:8) we have decided which subspaces
(cid:6)
will be included(cid:11) Next(cid:8) collect all ofthe included unpenalized subspaces into a subspace(cid:8) call it H (cid:8)
(cid:4)
of dimension M(cid:8) and relabel the other subspaces as H (cid:2)(cid:11) (cid:2) (cid:6)(cid:2)(cid:14)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)p(cid:11) For example(cid:8) in the case
(cid:3)m(cid:4) (cid:2) (cid:3)(cid:2)(cid:4)
J(cid:2)(cid:3)f(cid:2)(cid:4) (cid:2) (cid:3)f(cid:2) (cid:3)u(cid:4)(cid:4) du(cid:8) H(cid:9) is spanned by the polynomials of degree less than m in t(cid:2) which
average toR(cid:7) under E(cid:2)(cid:8) and H(cid:6) is sums and products of such polynomials(cid:11) H(cid:4) may stand for a
(cid:3)(cid:2)(cid:4)
subspace Hs (cid:8) or one of the subspaces of the form (cid:3)(cid:14)(cid:11)(cid:20)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:25)(cid:4)(cid:8) (cid:3)(cid:14)(cid:11)(cid:27)(cid:4)(cid:8) or a higher order subspace(cid:11)
(cid:6) (cid:4)
Our model estimation problem becomes(cid:17) (cid:23)nd f (cid:4) M(cid:2) H (cid:7) (cid:4)H to minimize
n P
(cid:6) (cid:3)yi(cid:3)f(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:4)(cid:2)(cid:5)(cid:7) (cid:8)(cid:4)(cid:4)(cid:0)kP(cid:4)fk(cid:2)(cid:2) (cid:3)(cid:14)(cid:4)(cid:19)(cid:4)
n
i(cid:5)(cid:0) (cid:3)
X X
(cid:4) (cid:4) (cid:6)
where P is theorthogonal projectorin MontoH (cid:11) Given a basis forH (cid:8) and reproducing kernels
R(cid:4)(cid:3)s(cid:2)t(cid:4) for H(cid:4)(cid:8) an explicit formula for the minimizer f(cid:6) of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4) is well known(cid:26) see(cid:8) e(cid:11)g(cid:11)(cid:8) Chapter
(cid:6)(cid:7) of Wahba (cid:3)(cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The code RKPACK (cid:3)Gu(cid:8) (cid:6)(cid:18)(cid:19)(cid:18)(cid:4) may be used to compute the GCV estimates
of (cid:7) and the (cid:8)(cid:24)s(cid:11)
We end this section with a few remarks concerning the choice of the probability measure (cid:9)(cid:2)(cid:11)
(cid:3)(cid:2)(cid:4)
In the case T consists of K(cid:2) points it is natural to use the uniform measure on the points(cid:8) in
(cid:3)(cid:2)(cid:4)
any case this is the common practice in (cid:3)parametric(cid:4) ANOVA(cid:11) In the case T a (cid:23)nite interval(cid:8)
a natural choice(cid:8) which would lead to interpretable results(cid:8) would be to let (cid:9)(cid:2) be (cid:3)a multiple
(cid:3)(cid:2)(cid:4)
of(cid:4) Lebesgue measure(cid:11) In the case that the uniform measure on T cannot be scaled to be a
(cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4)
probability measure (cid:3)i(cid:11)e(cid:11)(cid:8) if T (cid:2) E (cid:4)(cid:8) another choice must be made(cid:11) A uniform measure over
a (cid:23)nite region of interest or a measure re(cid:31)ecting the observational density could be used(cid:11) In the
(cid:3)(cid:2)(cid:4)
examples in this paper we will use Lebesgue measure when T is (cid:12)(cid:7)(cid:8)(cid:6)(cid:13) and uniform measure on
(cid:3)(cid:2)(cid:4) k(cid:3)(cid:2)(cid:4)
the (cid:3)marginal(cid:4) design points when T (cid:2) E (cid:11)
(cid:3) Bayesian Posterior Covariances for Components
In this Section we provide general formulas for the Bayesian posterior covariances for the compo(cid:16)
nents of f estimated by minimizing (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) The component(cid:16)wise Bayesian (cid:9)con(cid:23)dence intervals(cid:24) are
thencomputedfromtherelevantposteriorstandarddeviations(cid:8)generalizing the(cid:3)single(cid:16)component(cid:4)
(cid:27)
Bayesian (cid:9)con(cid:23)dence intervals(cid:10) given in Wahba(cid:3)(cid:6)(cid:18)(cid:19)(cid:15)(cid:4)(cid:11) The computationof the relevant quantities
will be discussed in Section (cid:20)(cid:11)
We (cid:23)rst review some relevant facts(cid:11) Let R(cid:4)(cid:3)s(cid:2)t(cid:4) be the reproducing kernel for H(cid:4) and let
(cid:13)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:13)M span H(cid:6)(cid:11) Let X(cid:10)(cid:3)t(cid:4)(cid:2)t(cid:4) T (cid:2) (cid:5)(cid:2)T(cid:3)(cid:2)(cid:4) be a stochastic process de(cid:23)ned by
M p
X(cid:10)(cid:3)t(cid:4) (cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5)b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2)
(cid:11)(cid:5)(cid:0) (cid:4)(cid:5)(cid:0)
X Xq
(cid:2)
where (cid:14) (cid:2) (cid:3)(cid:14)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:14)M(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:15)I(cid:4)(cid:8) the Z(cid:4) are independent(cid:8) zero mean Gaussian stochastic pro(cid:16)
cesses(cid:8)independent ofthe(cid:14)(cid:11)(cid:8)withEZ(cid:4)(cid:3)s(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:2) R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) WehaveZ(cid:3)t(cid:4)(cid:2) (cid:4) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)satis(cid:23)es
EZ(cid:3)s(cid:4)Z(cid:3)t(cid:4)(cid:2) R(cid:3)s(cid:2)t(cid:4) where R(cid:3)s(cid:2)t(cid:4)(cid:8) (cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:11) P p
Now(cid:8) let P
Yi (cid:2) X(cid:10)(cid:3)t(cid:3)i(cid:4)(cid:4)(cid:5)(cid:3)i(cid:2) i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)n(cid:2)
(cid:2) (cid:2)
where (cid:3) (cid:2)(cid:3)(cid:3)(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)(cid:3)n(cid:4) (cid:2) N(cid:3)(cid:7)(cid:2)(cid:5) I(cid:4)(cid:11) Let
f(cid:6)(cid:3)t(cid:4)(cid:2) limEfX(cid:10)(cid:3)t(cid:4)jYi (cid:2) yi(cid:2)i(cid:2) (cid:6)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)ng
(cid:10)(cid:7)(cid:6)
(cid:2)
and set b(cid:2) (cid:5) (cid:16)n(cid:7)(cid:11) It is well known (cid:3)Kimeldorf and Wahba(cid:8) (cid:6)(cid:18)(cid:27)(cid:6)(cid:4)(cid:8) that
M n
f(cid:6)(cid:3)t(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)(cid:5) ciR(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4) (cid:3)(cid:15)(cid:4)(cid:6)(cid:4)
(cid:11)(cid:5)(cid:0) i(cid:5)(cid:0)
X X
(cid:2) (cid:2)
where d (cid:2) (cid:3)d(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:4) and c(cid:2) (cid:3)c(cid:0)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:4) are given by
(cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0)
d (cid:2) (cid:3)S M S(cid:4) S M y (cid:3)(cid:15)(cid:11)(cid:14)(cid:4)
(cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0) (cid:4)(cid:0) (cid:2) (cid:4)(cid:0)
c (cid:2) (cid:3)M (cid:3)M S(cid:3)S M S(cid:4) S M (cid:4)y (cid:3)(cid:15)(cid:11)(cid:15)(cid:4)
whereS isthe n(cid:6)M matrixwithi(cid:17)thentry(cid:13)(cid:11)(cid:3)t(cid:3)i(cid:4)(cid:4)andM (cid:2) (cid:5)n(cid:7)I(cid:8)where isthe n(cid:6)nmatrix
withijthentryR(cid:3)t(cid:3)i(cid:4)(cid:2)t(cid:3)j(cid:4)(cid:4)(cid:11) Itis alwaysbeing assumed thatS isoffull column rank(cid:11) Furthermore(cid:8)
for any (cid:7)(cid:18) (cid:7)(cid:8) f(cid:6) is the minimizer of (cid:3)(cid:14)(cid:11)(cid:19)(cid:4)(cid:11) See also Wahba (cid:3)(cid:6)(cid:18)(cid:27)(cid:19)(cid:8) (cid:6)(cid:18)(cid:18)(cid:7)(cid:4)(cid:11) The projections of f(cid:6) on
the various subspaces are the posterior means of the corresponding components and can be read
o(cid:22) of (cid:3)(cid:15)(cid:11)(cid:6)(cid:4)(cid:11) For example(cid:8) let g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)(cid:2) (cid:14)(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4) and g(cid:4)(cid:3)t(cid:4)(cid:2) b(cid:0)(cid:12)(cid:2) (cid:8)(cid:4)Z(cid:4)(cid:3)t(cid:4)(cid:8) then we have
p
E(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) d(cid:11)(cid:13)(cid:11)(cid:3)t(cid:4)
n
E(cid:3)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) ci(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4)(cid:4)
i(cid:5)(cid:0)
X
The posterior covariances of g(cid:6)(cid:7)(cid:11) and g(cid:4) are summarized in the following theorem(cid:11)
(cid:19)
Theorem (cid:2)(cid:3)(cid:4)
(cid:6)Cov(cid:3)g(cid:6)(cid:7)(cid:11)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:13)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:13)(cid:11)(cid:3)s(cid:4)(cid:13)(cid:13)(cid:3)t(cid:4)e(cid:2)(cid:11)(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)e(cid:13)
b
(cid:6)
Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:6)(cid:7)(cid:11)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3)d(cid:11)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:13)(cid:11)(cid:3)t(cid:4)
b
n
(cid:6)
Cov(cid:3)g(cid:4)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:4)(cid:3) ci(cid:7)(cid:4)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4)
b
i(cid:5)(cid:0)
X
n
(cid:6)
Cov(cid:3)g(cid:5)(cid:3)s(cid:4)(cid:2)g(cid:4)(cid:3)t(cid:4)jy(cid:4) (cid:2) (cid:3) ci(cid:7)(cid:5)(cid:3)s(cid:4)(cid:8)(cid:4)R(cid:4)(cid:3)t(cid:2)t(cid:3)i(cid:4)(cid:4)
b
i(cid:5)(cid:0)
X
where e(cid:11) is the (cid:17)th unit vector(cid:3) and (cid:3)d(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)dM(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2) d(cid:4)(cid:3)s(cid:4)(cid:2) and (cid:3)c(cid:0)(cid:7)(cid:4)(cid:3)s(cid:4)(cid:2)(cid:0)(cid:0)(cid:0)(cid:2)cn(cid:7)(cid:4)(cid:3)s(cid:4)(cid:4) (cid:2)
c(cid:4)(cid:3)s(cid:4)(cid:2) are given by
(cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4)
d(cid:4)(cid:3)s(cid:4) (cid:2) (cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:21)(cid:4)
B C
BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC
B C
(cid:7) A
(cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)(cid:6)(cid:4)(cid:4)
c(cid:4)(cid:3)s(cid:4) (cid:2) (cid:12)M(cid:4)(cid:0)(cid:3)M(cid:4)(cid:0)S(cid:3)S(cid:2)M(cid:4)(cid:0)S(cid:4)(cid:4)(cid:0)S(cid:2)M(cid:4)(cid:0)(cid:13)(cid:6) (cid:4)(cid:4)(cid:4) (cid:8) (cid:3)(cid:15)(cid:11)(cid:20)(cid:4)
B C
BB (cid:8)(cid:4)R(cid:4)(cid:3)s(cid:2)t(cid:3)n(cid:4)(cid:4) CC
B C
(cid:7) A
The proof is given in Appendix A(cid:11) It is clear that the calculation of the posterior covariances boils
(cid:2) (cid:4)(cid:0) (cid:4)(cid:0)
down to the calculation of (cid:3)S M S(cid:4) (cid:8) c(cid:4) and d(cid:4)(cid:8) which we will pursue in Section (cid:20)(cid:11)
(cid:4) Spline Penalty Functionals and Reproducing Kernels for SS(cid:5)
ANOVA Models
We remind the reader (cid:3)see Aronszajn(cid:3)(cid:6)(cid:18)(cid:20)(cid:7)(cid:4)(cid:4) that reproducing kernels (cid:3)RK(cid:24)s(cid:4) for tensor products
(cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4)
of RKHS are just the products of the individual RK(cid:24)s(cid:11) In symbols(cid:8) if H and H are RKHS of
(cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2)
functionsde(cid:23)ned onT andT respectively withRK(cid:24)sR (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)andR (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)thentheRK R
(cid:3)(cid:0)(cid:4) (cid:3)(cid:2)(cid:4) (cid:2) (cid:2) (cid:2) (cid:2) (cid:3)(cid:0)(cid:4) (cid:2) (cid:3)(cid:2)(cid:4) (cid:2)
forH (cid:5)H is the function of(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)and (cid:3)t(cid:0)(cid:2)t(cid:2)(cid:4)given by R(cid:3)t(cid:0)(cid:2)t(cid:2)(cid:26)t(cid:0)(cid:2)t(cid:2)(cid:4) (cid:2) R (cid:3)t(cid:0)(cid:2)t(cid:0)(cid:4)R (cid:3)t(cid:2)(cid:2)t(cid:2)(cid:4)(cid:11)
(cid:3)(cid:2)
By iterating this process (cid:3)and silently using the fact that the RK for (cid:12)(cid:6) (cid:13) with the norm de(cid:23)ned
implicitly just before (cid:3)(cid:14)(cid:11)(cid:14)(cid:4)is the constant(cid:6)(cid:4) it can be seen thatall ofthe R(cid:4)(cid:3)s(cid:2)t(cid:4) thatwe need will
(cid:3)(cid:2)(cid:4) (cid:3)(cid:2)(cid:4)
be known once we know the reproducing kernels for the H(cid:9) and Hs (cid:11) In the simulations below
(cid:3)(cid:2)(cid:4)
we will use H that correspond to polynomial and thin plate splines respectively(cid:11) Examples of
(cid:18)
Description:M span H0. Let X (t)t2 T = T() be a stochastic process de ned by. X (t) = M. X. =1. (t) + b1=2. pX In J. Moody, S. Hanson, and R. Lippman, editors,.